推薦序
你知道自己一天產生多少資料嗎?是的,你的活動和古時候的人沒什麼兩樣,當然你可以走的比古時候的人遠,因為有了高科技的交通工具,也因為高科技的影音及娛樂,你的日常生活也比古時候的人更豐富,但不管如何,還是脫離不了食衣住行育樂。
但你和古時候人最大的不同,就是他的一天過完就沒了,但你的一天卻產生了大量的「數位」資料。古時候的人頂多寫日記,這篇日記在以文字檔為主的資料庫中可能佔的空間接近0。但你我呢?
就不要說照相攝影打卡這麼主動產生的資料了。你的上網記錄(IP、網站、停留時間、在頁面上駐點的位置);你的行動記錄(GPS位置經緯度、行車記錄器 的影像、到達處附近的景點、餐廳、銀行....)。你的購買記錄(金額、時間、消費種類、發生地點...)。全世界70億人每天活動的資料,早就因為數位 化及網路普及的關係,點點滴滴都以位元的方式存入「某個」儲存空間了。
根據Google前執行長史密特的說法,人類在2003年之後,每年產生的資料量,是人類歷史活動的總合至前一年的資料。換句話說,每年產生出有用沒用資料的數量是成指數成長的,如此一來,資料「放在哪」、「放得下」、「不會掉」,這三點非常重要!
我們早就習慣雲端時代了,東西只要「放在雲端上」就好了。但從硬體的角度來看,資料還是放硬碟、光碟,資料的存取還是「電腦」,這些基本的硬體設備幾十 年來除了容量速度之外,原理還是沒什麼變,那我們要怎麼樣利用「軟體」的技術,將這些硬體重新排列組合,來應付每天產生2.5EB(2012年時的統計) 的資料呢?
以每年產生10ZB(2.5EB x 365天),又以指數方式成長的速度來看,人類的資料量在2020年前會到達YB等級,什麼是YB?
這麼說吧,以目前大家常用的硬碟為1TB,那麼10ZB就是100億顆這個容量的硬碟,而且是每年100億顆。100顆硬碟有多少呢?可以繞地球 4000圈!這麼多硬碟,這麼多資料,還要備份,還要隨時可存取,還要從這麼多資料中找出有意義的資訊,這件事怎麼看,都是人類有史以來最大的工程!怎麼 辦呢?
這本書有你想知道的所有答案。