序
在PC時代開始,我們用鍵盤、掃描器等設備進行資訊的資料化。在行動網路時代,手機通過攝影機、GPS、陀螺儀等各種感測器將我們的位置、行動軌跡、行為偏好,甚至情緒等資訊資料化。截至2000年,全人類儲存了大約12EB 的資料,要知道1PB=1024TB,而1EB=1024PB。但是到了2011 年,一年所產生的資料就高達1.82ZB(注:1ZB=1024EB),資料已經變成了一種人造的「新能源」。
在商業領域,從資訊到商品,從商品到服務,越來越多我們熟悉的事物被標準的資料所度量。無論是線上廣告的精準行銷,還是電子商務的個性化推薦,又或者是網路金融的人臉識別,網路的每一次效率提升都依賴於對傳統資訊、物品,甚至人的資料化。在使用資料進行效率變革及商業化的道路上,Excel 和Python 扮演了關鍵的角色,它們協助資料分析師高效地從海量資料中發現問題,驗證假設,建構模型,預測未來。
作為一本資料分析的專業書籍,作者從資料取得、清洗、抽取,以及資料視覺化等多個角度介紹了日常工作中資料分析的標準路徑。藉由同時呈現Excel 與Python 在資料處理過程中的操作步驟,詳細說明了Excel 與Python 間的差異,以及用Python 進行資料分析的方法。
雖與作者素未謀面,但是對於Python在處理海量資料和建模上的高效性與便捷性,以及Python在機器學習中的重要性,我們的觀點是一致的。同時,我們也相信對於資料分析人員來說,掌握一種用於資料處理的程式設計語言是非常必要的,而從Excel 到Python 的學習方法則是一條學好資料分析的「捷徑」。
王彥平