怎樣進行大數據的入門級學習？

我在去年年底的時候曾應一位前輩的要求，寫了一個學習“數據科學：從入門到進階”的經驗貼，我就直接把它貼在下面了。雖然題主問的是大數據的入門，但在我看來“大數據”就是數據科學的一個高階狀態。以下內容中除個別情況，我基本上都會使用“數據科學”這個概念。

---------------------------------正文---------------- -------------------

數據科學並沒有一個獨立的學科體系，統計學，機器學習，數據挖掘，數據庫，分佈式計算，雲計算，訊息可視化等技術或方法來對付數據。但從狹義上來看，我認為數據科學就是解決三個問題：
1. data pre-processing;
2. data interpretation；
3.data modeling and analysis.
這也就是我們做數據工作的三個大步驟：
1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程，才能形成高質量的數據；
2、我們想看看數據“長什麼樣”，有什麼特點和規律；
3、按照自己的需要，比如要對數據貼標籤分類，或者預測，或者想要從大量複雜的數據中提取有價值的且不易發現的訊息，都要對數據建模，得到output。
這三個步驟未必嚴謹，每個大步驟下面可能依問題的不同也會有不同的小步驟，但按我這幾年的經驗來看，按照這個大思路走，數據一般不會做跑偏。

這樣看來，數據科學其實就是門複合型的技術，既然是技術就從編程語言談起吧，為了簡練，只說說R和Python。但既然是薦數據科學方面的書，我這裡就不提R/Python編程基礎之類的書了，直接上跟數據科學相關的。

R programming

如果只是想初步了解一下R語言已經R在數據分析方面的應用，那不妨就看看這兩本：

R in action：我的R語言大數據101。其實對於一個沒有任何編程基礎的人來說，一開始就學這本書，學習曲線可能會比較陡峭。但如果配合上一些輔助材料，如官方發布的R basics（http:// cran.r-project.org/doc/ contrib/usingR.pdf），stackoverflow上有tag-R的問題集（Newest 'r' Questions），遇到復雜的問題可在上面搜索，總會找到解決方案的。這樣一來，用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕鬆，緊貼實戰。

Data analysis and graphics using R：使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰，沒有過多地講解統計學理論，所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強，也就是說哪怕你手頭沒電腦寫不了代碼，有事沒事拿出這本書翻一翻，也能讀得進去。

但如果你先用R來從事實實在在的數據工作，那麼上面兩本恐怕不夠，還需要這些：

Modern applied statistics with S：這本書裡統計學的理論就講得比較多了，好處就是你可以用一本書既複習了統計學，又學了R語言。（S/Splus和R的關係就類似於Unix和Linux，所以用S教程學習R，一點問題都沒有）

Data manipulation with R：這本書實務性很強，它教給你怎麼從不同格式的原始數據文件裡讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣，本書也有豐富的真實數據或模擬數據供你練習。對於真正從事數據處理工作的人來說，這本書的內容非常重要，因為對於任何研究，一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則，你的研究總是要等待你的數據。

R Graphics Cookbook：想用R做可視化，就用這本書吧。 150多個recipes，足以幫你應付絕大多數類型的數據。以我現在極業餘的可視化操作水平來看，R是最容易做出最漂亮的圖表的工具了。

An introduction to statistical learning with application in R：這本書算是著名的the element of statistical learning的姊妹篇，後者更注重統計（機器）學習的模型和算法，而前者所涉及的模型和算法原沒有後者全面或深入，但卻是用R來學習和應用機器學習的很好的入口。

A handbook of statistical analysis using R：這本書內容同樣非常紮實，很多統計學的學生就是用這本書來學習用R來進行統計建模的。

Python

Think Python，Think Stats，Think Bayes：這是Allen B. Downey寫的著名的Think X series三大卷。其實是三本精緻的小冊子，如果想快速地掌握Python在統計方面的操作，好好閱讀這三本書，認真做習題，答案鏈接在書裡有。這三本書學通了，就可以上手用Python進行基本的統計建模了。

Python For Data Analysis：作者是pandas的主要開發者，也正是Pandas使Python能夠像R一樣擁有dataframe的功能，能夠處理結構比較複雜的數據。這本書其實analysis講得不多，說成數據處理應該更合適。掌握了這本書，處理各種糟心的數據就問題不大了。

Introduction to Python for Econometrics, Statistics and Data Analysis：這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面，但讀起來比較枯燥，可以用來當工具書。

Practical Data Analysis：這本書挺奇葩，貌似很暢銷，但作者把內容安排得東一榔頭西一棒子，什麼都講一點，但一個都沒講透。這本書可以作為我們學習數據分析的一個索引，看到哪塊內容有意思，就順著它這個藤去摸更多的瓜。

Python Data Visualization Cookbook：用Python做可視化的教材肯定不少，我看過的也就這一本，覺得還不錯。其實這類書差別都不會很大，咬住一本啃下來就是王道。

Exploratory Data Analysis和Data Visualization

Exploratory Data Analysis：John Tukey寫於1977年的經典老教材，是這一領域的開山之作。如今EDA已經是統計學裡的重要一支，但當時還是有很多人對他的工作不屑一顧。可他愛數據，堅信數據可以以一種出人意料的方式呈現出來。正是他的努力，讓數據可視化成為一門無比迷人的技術。但這本書不推薦閱讀了，內容略過時。要想完整地了解EDA，推薦下一本：

Exploratory Data Analysis with MATLAB：這本書雖然標題帶了個MATLAB，但實際上內容幾乎沒怎麼講MATLAB，只是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在於，這是我讀過的講EDA最系統的一本書，除了對visualization有不輸於John Tucky的講解外，對於高維的數據集，通過怎樣的方法才能讓我們從中找到潛在的pattern，這本書也做了詳盡的講解。全書所以案例都有對應的MATALB代碼，而且還提供了GUI（圖形用戶界面）。所以這本書學起來還是相當輕鬆愉悅的。

Visualize This：中譯本叫“鮮活的數據”，作者是個“超級數據迷”，建立了一個叫http:// flowingdata.com的網頁展示他的數據可視化作品，這本書告訴你該選擇什麼樣的可視化工具，然後告訴你怎樣visualize關係型數據、時間序列、空間數據等，最後你就可以用數據講故事了。如果你只想感受一下數據可視化是個什麼，可以直接點開下面這個鏈接感受下吧！ A tour through the visualization zoo（A Tour Through the Visualization Zoo）

Machine Learning & Data Mining

這一塊就不多說了，不是因為它不重要，而是因為它太太太重要。所以這一部分就推兩本書，都是”世界名著“，都比較難讀，需要一點點地啃。這兩本書拿下，基本就算是登堂入室了。其實作為機器學習的延伸和深化，概率圖模型（PGM）和深度學習（deep learning）同樣值得研究，特別是後者現在簡直火得不得了。但PGM偏難，啃K.Daphne那本大作實在太燒腦，也沒必要，而且在數據領域的應用也不算很廣。 deep learning目前工業界的步子邁得比學術界的大，各個domain的應用如火如荼，但要有公認的好教材問世則還需時日，所以PGM和deep learning這兩塊就不薦書了。

The Element of Statistical Learning：要學機器學習，如果讓我只推荐一本書，我就推薦這本巨著。 Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了，大廈建得夠高夠大，結構也非常嚴謹，而且很有前瞻性，納入了很多前沿的內容，而不僅僅是一部綜述性的教材。（圖表也做得非常漂亮，應該是用R語言的ggplot2做的。）這本書注重講解模型和算法本身，所以需要具備比較紮實的數理基礎，啃起這本書來才不會太吃力。事實上掌握模型和算法的原理非常重要。機器學習（統計學習）的庫現在已經非常豐富，即使你沒有完全搞懂某個模型或算法的原理和過程，只要會用那幾個庫，機器學習也能做得下去。但你會發現你把數據代進去，效果永遠都不好。但是，當你透徹地理解了模型和算法本身，你再調用那幾個庫的時候，心情是完全不一樣的，效果也不一樣。

Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 數據挖掘的教材汗牛充棟，之所以推薦這本韓家煒爺爺的，是因為雖然他這本書的出發點是應用，但原理上的內容也一點沒有落下，內容非常完整。而且緊跟時代，更新的很快，我看過的是第二版，就已經加進去了social network analysis這種當時的前沿內容。現在已經有第三版了，我還沒看過，但應該也加入了不少新內容。其實這本書並不難讀，只是篇幅較長，啃起來比較耗時。

其實這兩本書裡單拎出來一塊內容可能又是幾本書的節奏，比如bayesian方法，再拿出兩三本書來講也不為過，我個人用到的比較多，而且也確實有不少好書。但並非是所有data scientist都要用到，所以這一塊就不再細說。

還有一些印像比較深刻的書：
Big Data Glossary：主要講解大數據處理技術及工具，內容涵蓋了NoSQL，MapReduce，Storage，Servers，NLP庫與工具包，機器學習工具包，數據可視化工具包，數據清洗，序列化指南等等。總之，是一本辭典式的大數據入門指導。

Mining of Massive Datasets：這本書是斯坦福大學Web Mining的講義，裡面很多內容與韓家煒的Data Mining那本書重合，但這本書裡詳細地講了MapReduce的設計原理，PageRank（Google創業時期的核心排序算法，現在也在不斷優化更新）講解得也比較詳細。

Developing Analytic Talent：作者是個從事了十幾年數據工作的geek，技術部落格寫得很有個人風格，寫的內容都比較偏門，通常只有具備相關數據處理經驗的人能體會出來，絲毫不照顧初學者的感受。比如他會談到當數據流更新太快時該怎麼辦，或者MapReduce在什麼時候不好用的問題，才不管你懂不懂相關基礎原理。所以這本書不太適合初學者閱讀。這本書其實是作者的部落格文章的集結，用how to become a data scientist的邏輯把他近幾年的部落格文章串聯了起來。

Past, Present and Future of Statistical Science：這本書是由COPSS（統計學社主席委員會，由國際各大統計學會的帶頭人組成）在50週年出版的一本紀念冊，裡面有50位統計學家每人分別貢獻出的一兩篇文章，有的回憶了自己當年如何走上統計學這條路，有的探討了一些統計學的根本問題，有的談了談自己在從事的前沿研究，有的則給年輕一代寫下了寄語。非常有愛的一本書。

其它資料

Harvard Data Science：這是H大的Data science在線課，我沒有修過，但口碑很好。這門課需要費用8千刀左右，比起華盛頓大學的4千刀的Data science在線課雖貴一倍，但比斯坦福的14千刀要便宜將近一半（而且斯坦福的更偏計算機）。如果想自學，早有好心人分享了slides: （https:// drive.google.com/folder view?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions: （https:// github.com/cs109/conten t）

PyData：PyData是來自各個domain的用Python做數據的人每年舉行一次的聚會，期間會有各路牛人舉行一些規模不大的seminar或workshop，有好心人已經把video上傳到github，有興趣的去認領吧（DataTau/datascience-anthology-pydata · GitHub）

工具

R/Python/MATLAB（必備）：如果是做數據分析和模型開發，以我的觀察來看，使用這三種工具的最多。 R生來就是一個統計學家開發的軟件，所做的事也自然圍繞統計學展開。 MATLAB雖然算不上是個專業的數據分析工具，但因為很多人不是專業做數據的，做數據還是為了自己的domain expertise（特別是科學計算、信號處理等），而MATLAB又是個強大無比的Domain expertise工具，所以很多人也就順帶讓MATLAB也承擔了數據處理的工作，雖然它有時候顯得效率不高。 Python雖然不是做數據分析的專業軟件，但作為一個面向對象的高級動態語言，其開源的生態使Python擁有無比豐富的庫，Numpy, Scipy 實現了矩陣運算/科學計算，相當於實現了MATLAB的功能，Pandas又使Python能夠像R一樣處理dataframe，scikit-learn又實現了機器學習。

SQL（必備）：雖然現在人們都說傳統的關係型數據庫如Oracle、MySQL越來越無法適應大數據的發展，但對於很多人來說，他們每天都有處理數據的需要，但可能一輩子都沒機會接觸TB級的數據。不管怎麼說，不論是用關係型還是非關係型數據庫，SQL語言是必須要掌握的技能，用什麼數據庫視具體情況而定。

MongoDB（可選）：目前最受歡迎的非關係型數據庫NoSQL之一，不少人認為MongoDB完全可以取代mySQL。確實MongoDB方便易用，擴展性強，Web2.0時代的必需品。

Hadoop/Spark/Storm（可選）: MapReduce是當前最著名也是運用最廣泛的分佈式計算框架，由Google建立。 Hadoop是基於MapReduce的框架建立起來的分佈式計算系統，Spark在Map Reduce的基礎上利用有向無環圖構建了RDD，目的就是為了減少Map和Reduce之間的數據交換次數，所以速度就快了。另一個區別就是，Hadoop用硬盤存儲數據，Spark用內存存儲數據，Storm只接受實時數據流而不存儲數據。 Hadoop因為“歷史”最為悠久，有不少技術和產品都是基於Hadoop開發的，所以在較長的時間內Hadoop並不會不會被淘汰。而Spark是目前生態最好，最活躍的分佈式框架。如果剛剛起步研究分佈式計算，可從Spark入手。

OpenRefine（可選）：Google開發的一個易於操作的數據清洗工具，可以實現一些基本的清洗功能。

Tableau（可選）：一個可交互的數據可視化工具，操作簡單，開箱即用。而且圖表都設計得非常漂亮。專業版1999美刀，終身使用。媒體和公關方面用得比較多。

Gephi（可選）：跟Tableau類似，都是那種可交互的可視化工具，不需要編程基礎，生成的圖表在美學和設計上也是花了心血的。更擅長複雜網絡的可視化。

------------------------------------正文完------------ -----------------------------

除了比較難找到資料給出鏈接之外，其餘都需要各位自己動手了。也請多多支持正版。

剛開通了值乎，歡迎來擾。

值乎-說點兒有用的(二維碼自動識別)

What do you think?

Written by Zhihu QA

從零開始學數據分析，什麼程度可以找工作，如何計劃學習方案？

超級菜鳥怎麼學習數據分析？

做數據分析不得不看的書有哪些？

如何成為一名技術型營銷人（Technical Marketer）？

成長型企業如何靈活、高效、全方位地實現數字化轉型？

大數據給我們的生活帶來了哪些改變？

谷歌智能購物廣告的困境—高可控還是自動化？

ROAS好不好到底怎麼看？一文清空所有疑問！

ROAS跟ROI的區別？做網絡營銷應該怎麼看？

詳解：Amazon虛擬捆綁的推廣技巧與ACOS的改善

詳解：亞馬遜虛擬捆綁的推廣技巧

平台轉型獨立站，如何在3個月內爆單、入美金百萬？

Google Web Vitals – 使用者體驗量化

谷歌SEO必備的70個chrome擴展程式

外貿小公司、小工廠如何接外貿訂單？

ABM行銷—打造To B最短獲客路徑

ToB企業ABM行銷獲客成功三要素

SQL，Python以及Tableau的學習順序是怎麼樣的？

Google Analysis在中國可以登錄和使用嗎？

新興專業BA（business analytics）到底學什麼？發展前景怎樣？

What do you think?

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections