如何成為數據科學家?

-

版本更新,2014年5月14日更新一些內容。

-

如果展開講,這個問題可以寫一篇綜述了。最近剛好有空,打算認真寫寫。

僅僅在幾年前,數據科學家還不是一個正式確定的職業,然而一眨眼的工夫,這個職業就已經被譽為“今後十年IT行業最重要的人才”了。

一、數據科學家的起源

"數據科學"(DataScience)起初叫"datalogy "。最初在1966年由Peter Naur提出,用來代替"計算機科學"(丹麥人,2005年圖靈獎得主,丹麥的計算機學會的正式名稱就叫Danish Society of Datalogy,他是這個學會的第一任主席。Algol 60是許多後來的程序設計語言,包括今天那些必不可少的軟件工程工具的原型。圖靈獎被認為是“計算科學界的諾貝爾獎”。)

1996年,International Federation of Classification Societies (IFCS)國際會議召開。數據科學一詞首次出現在會議(Data Science, classification, and related methods)標題裡。

1998年,CF Jeff Wu做出題為“統計學=數據科學嗎? 的演講,建議統計改名數據的科學統計數據的科學家。 (吳教授於1987年獲得COPSS獎,2000年在台灣被選為中研院院士,2004年作為第一位統計學者當選美國國家工程院院士,也是第一位華人統計學者獲此殊榮。)

2002年,國際科學理事會:數據委員會科學和技術(CODATA)開始出版數據科學雜誌。

2003年,美國哥倫比亞大學開始發布數據科學雜誌,主要內容涵蓋統計方法和定量研究中的應用。

2005年,美國國家科學委員會發表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century",其中給出數據科學家的定義:

"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"

訊息科學與計算機科學家,數據庫和軟件工程師,領域專家,策展人和標註專家,圖書管理員,檔案員等數字數據管理收集者都以可成為數據科學家。它們主要任務是:"進行富有創造性的查詢和分析。"

2012年,O'Reilly媒體的創始人Tim O'Reilly列出了世界上排名前7位的數據科學家。

  • Larry Page,谷歌CEO。
  • Jeff Hammerbacher,Cloudera的首席科學家和DJ Patil,Greylock風險投資公司企業家。
  • Sebastian Thrun,斯坦福大學教授和Peter Norvig,谷歌數據科學家。
  • Elizabeth Warren,Massachusetts州美國參議院候選人。
  • Todd Park,人類健康服務部門首席技術官。
  • Sandy Pentland,麻省理工學院教授。
  • Hod Lipson and Michael Schmidt,康奈爾大學計算機科學家。

具體有時間再補充,感興趣的朋友可以Google Scholar一下他們的文獻。

關於數據科學家的更多討論:

你能列出十個著名的女性數據科學家嗎? Can you name 10 famous data scientist women?

誰是最富有的數據科學家? Who are the wealthiest data scientists?

請列出對大數據最具有影響力的20個人? Who Are The Top 20 Influencers in Big Data?

二、數據科學家的定義

數據科學(Data Science)是從數據中提取知識的研究,關鍵是科學。數據科學集成了多種領域的不同元素,包括信號處理,數學,概率模型技術和理論,機器學習,計算機編程,統計學,數據工程,模式識別和學習,可視化,不確定性建模,數據倉庫,以及從數據中析取規律和產品的高性能計算。數據科學並不局限於大數據,但是數據量的擴大誠然使得數據科學的地位越發重要。

數據科學的從業者被稱為數據科學家。數據科學家通過精深的專業知識在某些科學學科解決複雜的數據問題。不遠的將來,數據科學家們需要精通一門、兩門甚至多門學科,同時使用數學,統計學和計算機科學的生產要素展開工作。所以數據科學家就如同一個team。

曾經投資過Facebook,LinkedIn的格雷洛克風險投資公司把數據科學家描述成“能夠管理和洞察數據的人” 。在IBM的網站上,數據科學家的角色被形容成“一半分析師,一半藝術家” 。他們代表了商業或數據分析這個角色的一個進化。

for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.

  • Anjul Bhambhri,IBM的大數據產品副總裁。

數據科學家是一個好奇的,不斷質疑現有假設,能盯著數據就能指出趨勢的人。這就好像在文藝復興時期,一個非常想為組織帶來挑戰並從挑戰中學習的人一樣。

  • Jonathan Goldman,LinkedIn數據科學家。

2006年的6月份進入商務社交網站LinkedIn,當時LinkedIn只有不到800萬用戶。高德曼在之後的研究中創造出新的模型,利用數據預測註冊用戶的人際網絡。具體來講,他以用戶在LinkedIn的個人資料,來找到和這些訊息最匹配的三個人,並以推薦的形式顯示在用戶的使用頁面上——這也就是我們熟悉的"你可能認識的人(People you may know)"。這個小小的功能讓LinkedIn增加了數百萬的新的頁麵點擊量(數據挖掘的應用典型之一推薦系統)。

  • John Rauser,亞馬遜大數據科學家。

數據科學家是工程師和統計學家的結合體。從事這個職位要求極強的駕馭和管理海量數據的能力;同時也需要有像統計學家一樣萃取、分析數據價值的本事,二者缺一不可。

  • Steven Hillion, EMC Greenplum數據分析副總裁。

數據科學家是具有極強分析能力和對統計和數學有很深研究的數據工程師。他們能從商業訊息等其他復雜且海量的數據庫中洞察新趨勢。

  • Monica Rogati, LinkedIn資深數據科學家。

所有的科學家都是數據學家,因為他們整天都在和海量數據打交道。在我眼中,數據學家是一半黑客加一半分析師。他們通過數據建立看待事物的新維度。數據學家必須能夠用一隻眼睛發現新世界,用另一隻眼睛質疑自己的發現。

  • Daniel Tunkelang,LinkedIn首席數據科學家。

我是bitly 首席科學家Hilary Mason的忠實崇拜者。關於這個新概念的定義我也想引用她的說法:數據科學家是能夠利用各種訊息獲取方式、統計學原理和機器的學習能力對其掌握的數據進行收集、去噪、分析並解讀的角色。

  • Michael Rappa,北卡羅萊納州立大學教授。

儘管數據科學家這個名稱最近才開始在矽谷出現,但這個新職業的產生卻是基於人類上百年對數據分析的不斷積累和衍生。和數據科學家最接近的職業應該是統計學家,只不過統計學家是一個成熟的定義且服務領域基本局限於政府和學界。數據科學家把統計學的精髓帶到了更多的行業和領域。

  • 林仕鼎,百度大數據首席架構師。

如果從廣義的角度講,從事數據處理、加工、分析等工作的數據科學家、數據架構師和數據工程師都可以籠統地稱為數據科學家;而從狹義的角度講,那些具有數據分析能力,精通各類算法,直接處理數據的人員才可以稱為數據科學家。

最後引用Thomas H. Davenport(埃森哲戰略變革研究院主任) 和DJ Patil(美國科學促進會科學與技術政策研究員,為美國國防部服務)的話來總結數據科學家需要具備的能力:

  • 數據科學家傾向於用探索數據的方式來看待周圍的世界。 (好奇心)
  • 把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,並清理成結果數據集。 (問題分體整理能力)
  • 新的競爭環境中,挑戰不斷地變化,新數據不斷地流入,數據科學家需要幫助決策者穿梭於各種分析,從臨時數據分析到持續的數據交互分析。 (快速學習能力)
  • 數據科學家會遇到技術瓶頸,但他們能夠找到新穎的解決方案。 (問題轉化能力)
  • 當他們有所發現,便交流他們的發現,建議新的業務方向。 (業務精通)
  • 他們很有創造力的展示視覺化的訊息,也讓找到的模式清晰而有說服力。 (表現溝通能力)
  • 他們會把蘊含在數據中的規律建議給Boss,從而影響產品,流程和決策。 (決策力)

三、數據科學家所需硬件技能

《數據之美Beautiful Data》的作者Jeff Hammerbacher在書中提到,對於Facebook 的數據科學家“我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:

在任意給定的一天,團隊的一個成員可以用Python 實現一個多階段的處理管道流、設計假設檢驗、用工具R在數據樣本上執行回歸測試、在Hadoop 上為數據密集型產品或服務設計和實現算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了數據科學家這個角色。 ”

(1)計算機科學

一般來說,數據科學家大多要求具備編程、計算機科學相關的專業背景。簡單來說,就是對處理大數據所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

(2)數學、統計、數據挖掘等

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中,面向統計分析的開源編程語言及其運行環境“R”最近備受矚目。 R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,並可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。 R語言雖然功能強大,但是學習曲線較為陡峭,個人建議從python入手,擁有豐富的statistical libraries, NumPySciPy.orgPython Data Analysis Librarymatplotlib: python plotting

(3)數據可視化(Visualization)

訊息的質量很大程度上依賴於其表達方式。對數字羅列所組成的數據中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果可視化,這是對於數據科學家來說十分重要的技能之一。

(4)跨界為王

麥肯錫認為未來需要更多的“translators”,能夠在IT技術,數據分析和商業決策之間架起一座橋樑的複合型人才是最被人需要的。 ”translators“可以驅動整個數據分析戰略的設計和執行,同時連接的IT ,數據分析和業務部門的團隊。如果缺少“translators“,即使擁有高端的數據分析策略和工具方法也是於事無補的。

The data strategists'combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.

天才的”translators“非常罕見。但是大家可以各敬其職(三個臭皮匠臭死諸葛亮),數據戰略家可以使用IT知識和經驗來製定商業決策,數據科學家可以結合對專業知識的深入理解使用IT技術開發複雜的模型和算法,分析顧問可以結合實際的業務知識與分析經驗聚焦下一個行業爆點。

推薦關注: facebook.com/data

四、數據科學家的培養

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(Northwestern University),就是其中之一。西北大學決定從2012年9月起在其工程學院下成立一個主攻大數據分析課程的分析學研究生院,並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的:“雖然只要具備一些Hadoop和Cassandra的基本知識就很容易找到工作,但擁有深入知識的人才卻是十分缺乏的。”

此外,該研究生院的課程計劃以“傳授和指導將業務引向成功的技能,培養能夠領導項目團隊的優秀分析師”為目標,授課內容在數學、統計學的基礎上,融合了尖端計算機工程學和數據分析。課程預計將涵蓋分析領域中主要的三種數據分析方法:預測分析、描述分析(商業智能和數據挖掘)和規範分析(優化和模擬),具體內容如下。

(1)秋學期
* 數據挖掘相關的統計方法(多元Logistic回歸分析、非線性回歸分析、判別分析等)
* 定量方法(時間軸分析、概率模型、優化)
* 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
* 樹立競爭優勢的分析(通過項目和成功案例學習基本的分析理念)

(2)冬學期
* 數據庫入門(數據模型、數據庫設計)
* 預測分析(時間軸分析、主成分分析、非參數回歸、統計流程控制)
* 數據管理(ETL(Extract、Transform、Load)、數據治理、管理責任、元數據)
* 優化與啟發(整數計劃法、非線性計劃法、局部探索法、超啟發(模擬退火、遺傳算法))

(3)春學期
* 大數據分析(非結構化數據概念的學習、MapReduce技術、大數據分析方法)
* 數據挖掘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析)
* 其他,以下任選兩門(社交網絡、文本分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合行銷溝通中的概率模型)

(4)秋學期
* 風險分析與運營分析的計算機模擬
* 軟件層面的分析學(組織層面的分析課題、IT與業務用戶、變革管理、數據課題、結果的展現與傳達方法)

(EMC的在線課程: Data Science and Big Data Analytics Training ,收費T_T,大家可以了解下學習路徑)

(5)分享一些免費的課程

以下課程免費,講師都是領域的專家,需要提前報名,請注意開班的時間。

名校課程,需要一定的英語基礎和計算機基礎:

五、數據科學家的前景

EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions ,關於數據科學家的研究)

Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes.

EMC預測,按照目前的情況數字宇宙以每兩年一番的速度倍增,在2020年將到達44ZB(1ZB=1.1805916207174113e+21B)。 EMC做出了5點比較大膽的預測。

  • In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.
  • Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.
  • In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.
  • Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world's amount of available storage capacity (ie, unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.
  • In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.

Between 2013 and 2020 the division of the digital universe between mature and emerging markets (eg, China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.

EMC預測在2017年左右新興的市場將超越成熟市場,東亞國家是最具潛力的引爆點。 (大家是不是有點小激動,前景一片光明)

六、結束語

推薦網站:

Data Science Central (數據科學中心,大牛雲集,資源豐富,討論者熱情,各種課程)

祝每一個DMer都挖掘到金礦和快樂:)

參考文獻:

[1]. Data Scientists: The Definition of Sexy

[2].《大數據的衝擊》.城田真琴.野村綜合研究所創新開發部高級研究員、IT分析師,日本政府“智能雲計算研究會”智囊團成員

[3].麥肯錫. Big data: The next frontier for innovation, competition, and productivity

[4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives

[5]. EMC Greenplum's Steven Hillion on What Is a Data Scientist?

[6]. LinkedIn's Monica Rogati On "What Is A Data Scientist?"

[7]. IBM - What is a Data Scientist?

[8]. Data Science and Prediction

[9]. The key word in “Data Science” is not Data, it is Science

[10]. Data Science: How do I become a data scientist?

[11]. A Practical Intro to Data Science

[12]. 解碼數據科學家

-----------2017年1月更新-----

專業在專欄:預見未來

如何使用Google Analytics 計算新用戶的留存率?

誰能具體給我講述一下網站SEO怎麼做嗎?