數據科學家價值大跌:自動化工具快將取而代之
請緊記:「IT 人的目標是要讓自己沒有工作。我們的工作就是要讓程式把我們現在的工作做得更快,更好,更可靠,最終結果是程式取代了人手、IT 人作用已沒有了。」IT 人如此,數據科學家亦如此!
隨著大數據興起,很多公司都需要懂得統計學的 IT 人,亦即是大家近期聽說的數據科學家 Data Scientist。此職位目前是人少需需求多(當然並非指香港,而是以亞太區作基準)。 關於 Data Scientist 的職業發展有很多討論。最近 Louis Dorard 在 GigaOM 上發表了一篇關於 Data Scientist 職業發展的文章。觀點是隨著數據科學的發展,目前 Data Scientist 的許多工作將被自動化的工具取代。而 Data Scientist 這個職業也將不再存在。文章編譯如下:
Data Scientist 工作的一部分就是把他們的工作自動化。例如說通過一些預測性的 API 工具來實施工作自動化。然而,這些 API 已經在某些範疇開始取代 Data Scientist 的工作了。這對這個職業來說可不是什麼好事。
我們現在處於 Big Data 的時代。 利用電腦學習來進行預測性分析的需求越來越強勁。正如InsightsOne的CEO Waqar Hasan指出的一樣「預測分析是 Big Data 時代的殺手級應用」。我們也開始看到有一些公司開始針對大眾提供電腦學習和預測分析的服務。例如 Apigee 收購了 InsightsOne 後就推出了預測性分析的 API 平台。
我在大學上電腦科學的時候學到的第一課就是「我們工作的終極目標就是要讓自己沒有工作。我們的工作就是要讓程序把我們現在的工作做得更快,更好,更可靠。數據科學也是如此。」
技術將取代 Data Scientist
Data Scientist 的絕大部分工作花了在建立 Prediction Model:選取與預測相關的變量。選擇合適的 Model,優化參數等等。目前,這類的工作已經能夠有一些自動化的解決方案了。如 Emerald Logic 的 FACET 以及 Google 和 Erastz Labs 提供的 API。這些 API 把複雜的電腦 Model 從數據中抽出來。用戶可以專注於數據的採集,而把數據送給這些 API,就能夠產生一個 Prediction Model 了。
這些新的工具意味著,在新的模式下,不需要 Data Scientist 的參與了,公司裡的每個人都能夠參與數據科學的項目。高層將確定戰略方向,中層經理們確定分析預測的具體目標,軟件工程人員可以專注於項目實施。這裡需要每個人都懂得一些電腦知識。不過如果不去深究算法和理論,只關注基本概念和一些具體的應用,Machine learning 即使對於非技術人員來說也能夠很快了解。
事實上,如果由具體應用範疇的專家來負責 Machine learning 項目的話,往往能夠更好地將應用範疇的知識結合到 Machine learning 項目裡去,例如能夠更好的選出那些合適的特征,從而能夠做出更好的 Prediction Model。
Machine learning 是人工智能的技術。通過數據來建立更好的智能。那麼我們在人工智能範疇中還需要手動去進行運算的選擇嗎?我們當然有智能的自動方式。在人工智能範疇有一個趨勢,就是人工智能算法(meta AI Algorithm),就是給予一些問題,能夠自動找到合適的人工智能運算方法。
利用這種方式來進行 Machine learning 的原理就是利用如概率來進行設定以及對特征設定不同權限等等。今天我們的計算能力已經足以讓我們進行這樣大量的測試。暴力測試可以採用常規的交叉驗證,或者採用類似於 FACET 那樣的漸進式技術。
測試可以從對數據的最簡單分析開始,如果我們發現數據在分類時有明顯的不平衡性時,我們可以試著選擇 Anomaly detection 的算法。
Data Scientist 將來做什麼呢?
有人會說, 目前不能自動化的範疇太多了。 的確,把所有 Machine learning 範疇都自動化是很困難的。不過,目前 API 在預測方面已經能夠比擬那些傳統的分析技術了。這方面 API 創造的價值巨大。
由於這些新的工具出現,Data Scientist 的角色也在發生變化。現在要成為 Data Scientist 可能比以前更容易了。由於預測性 API 的出現,由 Data Scientist 來做的工作變得更加容易了。這些工作可以由數據庫工程人員或者軟件工程人員來進行。這也就是有些人說的數據科學不科學。而我要說的是較為好聽的說話:「數據科學正在不斷進步。」
在預測 API 範疇中,Data Scientist 依然在團隊裡扮演重要角色。他幫助團隊成員使用這些 API。更多是作為一個主管的角色來指導大家使用,而不像以前那樣需要親自動手。
更重要的是,Data Scientist 還需要不斷開發 Machine learning 的自動化工具。除了目前的監督學習(Supervised Learning 的 API 外,也開始出現了強化學習(Reinforcement Learning)的 API。此外,還需要提供一些工具能夠使得應用範疇專家把他們的知識融入到算法中。