為什么Kaggle不會讓你成為一名出色的數據科學家？

evin2016 發布于2019-06-26 18:42 / 493人閱讀

摘要：缺少投資回報率的分析環節公司正在加大數據科學技能方面的投入。通常，成功的分析項目需要數據科學算法與投資回報率緊密相關。并不涉及這方面的分析，而只專注預測，并不考慮如何把數據科學結果應用于投資回報率。

作者 | Pranay Dave
CDA 數據分析師原創作品，轉載需授權

毫無疑問，Kaggle是非常適合學習數據科學的平臺。許多數據科學家在Kaggle上投入了大量時間。

但同時，你不應該只依靠Kaggle來學習數據科學技能。

以下就是當中的原因：

1.數據科學不僅僅是預測

Kaggle主要針對預測相關的問題。然而許多現實問題是與預測無關的。

例如，許多公司都想知道用戶流失的最常見途徑。這些類型的問題需要了解不同的數據類型和用戶接觸點，例如web導航、計費、客服中心交互、商店訪問等問題。同時還需要識別重要事件，例如超額計費或導航錯誤。在確定所有事件后，你需要應用路徑算法來了解導致用戶流失的常見路徑。解決這類問題不能僅靠預測算法，而需要能夠根據事件構建時間線的算法。

同樣，解決許多其他問題也需要預測之外的技能。能夠解決預測性問題是很強大的，但作為數據科學家你需要解決多種類型的問題。現實情況中有更多類型的問題需要解決，因此你不能僅局限于Kaggle，還需要用其他技能解決現實的數據科學挑戰。

2.無法提高圖算法方面的技能

社交網絡分析、影響預測、社區分析、欺詐網絡分析等，這些有趣的分析問題都是數據科學家需要解決。解決這類問題需要有關圖形算法的知識，如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

網絡或社區類型問題在Kaggle中很少見。解決圖形和網絡方面問題需要節點和鏈接相關數據，而Kaggle中大多數數據并不是這種形式的。

當然，你可以將問題轉換為使用圖算法，但這種情況很少。Kaggle上缺少這類的比賽，這也表明了于數據科學家日常需要解決問題的巨大差距。

3.無法提高算法可解釋性

算法的可解釋性越來越重要。你可以使用高大上的方法和最復雜的算法，但如果無法解釋算法是怎樣得到預測的，在企業中這將是一個大問題。這種說不清緣由的算法被稱為“黑匣子”算法。

使用黑盒算法存在一定的隱患，而且也可能造成法律方面的問題。假設，你開發了一種非常精確的算法集合來預測信用風險。在投入生產時，它將用于預測信貸風險。其中有些人的信用得分會很低，被拒絕貸款的人有權知道他們申請被拒的原因。如果算法無法提供解釋，則可能會產生法律問題。

在Kaggle比賽中，獲勝者是基于準確性，而不是基于可解釋性。這意味著比賽中數據科學家可以使用復雜的算法來保證高準確性，而不必關心可解釋性。這種方法能夠贏得比賽，但在企業的數據科學項目中就行不通了。

4.缺少投資回報率的分析環節

公司正在加大數據科學技能方面的投入。他們希望數據科學項目能夠提供投資回報率。通常，成功的分析項目需要數據科學算法與投資回報率緊密相關。

其中一個例子是預測性維護，其中能夠對設備故障進行預測。假設設備的故障率為10％，那么你需要派維護人員去進行檢查嗎？可能并不需要。但如果故障率為95％，那是肯定需要的。

然而在實際情況中，故障率通常為55％，63％等，這時就不確定了。如果公司派維護人員檢查所有這些設備，則可能產生巨大的成本。如果不派人檢查，則會有很大的設備故障風險。

那么故障率的閾值應該是多少呢？這時就需要計算投資回報率了。因此非常需要數據科學家給出當中的閾值，從而幫助公司確定相關決策。

Kaggle并不涉及這方面的分析，而只專注預測，并不考慮如何把數據科學結果應用于投資回報率。

5.不會涉及到模擬和優化問題

關于模擬和優化算法，比如系統動態仿真、基于代理模擬或蒙特卡羅模擬等應該是所有數據科學家的必備技能。金融優化、路線優化、定價等許多問題都是數據科學家需要解決的問題。

以價格預測為例，你可以使用機器學習，根據季節、日期、地點、競爭對手價格等數據來預測產品價格。但機器學習算法預測的價格是否是最優價格？也許不是。為了確定最優價格，你首先要確定優化目標。

優化目標可以設為利潤優化。在這種情況下，你需要確定提供最佳利潤的價格范圍。為了留住用戶，這樣的價格不能設太高。同時，為了保持良好的利潤率，也不應該太低。

因此，你需要通過優化算法來確定最佳價格范圍。如果預測價格在價格范圍內，那么機器學習的結果是可以接受的，否則應被拒絕。

在Kaggle上，通常不會給出利潤優化等優化目標。因此，當中涉及的問題仍然局限于機器學習，而并沒有探索優化方面的問題。

6.無法體驗模型部署和操作

假設你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事，這是在Kaggle上無法體驗的。

生產部署模型會涉及到docker、kubernetes等技術。雖然數據科學家并不需要成為docker和kubernetes方面的專家，但至少要能夠熟練使用。很多情況下，數據科學家需要用docker創建評分管道。

操作和部署還包括定期監控模型性能，并在必要時采取改進措施。假設有一個產品推薦模型。你在某個時間點觀察到，由于推薦而導致銷售額下降。那么問題是出在模型上嗎？還是其他方面呢？

數據科學家需要參與到模型部署環節，從而獲得獲得真實而豐富的體驗。

結語

數據科學家需要涉及算法可解釋性、投資回報率評估、優化等技能。在這一系列問題中，你將解決各種有趣的現實問題，從而更全面的提高數據科學相關技能。

對于數據科學家而言，不要僅局限于Kaggle，而是要從其他角度解決不同類型的數據科學問題。

云服務器 GPU云服務器成為一名數據科學家是什么什么是數據科學數據科學是什么

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19886.html

Kaggle冠軍經驗分享丨如何用15個月沖到排行榜的首位

摘要：你是如何開始參加比賽的正如之前所說的，我一直在閱讀大量機器學習和深度學習方面的書籍和論文，但發現很難將我學到的算法應用于小型數據集。機器學習中，你對哪個子領域最感興趣我對深度學習的各種進步都很感興趣。 showImg(https://segmentfault.com/img/bVboxKz?w=800&h=600); 作者 Kaggle Team中文翻譯 MikaCDA 數據分析師...

AnthonyHan 2019-06-26 18:47 評論0 收藏0
成為靠譜的數據科學家——從提出正確的問題開始

摘要：我認為提出正確的問題和定義問題陳述是許多數據科學初學者包括我面臨的一項挑戰。在本文中，我將與你分享作為數據科學家，該如何提出正確問題并定義問題陳述。我們的任務是幫助他們將問題構建成數據科學問題，從他們的角度看問題。 showImg(https://segmentfault.com/img/bVbnjxm?w=900&h=600);作者 | Admond Lee翻譯 | MikaCDA ...

dendoink 2019-06-26 18:45 評論0 收藏0
如何為你的深度學習任務挑選最合適的 GPU?

摘要：年月日，機器之心曾經推出文章為你的深度學習任務挑選最合適從性能到價格的全方位指南。如果你想要學習深度學習，這也具有心理上的重要性。如果你想快速學習深度學習，多個廉價的也很好。目前還沒有適合顯卡的深度學習庫所以，只能選擇英偉達了。文章作者 Tim Dettmers 系瑞士盧加諾大學信息學碩士，熱衷于開發自己的 GPU 集群和算法來加速深度學習。這篇博文最早版本發布于 2014 年 8 月，之...

taohonghui 2019-04-25 18:10 評論0 收藏0
8步從Python白板到專家，從基礎到深度學習

摘要：去吧，參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個，興奮吧現在，你已經學到了絕大多數關于機器學習的技術，是時候試試深度學習了。微軟雅黑對于深度學習，我也是個新手，就請把這些建議當作參考吧。如果你想做一個數據科學家，或者作為一個數據科學家你想擴展自己的工具和知識庫，那么，你來對地方了。這篇文章的目的，是給剛開始使用Python進行數據分析的人，指明一條全...

Zachary 2019-04-25 18:00 評論0 收藏0