摘要:基于大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,并將結果與博彩公司的評估進行比較。目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。
作者:chen_h
微信號 & QQ:862251340
微信公眾號:coderpai
簡書地址:https://www.jianshu.com/p/56c...
數據科學家是目前最有吸引力的職業之一,但是如何進入這個領域卻是一個不容易的事。因為你需要經驗才能得到這份工作,但是你需要這份工作才能獲得經驗。是不是感覺這是一個惡性循環?
Statsbot 的數據科學家 Denis Semenenko 寫了這篇文章,用來幫助大家做出第一個簡單但是具有一定說明性的科學數據項目,這個項目需要的時間可能不到一周。
這意味著你需要定制一個問題,設計解決方案,查找數據,掌握一些分析技術,然后構建一些機器學習模型,最后評估模型質量,并將其包裝成簡單的UI。這比 Kaggle 比賽或者 Coursera 課程更加的多樣化。
如果你對這種項目感興趣,那么你可以繼續閱讀。
分類垃圾郵件垃圾郵件在我們生活的各個信息角落都存在。其中之一的經典數據項目就是垃圾郵件分類。你可以訓練一個模型來檢測一個郵件是否是垃圾郵件,以便來減少垃圾信息對用戶的騷擾。
一個簡單的機器學習模型基于在郵件中看到 “sale” 或者 “buy” 這樣的,來定義一個郵件是不是垃圾郵件。因此,你可以在一個星期內做出一個垃圾郵件的原型。
問題定義:?文本分類
算法:?樸素貝葉斯,線性分類器,樹分類等等分類器
技術工具:?sklearn,?nltk,?scrapy
數據集:?sms spam dataset,?e-mail spam dataset?,?youtube comments spam dataset
展示方式:?網頁頁面
參考指南:AdBlock,?Adguard
閱讀指南:?How To Build a Simple Spam-Detecting Machine Learning Classifier,?Getting Started: Building a Chrome Extension
Not Hotdog 是一個來自硅谷系列的應用程序,可以識別照片中的熱狗和非熱狗。
你可以通過使用社交網絡或者谷歌圖像來收集數據集,以此來作為你的模型的訓練集。
從頭開始訓練一個模型需要大量的訓練樣本和訓練時間,因此最好我們使用一個經過預訓練的網絡模型,這樣可以縮短訓練時間。
問題定義:?圖像分類,?image classification,?transfer learning
算法:?卷積神經網絡
技術工具:?keras,?lasagne,?Instagram API(or external libraries e.g.Instabot)
數據集:?使用 Instagram API 來收集數據
展示方式:?APP
參考指南:?Not hotdog
閱讀指南:?Transfer learning using Keras,?Building powerful image classification models using very little data
推薦系統對于像 Google 或者 Facebook 這樣的大型公司是必須的,因為從收入和用戶點擊率來看,推薦系統都是非常有價值的。
如果我們在這個子領域能夠得到實踐,那么對于以后的數據分析發展是非常有利的。
問題定義:?推薦系統
算法:?降低維度,協同過濾,分類算法
技術工具:?sklearn,?vowpal wabbit
數據集:?Netflix prize dataset,?MovieLens dataset
展示方式:?網頁展示
參考指南:?Jinni,?MovieLens
閱讀指南:?Quick Guide to Build a Recommendation Engine in Python
如果你比較喜歡處理圖像,那么你可以嘗試創建自己自定義的 Snapchat 鏡頭。任何社交網絡都喜歡這樣的東西,包括 Instagram,Facebook 和 Snapchat。
鏡頭檢測面部的關鍵點,用來顯示嘴唇,眼睛,鼻子和臉部的邊界。然后你可以使用一些框架來重新構建面部。
問題定義:?圖像識別,面部檢測
算法:?卷積神經網絡,面部關鍵點檢測
技術工具:?dlib,?openface,?keras,?openCV
數據集:?Facial keypoints detection dataset
展現方式:?APP
參考指南:?Snapchat,?Instagram
閱讀指南:?Facial landmarks with dlib, OpenCV, and Python,?Build a Simple Camera App
很多公司都會在互聯網上面監控客戶的行為數據,以此來對消極的客戶做出相應的調整。例如,T-Mobile 和 Verizon 需要對消極的推文進行快速響應,并找出問題并且解決。
每個人都可以使用 Twitter API 和情緒分類算法來進行這個項目。
問題定義?情感分析
算法:?情感分析
數據集:?Twitter API
技術工具:?nltk,?spaCy
展現方式: APP
參考指南:?Twilert,?Tweetreach
閱讀指南:?Twitter sentiment analysis using Python and NLTK
專業的投注者總是在尋找有利可圖的賭注。基于大量的數據統計,網球是一種很好的預測類體育項目。數據科學家根據歷史數據和玩家信息來構建預測模型,并將結果與博彩公司的評估進行比較。
目標是找出機器學習模型與博彩公司評估之間的差距,從而有機會獲勝。這是一個很好的實際數據科學項目。
問題定義:?分類
算法:?分類算法
數據集:atpworldtour.com
技術工具:?sklearn,?scrapy
展現方式: APP
參考指南:olbg.com, verifiedbets.com
閱讀指南:?Machine Learning for the Prediction of Professional Tennis Matches
機器學習模型還善于處理的一個領域是時間序列預測。一個數據處理引擎可以預測匯率和股票的波動,所以交易員或者程序可以根據這些數據進行交易。
如果你選擇這個項目,你會很容易得到數據和實踐。這個領域是從計量經濟學和經典機器學習中得出來的,所以你應該準備好探索統計學方法。
問題定義:?時間序列預測
算法:?ARIMA, regression
數據集:?Quandl
技術工具:?sklearn,?prophet,?scrapy
展示方式:?APP
參考指南:?financeboards.com
閱讀指南:?An Introduction to Stock Market Data Analysis with Python
我希望你能從這些簡單數據項目中獲得一些啟發,開啟你的數據分析之路。
作者:chen_h
微信號 & QQ:862251340
簡書地址:https://www.jianshu.com/p/56c...
CoderPai 是一個專注于算法實戰的平臺,從基礎的算法到人工智能算法都有設計。如果你對算法實戰感興趣,請快快關注我們吧。加入AI實戰微信群,AI實戰QQ群,ACM算法微信群,ACM算法QQ群。長按或者掃描如下二維碼,關注 “CoderPai” 微信號(coderpai)。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41130.html
摘要:本文與大家分享一些編程語言的入門書籍,其中不乏經典。全書貫穿的主體是如何思考設計開發的方法,而具體的編程語言,只是提供一個具體場景方便介紹的媒介。入門入門容易理解而且讀起來幽默風趣,對于編程初學者和語言新手而言是理想的書籍。 本文與大家分享一些Python編程語言的入門書籍,其中不乏經典。我在這里分享的,大部分是這些書的英文版,如果有中文版的我也加上了。有關書籍的介紹,大部分截取自是官...
摘要:我強烈推薦這本書給初學者,因為本書側重于統計建模和機器學習的基本概念,并提供詳細而直觀的解釋。關于完善簡歷,我推薦以下網站和文章怎樣的作品集能幫助我們找到第一數據科學或機器學習方面的工作簡歷是不夠的,你還需要作品集的支撐。 showImg(https://segmentfault.com/img/bVblJ0R?w=800&h=533); 作者 | Admond Lee翻譯 | Mik...
摘要:數據科學任務主要是數據分析領域,數據科學家要負責分析數據并建模,具備統計預測建模機器學習等方面的經驗,以及一定的使用或語言進行編程的能力。監控運行時性能指標信息。 Spark Spark 背景 什么是 Spark 官網:http://spark.apache.org Spark是一種快速、通用、可擴展的大數據分析引擎,2009年誕生于加州大學伯克利分校AMPLab,2010年開源,20...
閱讀 1357·2021-09-02 10:19
閱讀 1101·2019-08-26 13:25
閱讀 2108·2019-08-26 11:37
閱讀 2413·2019-08-26 10:18
閱讀 2676·2019-08-23 16:43
閱讀 2989·2019-08-23 16:25
閱讀 775·2019-08-23 15:53
閱讀 3297·2019-08-23 15:11