国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

learning / 2966人閱讀

摘要:在本文中,我們將以的決策樹和隨機森林預測獲勝者。用決策樹和隨機森林預測獲勝者導入數據集并解析日期導入熊貓作為。這將幫助我們查看決策樹分類器的預測是否正確。混淆矩陣顯示了我們決策樹的正確和不正確的分類。

在本文中,我們將以Scikit-learn的決策樹和隨機森林預測NBA獲勝者。美國國家籃球協會(NBA)是北美主要的男子職業籃球聯賽,被廣泛認為是首屈一指的男子職業籃球聯賽在世界上。它有30個團隊(美國29個,加拿大1個)。

在 常規賽期間,每支球隊打82場比賽,每場41場。一支球隊每年會有四次面對對手(16場比賽)。每個小組在其四次(24場比賽)中的其他兩個小組中的六個小組中進行比賽,其余四個小組三次(12場)進行比賽。最后,每個隊都會在另一場比賽中兩次參加所有的球隊(30場比賽)。

用決策樹和隨機森林預測NBA獲勝者

#導入數據集并解析日期導入熊貓作為pd df = pd 。read_csv (“NBA_2017_regularGames.csv” ,parse_dates = [ “Date” ])

從游戲玩法的描述中,我們可以計算機會率。在每場比賽中,主隊和客隊都有可能贏得一半時間

預測類

在下面的代碼中,我們將指定我們的分類類。這將幫助我們查看決策樹分類器的預測是否正確。如果主隊獲勝,我們將指定我們的等級為1,如果訪客隊在另一個名為“主隊贏”的列中獲勝,我們將指定為0。

df [ “主隊獲勝” ] = df [ “訪客積分” ] < df [ “主隊積分” ]


主隊勝率:58.4%

#該數組現在擁有scikit-learn可以讀取的格式的類值。

特征工程

我們將創建以下功能來幫助我們預測NBA 2017年的獲勝者。

無論是來訪者還是主隊都贏得了最后一場比賽。

一般認為哪個團隊更好?

scikit-learn軟件包實現CART(分類和回歸樹)算法作為其默認 決策樹類

決策樹實現提供了一種方法來停止構建樹,以防止過度使用以下選項:

? min_samples_split: can create arbitrary small leaves in order to create a new node in the decision tree? min_samples_leaf: guarantees a minimum number of samples in a leaf resultingfrom a node

建議使用min_samples_split或min_samples_leaf來控制葉節點處的采樣數。一個非常小的數字通常意味著樹將過度擬合,而大量的數據將阻止樹學習數據。

決策的另一個參數是創建決策的標準。基尼的不純和信息收益是兩種流行的:

? Gini impurity: measures how often a decision node would incorrectly predict a sample"s class?`Information gain: indicate how much extra information is gained by the decision node

功能選擇

我們通過指定我們希望使用的列并使用數據框視圖的values參數,從數據集中提取要素以與我們的scikit-learn的DecisionTreeClassifier一起使用。我們使用cross_val_score函數來測試結果。

X_features_only = df [[ "Home Win Streak" ,"Visitor Win Streak" ,"Home Team Ranks Higher" ,"Home Team Won Last" ,"Home Last Win" ,"Visitor Last Win" ]]  


結果準確性:56.0%

通過選擇我們制作的功能,精確度下降到56%。是否有可能通過添加更多功能來提高準確性。

混淆矩陣顯示了我們決策樹的正確和不正確的分類。對角線1,295分別表示主隊的真正負數和真正的正數。左下角的1表示假陰性的數量。而右上角的195,誤報的數量。我們也可以查看大約0.602的準確性分數,這表明決策樹模型已經將60.2%的樣本正確地歸類為主隊獲勝與否。

導入pydotplus 圖

出于探索的目的,測試較少數量的變量以便首先獲得決策樹輸出的感覺會很有幫助。最終的樹開始于X的分裂,我們的第一個解釋變量,主隊隊列更高。如果主隊排名較高的值小于4.5,那么主隊就會松動,因為我們的二元變量具有虛假等值虧損值和真實同贏。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41883.html

相關文章

  • 隨機森林算法入門(python)

    摘要:翻譯自昨天收到推送了一篇介紹隨機森林算法的郵件,感覺作為介紹和入門不錯,就順手把它翻譯一下。隨機森林引入的隨機森林算法將自動創建隨機決策樹群。回歸隨機森林也可以用于回歸問題。結語隨機森林相當起來非常容易。 翻譯自:http://blog.yhat.com/posts/python-random-forest.html 昨天收到yhat推送了一篇介紹隨機森林算法的郵件,感覺作為介紹和入門...

    張遷 評論0 收藏0
  • ApacheCN 人工智能知識樹 v1.0

    摘要:貢獻者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻者:飛龍版...

    劉厚水 評論0 收藏0
  • 如何Python中從零開始實現隨機森林

    摘要:在本教程中,您將了解如何在中從頭開始實現隨機森林算法。如何將隨機森林算法應用于預測建模問題。如何在中從頭開始實現隨機森林圖片來自,保留部分權利。這被稱為隨機森林算法。如何更新決策樹的創建以適應隨機森林過程。 歡迎大家前往云+社區,獲取更多騰訊海量技術實踐干貨哦~ 決策樹可能會受到高度變異的影響,使得結果對所使用的特定測試數據而言變得脆弱。 根據您的測試數據樣本構建多個模型(稱為套袋)可...

    MasonEast 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<