国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

使用pandas玩kaggle數據(一)

tinylcy / 741人閱讀

摘要:最近在學習用處理數據,的易用性真的讓人很爽,想找點數據玩一下,同事說上的數據很多,值得玩耍。初步分析排除數值列,對字符串列進行分析,可以知道數據值類型數量最多類型。如果想更精細的控制圖的顯示,建議直接使用,當然的函數最終也是直接調用。

最近在學習用pandas處理數據,pandas的易用性真的讓人很爽,想找點數據玩一下,同事說kaggle上的數據很多,值得玩耍。

數據

我處理的數據是從kaggle數據分析競賽網站下載的舊金山的分類犯罪數據-點此下載。
如下圖所示,數據共有九列,X、Y是GPS坐標,其它都是字符串,沒法用describe直接看概要。

初步分析

排除數值列,對字符串列進行descirbe分析,可以知道 數據值類型、數量最多類型。

       PdDistrict       Category DayOfWeek Resolution
count      878049         878049    878049     878049
unique         10             39         7         17
top      SOUTHERN  LARCENY/THEFT    Friday       NONE
freq       157182         174900    133734     526790

其后逐列按類型查看類型對應數量。
如按警區查看 print(df["PdDistrict"].value_counts())

SOUTHERN      157182
MISSION       119908
NORTHERN      105296
BAYVIEW        89431
CENTRAL        85460
TENDERLOIN     81809
INGLESIDE      78845
TARAVAL        65596
PARK           49313
RICHMOND       45209
Name: PdDistrict, dtype: int64
可視化

很多人對數字并不敏感,有圖會提高對數據對理解。pandas自帶的plot函數可以快速的將dataframe圖形化。
默認是線狀走勢圖,下面是按類型對警情進行分析。

不夠直觀,并且橫坐標有重復,使用直方圖形式,以橫向的方式將類型顯示完全。在控制坐標旋轉的時候,我發現這個plot函數有不少bug,控制起來也很不方便。如果想更精細的控制圖的顯示,建議直接使用matplotlib,當然dataframe的plot函數最終也是直接調用matplotlib。

category.plot(figsize=(26, 10), title=u"犯罪類型統計", rot=0, kind="barh", legend=True)

由于我是用pycharm來玩的,所以如果我不加plt.show,plot顯示不出來。所以我最終還是得導入matplotlib。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37751.html

相關文章

  • 使用pandaskaggle數據(二)

    摘要:按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。按年月日格式化時間,按進行分類,我們得到每日發生的案件統計走勢圖。按警區劃分案件,然后統計每個警區的案件走勢。如類型但案件時逐年降低的。 還是有點懶,本應早點寫第二集。按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。Dates是案件發生的時間,案件是否具有時間規律,隨著時間在增長或者減少呢?showImg(http...

    Chiclaim 評論0 收藏0
  • Kaggle案例——用python從進網站到獲得評測結果

    摘要:訓練集是用來訓練你的機器學習模型的。但機器學習,你也要教它一些事實,比如長得像圖片的就是狗,長得像圖片的就是貓。好了,這樣我們整體的一個機器學習的簡單項目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個playground項目——預測科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...

    Crazy_Coder 評論0 收藏0
  • 8步從Python白板到專家,從基礎到深度學習

    摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個,興奮吧現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。微軟雅黑對于深度學習,我也是個新手,就請把這些建議當作參考吧。 如果你想做一個數據科學家,或者作為一個數據科學家你想擴展自己的工具和知識庫,那么,你來對地方了。這篇文章的目的,是給剛開始使用Python進行數據分析的人,指明一條全...

    Zachary 評論0 收藏0
  • 人工智障也刷題!Kaggle 入門之實戰泰坦尼克號

    showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關于 Kaggle https://www.kaggle.com/ 這是一個為你提供完美數據,為你提供實際應用場景,可以與小伙伴在數據挖掘領域 high 的不要不要的的地方啊!!! Kaggle 是一個用來學習、分享和競賽的線上數據實驗平臺,有點類似 KDD—CUP(國際...

    bergwhite 評論0 收藏0

發表評論

0條評論

tinylcy

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<