摘要:最近在學習用處理數據,的易用性真的讓人很爽,想找點數據玩一下,同事說上的數據很多,值得玩耍。初步分析排除數值列,對字符串列進行分析,可以知道數據值類型數量最多類型。如果想更精細的控制圖的顯示,建議直接使用,當然的函數最終也是直接調用。
最近在學習用pandas處理數據,pandas的易用性真的讓人很爽,想找點數據玩一下,同事說kaggle上的數據很多,值得玩耍。
數據我處理的數據是從kaggle數據分析競賽網站下載的舊金山的分類犯罪數據-點此下載。
如下圖所示,數據共有九列,X、Y是GPS坐標,其它都是字符串,沒法用describe直接看概要。
排除數值列,對字符串列進行descirbe分析,可以知道 數據值類型、數量最多類型。
PdDistrict Category DayOfWeek Resolution count 878049 878049 878049 878049 unique 10 39 7 17 top SOUTHERN LARCENY/THEFT Friday NONE freq 157182 174900 133734 526790
其后逐列按類型查看類型對應數量。
如按警區查看 print(df["PdDistrict"].value_counts())
SOUTHERN 157182 MISSION 119908 NORTHERN 105296 BAYVIEW 89431 CENTRAL 85460 TENDERLOIN 81809 INGLESIDE 78845 TARAVAL 65596 PARK 49313 RICHMOND 45209 Name: PdDistrict, dtype: int64可視化
很多人對數字并不敏感,有圖會提高對數據對理解。pandas自帶的plot函數可以快速的將dataframe圖形化。
默認是線狀走勢圖,下面是按類型對警情進行分析。
不夠直觀,并且橫坐標有重復,使用直方圖形式,以橫向的方式將類型顯示完全。在控制坐標旋轉的時候,我發現這個plot函數有不少bug,控制起來也很不方便。如果想更精細的控制圖的顯示,建議直接使用matplotlib,當然dataframe的plot函數最終也是直接調用matplotlib。
category.plot(figsize=(26, 10), title=u"犯罪類型統計", rot=0, kind="barh", legend=True)
由于我是用pycharm來玩的,所以如果我不加plt.show,plot顯示不出來。所以我最終還是得導入matplotlib。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37751.html
摘要:按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。按年月日格式化時間,按進行分類,我們得到每日發生的案件統計走勢圖。按警區劃分案件,然后統計每個警區的案件走勢。如類型但案件時逐年降低的。 還是有點懶,本應早點寫第二集。按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。Dates是案件發生的時間,案件是否具有時間規律,隨著時間在增長或者減少呢?showImg(http...
摘要:訓練集是用來訓練你的機器學習模型的。但機器學習,你也要教它一些事實,比如長得像圖片的就是狗,長得像圖片的就是貓。好了,這樣我們整體的一個機器學習的簡單項目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個playground項目——預測科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...
摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個,興奮吧現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。微軟雅黑對于深度學習,我也是個新手,就請把這些建議當作參考吧。 如果你想做一個數據科學家,或者作為一個數據科學家你想擴展自己的工具和知識庫,那么,你來對地方了。這篇文章的目的,是給剛開始使用Python進行數據分析的人,指明一條全...
showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關于 Kaggle https://www.kaggle.com/ 這是一個為你提供完美數據,為你提供實際應用場景,可以與小伙伴在數據挖掘領域 high 的不要不要的的地方啊!!! Kaggle 是一個用來學習、分享和競賽的線上數據實驗平臺,有點類似 KDD—CUP(國際...
閱讀 3371·2023-04-25 14:07
閱讀 3436·2021-09-28 09:35
閱讀 2079·2019-08-30 15:55
閱讀 1396·2019-08-30 13:48
閱讀 2496·2019-08-30 13:16
閱讀 3196·2019-08-30 12:54
閱讀 3231·2019-08-30 11:19
閱讀 1868·2019-08-29 17:17