摘要:按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。按年月日格式化時間,按進行分類,我們得到每日發生的案件統計走勢圖。按警區劃分案件,然后統計每個警區的案件走勢。如類型但案件時逐年降低的。
還是有點懶,本應早點寫第二集。按類型去分析數據并沒有得到規律性的東西。我們再來看看元數據。
Dates是案件發生的時間,案件是否具有時間規律,隨著時間在增長或者減少呢?
基于這個思路,創建以時間為index的DataFrame,其中index選用數據中的"Dates"列作為index,為方便按時間操作,將"Dates"列轉換為DatetimeIndex類型。
按年月日格式化時間key,按key進行分類,我們得到每日發生的案件統計走勢圖。
# -*- coding: utf-8 -*- __author__ = "longtaiye" import pandas as pd import numpy as np import matplotlib.pyplot as plt #讀取數據 df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv") #設置pandas打印格式 pd.set_option("display.width", 300) #以日期為index創建新的DataFrame dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns) #按年月日統計案件發生規律 key1 = lambda x:x.strftime("%Y-%m-%d") dateDF["Category"].groupby(key1).count().plot(figsize=(26, 10)) plt.show()
依照相同的方法可以得到時走勢、日走勢、月走勢、年走勢圖,從圖上看并沒有什么規律性。
時走勢圖
日走勢圖
月走勢圖
年走勢圖
上面的分析表明,單純的時間趨勢并不存在,那么在限定其它因素情況下的時間走勢關系是否存在呢?
我們先從警區入手。按警區劃分案件,然后統計每個警區的案件走勢。
# -*- coding: utf-8 -*- __author__ = "longtaiye" import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv") pd.set_option("display.width", 300) dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns) #按警區劃分 groups = dateDF.groupby("PdDistrict") ii = 1 key = lambda x:x.strftime("%Y") plt.figure(figsize=(20, 12)) for name, group in groups: subplot = plt.subplot(4, 4, ii) subplot.plot(group.groupby(key).count()) plt.title(name) ii+=1 plt.show()
按警區按年的案件走勢
按星期幾按年的案件走勢
這兩張圖也并沒有太多的規律,但下面這張圖讓我們看到了一絲希望。如BAD CHECK類型但案件時逐年降低的。
按類型按年的案件走勢
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37773.html
摘要:最近在學習用處理數據,的易用性真的讓人很爽,想找點數據玩一下,同事說上的數據很多,值得玩耍。初步分析排除數值列,對字符串列進行分析,可以知道數據值類型數量最多類型。如果想更精細的控制圖的顯示,建議直接使用,當然的函數最終也是直接調用。 最近在學習用pandas處理數據,pandas的易用性真的讓人很爽,想找點數據玩一下,同事說kaggle上的數據很多,值得玩耍。 數據 我處理的數據是從...
摘要:訓練集是用來訓練你的機器學習模型的。但機器學習,你也要教它一些事實,比如長得像圖片的就是狗,長得像圖片的就是貓。好了,這樣我們整體的一個機器學習的簡單項目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個playground項目——預測科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...
摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個,興奮吧現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。微軟雅黑對于深度學習,我也是個新手,就請把這些建議當作參考吧。 如果你想做一個數據科學家,或者作為一個數據科學家你想擴展自己的工具和知識庫,那么,你來對地方了。這篇文章的目的,是給剛開始使用Python進行數據分析的人,指明一條全...
showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關于 Kaggle https://www.kaggle.com/ 這是一個為你提供完美數據,為你提供實際應用場景,可以與小伙伴在數據挖掘領域 high 的不要不要的的地方啊!!! Kaggle 是一個用來學習、分享和競賽的線上數據實驗平臺,有點類似 KDD—CUP(國際...
閱讀 2942·2023-04-26 01:32
閱讀 1541·2021-09-13 10:37
閱讀 2278·2019-08-30 15:56
閱讀 1670·2019-08-30 14:00
閱讀 3043·2019-08-30 12:44
閱讀 1961·2019-08-26 12:20
閱讀 1056·2019-08-23 16:29
閱讀 3227·2019-08-23 14:44