python處理數據的風騷操作[pandas 之 groupby&agg]

paraller 發布于2019-07-30 15:06 / 3211人閱讀

摘要：最后使用聚合函數，就得到了結果。從實現上看，返回的是一個結構，這個結構必須調用聚合函數如之后，才會得到結構為的數據結果。

介紹

每隔一段時間我都會去學習、回顧一下python中的新函數、新操作。這對于你后面的工作是有一定好處的。
本文重點介紹了pandas中groupby、Grouper和agg函數的使用。這2個函數作用類似，都是對數據集中的一類屬性進行聚合操作，比如統計一個用戶在每個月內的全部花銷，統計某個屬性的最大、最小、累和、平均等數值。

其中，agg是pandas 0.20新引入的功能

groupby && Grouper

首先，我們從網上把數據下載下來，后面的操作都是基于這份數據的：

import pandas as pd

df = pd.read_excel("https://github.com/chris1610/pbpython/blob/master/data/sample-salesv3.xlsx?raw=True")
df["date"] = pd.to_datetime(df["date"])
df.head()

（圖片來自于jupyter notebook，強烈推薦使用它作為python的交互工具）

下面，我們統計"ext price"這個屬性在每個月的累和(sum)值，resample 只有在index為date類型的時候才能用：

df.set_index("date").resample("M")["ext price"].sum()

date
2014-01-31    185361.66
2014-02-28    146211.62
2014-03-31    203921.38
2014-04-30    174574.11
2014-05-31    165418.55
2014-06-30    174089.33
2014-07-31    191662.11
2014-08-31    153778.59
2014-09-30    168443.17
2014-10-31    171495.32
2014-11-30    119961.22
2014-12-31    163867.26
Freq: M, Name: ext price, dtype: float64

進一步的，我們想知道每個用戶每個月的sum值，那么就需要一個groupby了：

df.set_index("date").groupby("name")["ext price"].resample("M").sum()

name                             date      
Barton LLC                       2014-01-31     6177.57
                                 2014-02-28    12218.03
                                 2014-03-31     3513.53
                                 2014-04-30    11474.20
                                 2014-05-31    10220.17
                                 2014-06-30    10463.73
                                 2014-07-31     6750.48
                                 2014-08-31    17541.46
                                 2014-09-30    14053.61
                                 2014-10-31     9351.68
                                 2014-11-30     4901.14
                                 2014-12-31     2772.90
Cronin, Oberbrunner and Spencer  2014-01-31     1141.75
                                 2014-02-28    13976.26
                                 2014-03-31    11691.62
                                 2014-04-30     3685.44
                                 2014-05-31     6760.11
                                 2014-06-30     5379.67
                                 2014-07-31     6020.30
                                 2014-08-31     5399.58
                                 2014-09-30    12693.74
                                 2014-10-31     9324.37
                                 2014-11-30     6021.11
                                 2014-12-31     7640.60
Frami, Hills and Schmidt         2014-01-31     5112.34
                                 2014-02-28     4124.53
                                 2014-03-31    10397.44
                                 2014-04-30     5036.18
                                 2014-05-31     4097.87
                                 2014-06-30    13192.19
                                                 ...   
Trantow-Barrows                  2014-07-31    11987.34
                                 2014-08-31    17251.65
                                 2014-09-30     6992.48
                                 2014-10-31    10064.27
                                 2014-11-30     6550.10
                                 2014-12-31    10124.23
White-Trantow                    2014-01-31    13703.77
                                 2014-02-28    11783.98
                                 2014-03-31     8583.05
                                 2014-04-30    19009.20
                                 2014-05-31     5877.29
                                 2014-06-30    14791.32
                                 2014-07-31    10242.62
                                 2014-08-31    12287.21
                                 2014-09-30     5315.16
                                 2014-10-31    19896.85
                                 2014-11-30     9544.61
                                 2014-12-31     4806.93
Will LLC                         2014-01-31    20953.87
                                 2014-02-28    13613.06
                                 2014-03-31     9838.93
                                 2014-04-30     6094.94
                                 2014-05-31    11856.95
                                 2014-06-30     2419.52
                                 2014-07-31    11017.54
                                 2014-08-31     1439.82
                                 2014-09-30     4345.99
                                 2014-10-31     7085.33
                                 2014-11-30     3210.44
                                 2014-12-31    12561.21
Name: ext price, Length: 240, dtype: float64

結果肯定是對的，但是不夠完美。我們可以使用Grouper寫得更加簡潔：

# df.set_index("date").groupby("name")["ext price"].resample("M").sum()
df.groupby(["name", pd.Grouper(key="date", freq="M")])["ext price"].sum()

結果和上面?一樣，就不列出來了。
顯然，這種寫法多敲了很多次鍵盤，那么它的好處是啥呢？
首先，邏輯上更加直接，當你敲代碼完成以上統計的時候，你首先想到的就是groupby操作，而set_index， resample好像不會立馬想到。想到了groupby這個"動作"之后，你就會緊接著想按照哪個key來操作，此時
你只需要用字符串，或者Grouper把key定義好就行了。最后使用聚合函數，就得到了結果。所以，從人類的
思考角度看，后者更容易記憶。

另外，Grouper里的freq可以方便的改成其他周期參數（resample也可以），比如：

# 按照年度，且截止到12月最后一天統計ext price的sum值
df.groupby(["name", pd.Grouper(key="date", freq="A-DEC")])["ext price"].sum()

name                             date      
Barton LLC                       2014-12-31    109438.50
Cronin, Oberbrunner and Spencer  2014-12-31     89734.55
Frami, Hills and Schmidt         2014-12-31    103569.59
Fritsch, Russel and Anderson     2014-12-31    112214.71
Halvorson, Crona and Champlin    2014-12-31     70004.36
Herman LLC                       2014-12-31     82865.00
Jerde-Hilpert                    2014-12-31    112591.43
Kassulke, Ondricka and Metz      2014-12-31     86451.07
Keeling LLC                      2014-12-31    100934.30
Kiehn-Spinka                     2014-12-31     99608.77
Koepp Ltd                        2014-12-31    103660.54
Kuhn-Gusikowski                  2014-12-31     91094.28
Kulas Inc                        2014-12-31    137351.96
Pollich LLC                      2014-12-31     87347.18
Purdy-Kunde                      2014-12-31     77898.21
Sanford and Sons                 2014-12-31     98822.98
Stokes LLC                       2014-12-31     91535.92
Trantow-Barrows                  2014-12-31    123381.38
White-Trantow                    2014-12-31    135841.99
Will LLC                         2014-12-31    104437.60
Name: ext price, dtype: float64

agg

從0.20.1開始，pandas引入了agg函數，它提供基于列的聚合操作。而groupby可以看做是基于行，或者說index的聚合操作。

從實現上看，groupby返回的是一個DataFrameGroupBy結構，這個結構必須調用聚合函數（如sum）之后，才會得到結構為Series的數據結果。
而agg是DataFrame的直接方法，返回的也是一個DataFrame。當然，很多功能用sum、mean等等也可以實現。但是agg更加簡潔, 而且傳給它的函數可以是字符串，也可以自定義，參數是column對應的子DataFrame

舉個栗子?吧：

df[["ext price", "quantity", "unit price"]].agg(["sum", "mean"])

怎么樣，是不是比使用

df[["ext price", "quantity"]].sum()
df["unit price"].mean()

簡潔多了？

上例中，你還可以針對不同的列使用不同的聚合函數：

df.agg({"ext price": ["sum", "mean"], "quantity": ["sum", "mean"], "unit price": ["mean"]})

另外，自定義函數怎么用呢，也是so easy.
比如，我想統計sku中，購買次數最多的產品編號，可以這樣做：

# 這里的x是sku對應的column
get_max = lambda x: x.value_counts(dropna=False).index[0]
df.agg({"ext price": ["sum", "mean"], 
        "quantity": ["sum", "mean"], 
        "unit price": ["mean"], 
        "sku": [get_max]})

看起來很不協調，把它去掉：

get_max = lambda x: x.value_counts(dropna=False).index[0]
# python就是靈活啊。
get_max.__name__ = "most frequent"
df.agg({"ext price": ["sum", "mean"], 
        "quantity": ["sum", "mean"], 
        "unit price": ["mean"], 
        "sku": [get_max]})

另外，還有一個小問題，那就是如果你希望輸出的列按照某個順序排列，可以使用collections的OrderedDict：

get_max = lambda x: x.value_counts(dropna=False).index[0]
get_max.__name__ = "most frequent"
import collections

agg_dict = {
        "ext price": ["sum", "mean"], 
        "quantity": ["sum", "mean"], 
        "unit price": ["mean"], 
        "sku": [get_max]}
# 按照列名的長度排序。 OrderedDict的順序是跟插入順序一致的
df.agg(collections.OrderedDict(sorted(agg_dict.items(), key = lambda x: len(x[0]))))

總結

好好學習，天天向上！

GPU云服務器云服務器 pandas python python_pandas python的異常處理 python對的處理

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41042.html

Python數據分析入門之pandas總結基礎（二）

摘要：一大熊貓世界來去自如的老生常談，從基礎來看，我們仍然關心對于與外部數據是如何交互的。函數受限制問題唯一重要的參數，標志著一個的第個頁將會被取出。數據分析入門之總結基礎一歡迎來翔的博客查看完成版。一.大熊貓世界來去自如：Pandas的I/O 老生常談，從基礎來看，我們仍然關心pandas對于與外部數據是如何交互的。 1.1 結構化數據輸入輸出 read_csv與to_csv 是?對...

verano 2019-07-24 18:20 評論0 收藏0
pandas &amp; matplotlib 直播數據分析

摘要：直播數據分析針對直播間這個時間段的數據分析基礎數據展示以上數據是從直播間的彈幕中提取的相關數據每個字段解釋為唯一標識用戶名發送的信息用戶等級牌子牌子等級發言房間號依賴數據處理基礎準備根據牌子名稱統計最大值最小值平均值計算牌子的最大值最小值直播數據分析針對douyu_60937 直播間 (2018/11/19 19:04:18 - 2018/11/20 7:56:42) 這個時間...

Cristalven 2019-07-30 18:32 評論0 收藏0
pandas中聚合函數agg的具體用法

　　pandas其實匯集了python函數的一個數據庫，主要是用來調用數據的，作為其中的聚合函數，那么，其中的函數agg的具體用法是怎么樣的呢？下面就給大家詳細的解答下?！　〗裉炜吹絧andas的聚合函數agg，比較陌生，平時的工作中處理數據的時候使用的也比較少，為了加深印象，總結一下使用的方法，其實還是挺好用的。　　DataFrame.agg（func，axis=0，*args，**kwargs...

89542767 2022-11-15 13:42 評論0 收藏0
Python數據分析學習筆記之Pandas入門

摘要：是一個數據分析的開源庫。與表格或關系數據庫中的表非常神似。注意帶有一個索引，類似于關系數據庫中的主鍵。的統計函數分組與聚合通過方法，可以對數據組施加一系列的函數。函數的作用是串聯，追加數據行使用函數。 pandas(Python data analysis)是一個Python數據分析的開源庫。pandas兩種數據結構：DataFrame和Series 安裝：pandas依賴于NumPy...

zqhxuyuan 2019-07-25 11:21 評論0 收藏0
【數據科學系統學習】Python # 數據分析基本操作[四] 數據規整化和數據聚合與分組運算

摘要：數據規整化清理轉換合并重塑數據聚合與分組運算數據規整化清理轉換合并重塑合并數據集可根據一個或多個鍵將不同中的行鏈接起來。函數根據樣本分位數對數據進行面元劃分。字典或，給出待分組軸上的值與分組名之間的對應關系。本篇內容為整理《利用Python進行數據分析》，博主使用代碼為 Python3，部分內容和書本有出入。在前幾篇中我們介紹了 NumPy、pandas、matplotlib 三個...

The question 2019-07-31 11:11 評論0 收藏0