4000字詳細說明，推薦20個好用到爆的Pandas函數方法

2501207950 發布于2021-11-18 10:02 / 2954人閱讀

摘要：往期回顧教程實現社交網絡可視化，看看你的人脈影響力如何轉載字概括精髓，必知必會例注意字歸納總結帶你做數據預處理新聞字張圖，一鍵生成炫酷的動態交互式圖表分享收藏點贊在看

今天分享幾個不為人知的pandas函數，大家可能平時看到的不多，但是使用起來倒是非常的方便，也能夠幫助我們數據分析人員大幅度地提高工作效率，同時也希望大家看完之后能夠有所收獲

items()方法
iterrows()方法
insert()方法
assign()方法
eval()方法
pop()方法
truncate()方法
count()方法
add_prefix()方法/add_suffix()方法
clip()方法
filter()方法
first()方法
isin()方法
df.plot.area()方法
df.plot.bar()方法
df.plot.box()方法
df.plot.pie()方法

`items()`方法

pandas當中的items()方法可以用來遍歷數據集當中的每一列，同時返回列名以及每一列當中的內容，通過以元組的形式，示例如下

df?=?pd.DataFrame({"species":?["bear",?"bear",?"marsupial"],??????????????????"population":?[1864,?22000,?80000]},??????????????????index=["panda",?"polar",?"koala"])df

output

species??populationpanda???????bear????????1864polar???????bear???????22000koala??marsupial???????80000

然后我們使用items()方法

for?label,?content?in?df.items():????print(f"label:?{label}")????print(f"content:?{content}",?sep="/n")????print("="?*?50)

output

label:?speciescontent:?panda?????????bearpolar?????????bearkoala????marsupialName:?species,?dtype:?object==================================================label:?populationcontent:?panda?????1864polar????22000koala????80000Name:?population,?dtype:?int64==================================================

相繼的打印出了‘species’和‘population’這兩列的列名和相應的內容

`iterrows()`方法

而對于iterrows()方法而言，其功能則是遍歷數據集當中的每一行，返回每一行的索引以及帶有列名的每一行的內容，示例如下

for?label,?content?in?df.iterrows():????print(f"label:?{label}")????print(f"content:?{content}",?sep="/n")????print("="?*?50)

output

label:?pandacontent:?species???????bearpopulation????1864Name:?panda,?dtype:?object==================================================label:?polarcontent:?species????????bearpopulation????22000Name:?polar,?dtype:?object==================================================label:?koalacontent:?species???????marsupialpopulation????????80000Name:?koala,?dtype:?object==================================================

`insert()`方法

insert()方法主要是用于在數據集當中的特定位置處插入數據，示例如下

df.insert(1,?"size",?[2000,?3000,?4000])

output

species??size??populationpanda???????bear??2000????????1864polar???????bear??3000???????22000koala??marsupial??4000???????80000

可見在DataFrame數據集當中，列的索引也是從0開始的

`assign()`方法

assign()方法可以用來在數據集當中添加新的列，示例如下

df.assign(size_1=lambda?x:?x.population?*?9?/?5?+?32)

output

species??population????size_1panda???????bear????????1864????3387.2polar???????bear???????22000???39632.0koala??marsupial???????80000??144032.0

從上面的例子中可以看出，我們通過一個lambda匿名函數，在數據集當中添加一個新的列，命名為‘size_1’，當然我們也可以通過assign()方法來創建不止一個列

df.assign(size_1?=?lambda?x:?x.population?*?9?/?5?+?32,??????????size_2?=?lambda?x:?x.population?*?8?/?5?+?10)

output

species??population????size_1????size_2panda???????bear????????1864????3387.2????2992.4polar???????bear???????22000???39632.0???35210.0koala??marsupial???????80000??144032.0??128010.0

`eval()`方法

eval()方法主要是用來執行用字符串來表示的運算過程的，例如

df.eval("size_3?=?size_1?+?size_2")

output

species??population????size_1????size_2????size_3panda???????bear????????1864????3387.2????2992.4????6379.6polar???????bear???????22000???39632.0???35210.0???74842.0koala??marsupial???????80000??144032.0??128010.0??272042.0

當然我們也可以同時對執行多個運算過程

df?=?df.eval("""size_3?=?size_1?+?size_2size_4?=?size_1?-?size_2""")

output

species??population????size_1????size_2????size_3???size_4panda???????bear????????1864????3387.2????2992.4????6379.6????394.8polar???????bear???????22000???39632.0???35210.0???74842.0???4422.0koala??marsupial???????80000??144032.0??128010.0??272042.0??16022.0

`pop()`方法

pop()方法主要是用來刪除掉數據集中特定的某一列數據

df.pop("size_3")

output

panda??????6379.6polar?????74842.0koala????272042.0Name:?size_3,?dtype:?float64

而原先的數據集當中就沒有這個‘size_3’這一例的數據了

`truncate()`方法

truncate()方法主要是根據行索引來篩選指定行的數據的，示例如下

df?=?pd.DataFrame({"A":?["a",?"b",?"c",?"d",?"e"],???????????????????"B":?["f",?"g",?"h",?"i",?"j"],???????????????????"C":?["k",?"l",?"m",?"n",?"o"]},??????????????????index=[1,?2,?3,?4,?5])

output

A??B??C1??a??f??k2??b??g??l3??c??h??m4??d??i??n5??e??j??o

我們使用truncate()方法來做一下嘗試

df.truncate(before=2,?after=4)

output

A??B??C2??b??g??l3??c??h??m4??d??i??n

我們看到參數before和after存在于truncate()方法中，目的就是把行索引2之前和行索引4之后的數據排除在外，篩選出剩余的數據

`count()`方法

count()方法主要是用來計算某一列當中非空值的個數，示例如下

df?=?pd.DataFrame({"Name":?["John",?"Myla",?"Lewis",?"John",?"John"],???????????????????"Age":?[24.,?np.nan,?25,?33,?26],???????????????????"Single":?[True,?True,?np.nan,?True,?False]})

output

Name???Age?Single0???John??24.0???True1???Myla???NaN???True2??Lewis??25.0????NaN3???John??33.0???True4???John??26.0??False

我們使用count()方法來計算一下數據集當中非空值的個數

df.count()

output

Name??????5Age???????4Single????4dtype:?int64

add_prefix()方法/add_suffix()方法

add_prefix()方法和add_suffix()方法分別會給列名以及行索引添加后綴和前綴，對于Series()數據集而言，前綴與后綴是添加在行索引處，而對于DataFrame()數據集而言，前綴與后綴是添加在列索引處，示例如下

s?=?pd.Series([1,?2,?3,?4])

output

0??? 11????22????33????4dtype:?int64

我們使用add_prefix()方法與add_suffix()方法在Series()數據集上

s.add_prefix("row_")

output

row_0????1row_1????2row_2????3row_3????4dtype:?int64

又例如

s.add_suffix("_row")

output

0_row????11_row????22_row????33_row????4dtype:?int64

而對于DataFrame()形式數據集而言，add_prefix()方法以及add_suffix()方法是將前綴與后綴添加在列索引處的

df?=?pd.DataFrame({"A":?[1,?2,?3,?4],?"B":?[3,?4,?5,?6]})

output

A??B0??1??31??2??42??3??53??4??6

示例如下

df.add_prefix("column_")

output

column_A??column_B0?????????1?????????31?????????2?????????42?????????3?????????53?????????4?????????6

又例如

df.add_suffix("_column")

output

A_column??B_column0?????????1?????????31?????????2?????????42?????????3?????????53?????????4?????????6

`clip()`方法

clip()方法主要是通過設置閾值來改變數據集當中的數值，當數值超過閾值的時候，就做出相應的調整

data?=?{"col_0":?[9,?-3,?0,?-1,?5],?"col_1":?[-2,?-7,?6,?8,?-5]}df?=?pd.DataFrame(data)

output

df.clip(lower?=?-4,?upper?=?4)

output

col_0??col_10??????4?????-21?????-3?????-42??????0??????43?????-1??????44??????4?????-4

我們看到參數lower和upper分別代表閾值的上限與下限，數據集當中超過上限與下限的值會被替代。

`filter()`方法

pandas當中的filter()方法是用來篩選出特定范圍的數據的，示例如下

df?=?pd.DataFrame(np.array(([1,?2,?3],?[4,?5,?6],?[7,?8,?9],?[10,?11,?12])),??????????????????index=["A",?"B",?"C",?"D"],??????????????????columns=["one",?"two",?"three"])

output

one??two??threeA????1????2??????3B????4????5??????6C????7????8??????9D???10???11?????12

我們使用filter()方法來篩選數據

df.filter(items=["one",?"three"])

output

one??threeA????1??????3B????4??????6C????7??????9D???10?????12

我們還可以使用正則表達式來篩選數據

df.filter(regex="e$",?axis=1)

output

one??threeA????1??????3B????4??????6C????7??????9D???10?????12

當然通過參數axis來調整篩選行方向或者是列方向的數據

df.filter(like="B",?axis=0)

output

one??two??threeB????4????5??????6

`first()`方法

當數據集當中的行索引是日期的時候，可以通過該方法來篩選前面幾行的數據

index_1?=?pd.date_range("2021-11-11",?periods=5,?freq="2D")ts?=?pd.DataFrame({"A":?[1,?2,?3,?4,?5]},?index=index_1)ts

output

A2021-11-11??12021-11-13??22021-11-15??32021-11-17??42021-11-19??5

我們使用first()方法來進行一些操作，例如篩選出前面3天的數據

ts.first("3D")

output

A2021-11-11??12021-11-13??2

`isin()`方法

isin()方法主要是用來確認數據集當中的數值是否被包含在給定的列表當中

df?=?pd.DataFrame(np.array(([1,?2,?3],?[4,?5,?6],?[7,?8,?9],?[10,?11,?12])),??????????????????index=["A",?"B",?"C",?"D"],??????????????????columns=["one",?"two",?"three"])df.isin([3,?5,?12])

output

one????two??threeA??False??False???TrueB??False???True??FalseC??False??False??FalseD??False??False???True

若是數值被包含在列表當中了，也就是3、5、12當中，返回的是True，否則就返回False

`df.plot.area()`方法

下面我們來講一下如何在Pandas當中通過一行代碼來繪制圖表，將所有的列都通過面積圖的方式來繪制

df?=?pd.DataFrame({????"sales":?[30,?20,?38,?95,?106,?65],????"signups":?[7,?9,?6,?12,?18,?13],????"visits":?[20,?42,?28,?62,?81,?50],},?index=pd.date_range(start="2021/01/01",?end="2021/07/01",?freq="M"))ax?=?df.plot.area(figsize?=?(10,?5))

output

`df.plot.bar()`方法

下面我們看一下如何通過一行代碼來繪制柱狀圖

df?=?pd.DataFrame({"label":["A",?"B",?"C",?"D"],?"values":[10,?30,?50,?70]})ax?=?df.plot.bar(x="label",?y="values",?rot=20)

output

當然我們也可以根據不同的類別來繪制柱狀圖

age?=?[0.1,?17.5,?40,?48,?52,?69,?88]weight?=?[2,?8,?70,?1.5,?25,?12,?28]index?=?["A",?"B",?"C",?"D",?"E",?"F",?"G"]df?=?pd.DataFrame({"age":?age,?"weight":?weight},?index=index)ax?=?df.plot.bar(rot=0)

output

當然我們也可以橫向來繪制圖表

ax?=?df.plot.barh(rot=0)

output

`df.plot.box()`方法

我們來看一下箱型圖的具體的繪制，通過pandas一行代碼來實現

data?=?np.random.randn(25,?3)df?=?pd.DataFrame(data,?columns=list("ABC"))ax?=?df.plot.box()

output

`df.plot.pie()`方法

接下來是餅圖的繪制

df?=?pd.DataFrame({"mass":?[1.33,?4.87?,?5.97],???????????????????"radius":?[2439.7,?6051.8,?6378.1]},??????????????????index=["Mercury",?"Venus",?"Earth"])plot?=?df.plot.pie(y="mass",?figsize=(8,?8))

output

除此之外，還有折線圖、直方圖、散點圖等等，步驟與方式都與上述的技巧有異曲同工之妙，大家感興趣的可以自己另外去嘗試。

往

期

回

顧

教程

Python實現社交網絡可視化，看看你的人脈影響力如何

轉載

8000字概括精髓，pandas必知必會50例

注意

4000字歸納總結 Pandas+Sklearn 帶你做數據預處理

新聞

7000字 23張圖，Pandas一鍵生成炫酷的動態交互式圖表

分享收藏點贊在看

GPU云服務器云服務器詳細說明安裝php詳細說明 icp備案流程詳細說明 cn.com域名詳細說明

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/123739.html

推薦一款阿里開源的 Java 診斷工具，好用到爆！

摘要：是什么鬼是一款阿里巴巴開源的線上診斷工具，功能非常強大，可以解決很多線上不方便解決的問題。診斷使用的是命令行交互模式，支持，操作系統，命令還支持使用鍵對各種信息的自動補全，診斷起來非常利索。顯示當前系統的實時數據面板，按即可退出。 Arthas是什么鬼？ Arthas是一款阿里巴巴開源的 Java 線上診斷工具，功能非常強大，可以解決很多線上不方便解決的問題。 Arthas診斷使用的是...

Rango 2019-08-19 10:15 評論0 收藏0
Python數據分析入門之pandas總結基礎（二）

摘要：一大熊貓世界來去自如的老生常談，從基礎來看，我們仍然關心對于與外部數據是如何交互的。函數受限制問題唯一重要的參數，標志著一個的第個頁將會被取出。數據分析入門之總結基礎一歡迎來翔的博客查看完成版。一.大熊貓世界來去自如：Pandas的I/O 老生常談，從基礎來看，我們仍然關心pandas對于與外部數據是如何交互的。 1.1 結構化數據輸入輸出 read_csv與to_csv 是?對...

verano 2019-07-24 18:20 評論0 收藏0
騰訊大廈與我有個約定（面試精華帖）

摘要：第二天相同的時間相同的地方，我卻走錯了地方，原來成都騰訊大廈有兩棟。在一個雨蒙蒙的清晨，百般無聊的閑逛中，突然回憶起了我這一生中的第一次面試經歷。雖然結果是以失敗而告終，但此時此刻的回憶，帶給我的并不是失敗而是成長。作為一名實習生，我深刻的感受到在校園與社會夾縫中生活的不易。也十分的幸運，我還有足夠的青春與活力驅動著我去學習，讓我的未來不再遙不可及;讓我能在社會的這份土壤里扎根成長...

monw3c 2019-08-23 15:43 評論0 收藏0
騰訊大廈與我有個約定（面試精華帖）

摘要：第二天相同的時間相同的地方，我卻走錯了地方，原來成都騰訊大廈有兩棟。在一個雨蒙蒙的清晨，百般無聊的閑逛中，突然回憶起了我這一生中的第一次面試經歷。雖然結果是以失敗而告終，但此時此刻的回憶，帶給我的并不是失敗而是成長。作為一名實習生，我深刻的感受到在校園與社會夾縫中生活的不易。也十分的幸運，我還有足夠的青春與活力驅動著我去學習，讓我的未來不再遙不可及;讓我能在社會的這份土壤里扎根成長...

yimo 2019-08-30 15:56 評論0 收藏0
騰訊大廈與我有個約定（面試精華帖）

摘要：第二天相同的時間相同的地方，我卻走錯了地方，原來成都騰訊大廈有兩棟。在一個雨蒙蒙的清晨，百般無聊的閑逛中，突然回憶起了我這一生中的第一次面試經歷。雖然結果是以失敗而告終，但此時此刻的回憶，帶給我的并不是失敗而是成長。作為一名實習生，我深刻的感受到在校園與社會夾縫中生活的不易。也十分的幸運，我還有足夠的青春與活力驅動著我去學習，讓我的未來不再遙不可及;讓我能在社會的這份土壤里扎根成長...

時飛 2019-08-02 14:26 評論0 收藏0

發表評論

登陸后可評論

0條評論

2501207950

男|高級講師

我要關注我要私信

TA的文章

c語言是如何解析表達式語句"2+3*4；"的？

閱讀 1125·2021-11-24 09:38
人民日報評論：理性看待當前的元宇宙熱潮

閱讀 3229·2021-11-19 09:56
4000字詳細說明，推薦20個好用到爆的Pandas函數方法

閱讀 2955·2021-11-18 10:02
CSS Animations vs Web Animations API

閱讀 721·2019-08-29 12:50
zhilizhili-ui 2016 web app啟動界面制作

閱讀 2566·2019-08-28 18:30
CSS和Js一些筆記

閱讀 859·2019-08-28 18:10
NPM酷庫：numeral，格式化數字

閱讀 3659·2019-08-26 11:36
javascript 數組排序（sort,冒泡）

閱讀 2640·2019-08-23 18:23

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

4000字詳細說明，推薦20個好用到爆的Pandas函數方法

items()方法

iterrows()方法

insert()方法

assign()方法

eval()方法

pop()方法

truncate()方法

count()方法

add_prefix()方法/add_suffix()方法

clip()方法

filter()方法

first()方法

isin()方法

df.plot.area()方法

df.plot.bar()方法

df.plot.box()方法

df.plot.pie()方法

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

`items()`方法

`iterrows()`方法

`insert()`方法

`assign()`方法

`eval()`方法

`pop()`方法

`truncate()`方法

`count()`方法

`clip()`方法

`filter()`方法

`first()`方法

`isin()`方法

`df.plot.area()`方法

`df.plot.bar()`方法

`df.plot.box()`方法

`df.plot.pie()`方法