1、導入數據集

使用Pandas自帶的方法,將數據集存入變量df中。

import pandas as pd

df = pd.read_excel(‘./team.xlsx’)

print(df)

2、查看數據

df.head() #查看數據的前5行,可指定行數

df.tail() #查看數據的后5行,可指定行數

df.sample() #查看數據的某1行,可指定行數

3、查看數據概況

df.info() #查看數據概要信息

df.describe() #查看數值型列數據的常用統(tǒng)計信息

df.dtypes #查看各列的數據類型及整個DataFrame的類型

df.axes #查看行列索引內容

df.index #查看索引

df.columns #查看列名

df.values #返回所有值的列表矩陣

df.size #行數x列數的值,表示總共有多少個數據

df.empty #判斷DataFrame是否為空

4、設定索引

df.set_index(‘name’, inplace=True) #將name列設定為索引

5、選擇數據

1)直接取

df[‘Q1’] #取Q1列的數據

df[df.index == ‘Liver’] #取索引為Liver的行,注意取值用方括號

df[0:3] #取前三行數據

2)用loc函數取

df.loc[x, y] #loc函數,取行為x,列為y的數據,x和y可以是表達式

df.loc[‘Ben’, ‘Q1’:’Q3’] #取索引為Ben,在列Q1到Q3之間的數據

df.loc[‘Eorqe’:’Isaac’, ‘Q3’:’Q4’] #取索引在Eorqe到Isaac之間,且列在Q3到Q4之間的數據

3)設置條件取

df[‘Q1’] > 90 #這不是在取值,而是將Q1列的所有值分別與90比大小,大于90的顯示True,小于90的顯示False

df[df.Q1 > 90] #這是在取值,取值條件是Q1列中的數據大于90的行,結果會返回所有符合條件的行

df[df.team == ‘C’] #取值,條件為team列中值等于C的行,結果會返回所有符合條件的行

4)組合條件取值

df[(df.Q1 > 90) & (df[‘team’] == ‘C’)] #組合條件取值,取同時滿足兩個條件的值

df[df[‘team’] == ‘C’].loc[df.Q1 > 90] #取team等于C的列,在其中再取Q1列值大于90的數據

5)按數字索引.iloc

iloc[]不同與loc[],它只支持數字切片

df.iloc[:3] #取前三行

df.iloc[2:20:3] #取2到20行,步長為3

6)取具體值.at/.iat

df.at[4, ‘name’] #取4行,name列的值

df.set_index(‘name’).at[‘Liver’, ‘Q1’]?

#先設定索引,取Liver行,Q1列的值

df.set_index(‘name’).Q1.at[‘Arry’]

#先設定索引,取Q1列,Arry行的值


.iat僅支持數字索引

df.iat[4, 2] #去第4行第2列的值