1、導入數據集
使用Pandas自帶的方法,將數據集存入變量df中。
import pandas as pd
df = pd.read_excel(‘./team.xlsx’)
print(df)
2、查看數據
df.head() #查看數據的前5行,可指定行數
df.tail() #查看數據的后5行,可指定行數
df.sample() #查看數據的某1行,可指定行數
3、查看數據概況
df.info() #查看數據概要信息
df.describe() #查看數值型列數據的常用統(tǒng)計信息
df.dtypes #查看各列的數據類型及整個DataFrame的類型
df.axes #查看行列索引內容
df.index #查看索引
df.columns #查看列名
df.values #返回所有值的列表矩陣
df.size #行數x列數的值,表示總共有多少個數據
df.empty #判斷DataFrame是否為空
4、設定索引
df.set_index(‘name’, inplace=True) #將name列設定為索引
5、選擇數據
1)直接取
df[‘Q1’] #取Q1列的數據
df[df.index == ‘Liver’] #取索引為Liver的行,注意取值用方括號
df[0:3] #取前三行數據
2)用loc函數取
df.loc[x, y] #loc函數,取行為x,列為y的數據,x和y可以是表達式
df.loc[‘Ben’, ‘Q1’:’Q3’] #取索引為Ben,在列Q1到Q3之間的數據
df.loc[‘Eorqe’:’Isaac’, ‘Q3’:’Q4’] #取索引在Eorqe到Isaac之間,且列在Q3到Q4之間的數據
3)設置條件取
df[‘Q1’] > 90 #這不是在取值,而是將Q1列的所有值分別與90比大小,大于90的顯示True,小于90的顯示False
df[df.Q1 > 90] #這是在取值,取值條件是Q1列中的數據大于90的行,結果會返回所有符合條件的行
df[df.team == ‘C’] #取值,條件為team列中值等于C的行,結果會返回所有符合條件的行
4)組合條件取值
df[(df.Q1 > 90) & (df[‘team’] == ‘C’)] #組合條件取值,取同時滿足兩個條件的值
df[df[‘team’] == ‘C’].loc[df.Q1 > 90] #取team等于C的列,在其中再取Q1列值大于90的數據
5)按數字索引.iloc
iloc[]不同與loc[],它只支持數字切片
df.iloc[:3] #取前三行
df.iloc[2:20:3] #取2到20行,步長為3
6)取具體值.at/.iat
df.at[4, ‘name’] #取4行,name列的值
df.set_index(‘name’).at[‘Liver’, ‘Q1’]?
#先設定索引,取Liver行,Q1列的值
df.set_index(‘name’).Q1.at[‘Arry’]
#先設定索引,取Q1列,Arry行的值
.iat僅支持數字索引
df.iat[4, 2] #去第4行第2列的值