對pandas進行數據預處理的實例講解

psychola 發布于2019-07-31 10:09 / 1310人閱讀

摘要：引入包和加載數據清洗數據查看數據維度以及類型缺失值處理查看數據統計信息數值屬性離散化計算特征與屬性之間關系查看數據維度以及類型查看前五條數據查看每列數據類型以及情況獲得所有屬性查看數據統計信息查看連續數值屬性基本統計情況查看屬性數據統計情況

引入包和加載數據

1
2
3
4
5
import pandas as pd
import numpy as np
train_df =pd.read_csv("../datas/train.csv") # train set
test_df = pd.read_csv("../datas/test.csv") # test set
combine = [train_df, test_df]

清洗數據

查看數據維度以及類型
缺失值處理
查看object數據統計信息
數值屬性離散化
計算特征與target屬性之間關系

查看數據維度以及類型

1
2
3
4
5
6

查看前五條數據

print train_df.head(5)

查看每列數據類型以及nan情況

print train_df.info()

獲得所有object屬性

print train_data.describe(include=["O"]).columns
查看object數據統計信息
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98

查看連續數值屬性基本統計情況

print train_df.describe()

查看object屬性數據統計情況

print train_df.describe(include=["O"])

統計Title單列各個元素對應的個數

print train_df["Title"].value_counts()

屬性列刪除

train_df = train_df.drop(["Name", "PassengerId"], axis=1)
缺失值處理

直接丟棄缺失數據列的行

print df4.dropna(axis=0,subset=["col1"]) # 丟棄nan的行,subset指定查看哪幾列
print df4.dropna(axis=1) # 丟棄nan的列

采用其他值填充

dataset["Cabin"] = dataset["Cabin"].fillna("U")
dataset["Title"] = dataset["Title"].fillna(0)

采用出現最頻繁的值填充

freq_port = train_df.Embarked.dropna().mode()[0]
dataset["Embarked"] = dataset["Embarked"].fillna(freq_port)

采用中位數或者平均數填充

test_df["Fare"].fillna(test_df["Fare"].dropna().median(), inplace=True)
test_df["Fare"].fillna(test_df["Fare"].dropna().mean(), inplace=True)
數值屬性離散化，object屬性數值化

創造一個新列，FareBand，將連續屬性Fare切分成四份

train_df["FareBand"] = pd.qcut(train_df["Fare"], 4)

查看切分后的屬性與target屬性Survive的關系

train_df[["FareBand", "Survived"]].groupby(["FareBand"], as_index=False).mean().sort_values(by="FareBand", ascending=True)

建立object屬性映射字典

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Royalty":5, "Officer": 6}
dataset["Title"] = dataset["Title"].map(title_mapping)
計算特征與target屬性之間關系
object與連續target屬性之間，可以groupby均值
object與離散target屬性之間，先將target數值化，然后groupby均值，或者分別條形統計圖
連續屬性需要先切割然后再進行groupby計算，或者pearson相關系數
print train_df[["AgeBand", "Survived"]].groupby(["AgeBand"], as_index=False).mean().sort_values(by="AgeBand", ascending=True)
總結pandas基本操作
”"
創建df對象
””"
s1 = pd.Series([1,2,3,np.nan,4,5])
s2 = pd.Series([np.nan,1,2,3,4,5])
print s1
dates = pd.date_range(“20130101”,periods=6)
print dates
df = pd.DataFrame(np.random.rand(6,4),index=dates,columns=list(“ABCD”))

print df

df2 = pd.DataFrame({“A”:1,
‘B":pd.Timestamp(‘20130102"),
‘C":pd.Series(1,index=list(range(4)),dtype="float32"),
‘D":np.array([3]*4,dtype=np.int32),
‘E":pd.Categorical([‘test","train","test","train"]),
‘F":"foo"
})

print df2.dtypes

df3 = pd.DataFrame({"col1":s1,

 "col2":s2

})
print df3
"""
2.查看df數據
"""
print df3.head(2) #查看頭幾條
print df3.tail(3) #查看尾幾條
print df.index #查看索引
print df.info() #查看非non數據條數
print type(df.values) #返回二元數組

print df3.values

print df.describe() #對每列數據進行初步的統計
print df3
print df3.sort_values(by=["col1"],axis=0,ascending=True) #按照哪幾列排序
"""
3.選擇數據
"""
ser_1 = df3["col1"]
print type(ser_1) #pandas.core.series.Series
print df3[0:2] #前三行
print df3.loc[df3.index[0]] #通過index來訪問
print df3.loc[df3.index[0],["col2"]] #通過行index，和列名來唯一確定一個位置
print df3.iloc[1] #通過位置來訪問
print df3.iloc[[1,2],1:2] #通過位置來訪問
print "==="
print df3.loc[:,["col1","col2"]].as_matrix() # 返回nunpy二元數組
print type(df3.loc[:,["col1","col2"]].as_matrix())
"""
4.布爾索引，過濾數據
"""
print df3[df3.col1 >2]
df4 = df3.copy()
df4["col3"]=pd.Series(["one","two","two","three","one","two"])
print df4
print df4[df4["col3"].isin(["one","two"])]
df4.loc[:,"col3"]="five"
print df4
"""
5.缺失值處理，pandas將缺失值用nan代替
"""
print pd.isnull(df4)
print df4.dropna(axis=0,subset=["col1"]) # 丟棄nan的行,subset指定查看哪幾列
print df4.dropna(axis=1) # 丟棄nan的列

云服務器 GPU云服務器 js對json數據的處理對數據進行分析對數據進行統計排行如何對數據進行統計

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43330.html

我是如何入門機器學習的呢

摘要：在這里我分享下我個人入門機器學習的經歷，希望能對大家能有所幫助。相關學習鏈接，，入門后的體驗在入門了機器學習之后，在實際工作中，絕大多數的情況下你并不需要去創造一個新的算法。機器學習在很多眼里就是香餑餑，因為機器學習相關的崗位在當前市場待遇不錯，但同時機器學習在很多人面前又是一座大山，因為發現它太難學了。在這里我分享下我個人入門機器學習的經歷，希望能對大家能有所幫助。 PS：這篇文章...

ShowerSun 2019-06-26 18:27 評論0 收藏0
Python Pandas中loc和iloc函數的基本用法講解

　　Python Pandas的主要左右是解決大量的數據，快速的對數據去進行批量的處理，大大提高工作的效率。那么，里面的loc和iloc函數，具體是怎么進行使用呢？怎么知道每個函數的基本用法呢？下面小編就給大家詳細的解答下。　　1 loc和iloc的含義　　loc表示location的意思；iloc中的loc意思相同，前面的i表示integer，所以它只接受整數作為參數。　　2用法　　import...

89542767 2022-11-15 13:35 評論0 收藏0