{eval=Array;=+count(Array);}
pandas是python一個(gè)非常著名的數(shù)據(jù)處理庫(kù),內(nèi)置了大量函數(shù)和類型,可以快速讀取日常各種文件,包括txt,csv,excel,json,mysql等,為機(jī)器學(xué)習(xí)模型提供樣本輸入(包括數(shù)據(jù)預(yù)處理等),下面我簡(jiǎn)單介紹一下這個(gè)庫(kù)的使用,以讀取這5種類型文件為例:
這里直接使用read_csv函數(shù)讀取就行(早期版本中可以使用read_table函數(shù)),測(cè)試代碼如下,非常簡(jiǎn)單,第一個(gè)參數(shù)為讀取的txt文件名稱,第二個(gè)參數(shù)為列標(biāo)題(None代表無(wú)列標(biāo)題,如果需要列標(biāo)題的話,去掉header參數(shù)就行),第三個(gè)參數(shù)為分隔符,可以是任意符號(hào)(空格、逗號(hào)等都行):
這里也直接使用read_csv函數(shù)就行,測(cè)試代碼如下,和上面讀取txt文件差不多,分隔符就不需要多帶帶指出了,默認(rèn)是逗號(hào):
這里直接使用read_excel函數(shù)讀取就行,參數(shù)設(shè)置和read_csv差不多,第一個(gè)參數(shù)為文件名稱,第二參數(shù)header為None,則沒(méi)有列標(biāo)題,若不寫,則默認(rèn)有列標(biāo)題,如下,則含有列標(biāo)題:
這里直接使用read_json函數(shù)就行,第一個(gè)參數(shù)也是文件名稱,第二個(gè)參數(shù)為編碼,如果出現(xiàn)中文亂碼的情況下,這里設(shè)置一下就行:
這里需要借助sqlalchemy模塊,才能完成mysql數(shù)據(jù)庫(kù)(Oracle,SQL Server等也都可以)的讀取,安裝的話,直接在cmd窗口輸入命令“pip install sqlalchemy”就行,測(cè)試代碼如下,非常簡(jiǎn)單,先創(chuàng)建一個(gè)engine連接,然后直接調(diào)用read_sql_query函數(shù)執(zhí)行sql查詢就行:
至此,我們就完成了利用pandas模塊來(lái)讀取txt,csv,excel,json,mysql等5種類型的文件。總的來(lái)說(shuō),pandas這個(gè)庫(kù)的功能非常強(qiáng)大,對(duì)于日常數(shù)據(jù)處理來(lái)說(shuō),是一個(gè)非常不錯(cuò)的選擇,在機(jī)器學(xué)習(xí)中,經(jīng)常會(huì)用于數(shù)據(jù)預(yù)處理,非常實(shí)用,只要你有一定的python基礎(chǔ),熟悉一下相關(guān)文檔和說(shuō)明,很快就能掌握的,網(wǎng)上也有相關(guān)資料和教程,介紹的非常詳細(xì),感興趣的話,可以搜一下,希望以上分享的內(nèi)容能對(duì)你有所幫助吧,也歡迎大家評(píng)論、留言進(jìn)行補(bǔ)充。
file1.csv 文件內(nèi)容:
name, physics, python, math, english
Google, 100, 100, 25, 12
Facebook, 45, 54, 44, 88
Twitter, 54, 76, 13, 91
Yahoo, 54, 452, 26, 100
Python程序:
import pandas as pd
marks = pd.read_csv("F:/file1.csv")
print(marks)
結(jié)果:
name physics python math english
0 Google 100 100 25 12
1 Facebook 45 54 44 88
2 Twitter 54 76 13 91
3 Yahoo 54 452 26 100
Process finished with exit code 0
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答