小編寫這篇文章的主要目的,主要是對(duì)pandas做一個(gè)較為詳細(xì)的一個(gè)解答,pandas其實(shí)就是一個(gè)數(shù)據(jù)模型庫(kù),里面的內(nèi)容還是比較的多的,那么,怎么樣對(duì)海量的數(shù)據(jù)進(jìn)行處理呢?處理的內(nèi)容就是對(duì)超大的csv文件進(jìn)行快速拆分,下面就給大家舉例驗(yàn)證。
前言
本文介紹如何利用pandas對(duì)超大CSV文件進(jìn)行快速拆分。
1.操作步驟
1.1安裝pandas
pip install pandas
1.2拆分大文件
import pandas as pd
#讀取csv文件 df=pd.read_csv("../super_big.csv") #獲取文件總行數(shù) row_num=len(df) #確定每個(gè)小文件要包含的數(shù)據(jù)量 step=400 for start in range(0,row_num,step): stop=start+step filename="./small_{}-{}.csv".format(start,stop) d=df[start:stop] print("Saving file:"+filename+",data size:"+str(len(d))) d.to_csv(fname,index=None) #輸出如下 #Saving file:./small_0-500.csv,data size:500 #Saving file:./small_500-1000.csv,data size:500
代碼就這么簡(jiǎn)單。
2.再多了解一點(diǎn)兒
2.1 pandas讀取csv文件后,返回的是什么類型?
import pandas df=pandas.read_csv('./super_big.csv') type(df) <class'pandas.core.frame.DataFrame'>
2.2如何從DataFrame中讀取某一行呢?
#返回第一行 print(df.loc[0]) #返回第二行 print(df.loc[1])
2.3如何從DataFrame讀取多行呢?
d=df[start:stop]
2.4如何從DataFrame中讀取某一列呢?
data={ "name":["peter","rose","joe"], "career":["teacher","engineer","doctor"] } df=pd.DataFrame(data) print(df["name"]) #0 peter #1 rose #2 joe #Name:name,dtype:object
2.5如何用pandas讀寫CSV文件?
df=pd.read_csv("YOUT_CSV_FILE.csv") df.to_csv(fname,index=None) 注意:index默認(rèn)是True,意思是保存行索引,這時(shí)候需要一個(gè)例子。 data={ "name":["peter","rose","joe"], "career":["teacher","engineer","doctor"] } df=pd.DataFrame(data) df.to_csv("a.csv") #文件內(nèi)容如下,注意每行的開(kāi)頭自動(dòng)添加了行索引,從0開(kāi)始遞增 ,name,career 0,peter,teacher 1,rose,engineer 2,joe,doctor
2.6關(guān)于pandas
pandas是一款快速、強(qiáng)大、靈活且易于使用的開(kāi)源數(shù)據(jù)分析和操作工具,建立在Python編程語(yǔ)言之上。用了都說(shuō)好。
3.小結(jié)
其實(shí)pandas處理csv文件的方法還有很多,功能非常強(qiáng)大,僅僅是數(shù)據(jù)切分,就有很多方法,有需要的時(shí)候,可以去看看文檔。
綜上所述,這篇文章就給大家介紹到這里了,希望可以給各位讀者帶來(lái)幫助。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/128349.html
摘要:目標(biāo)很簡(jiǎn)單,因?yàn)槲蚁胍酪幌伦C券化率,然后可視化輸出結(jié)果。證券化率的基礎(chǔ)就是上市公司的總市值,對(duì)于證券化率其實(shí)還蠻多說(shuō)法的,比如雪球的這篇文。我們可以利用這個(gè)回調(diào)函數(shù)來(lái)顯示當(dāng)前的下載進(jìn)度。 寫在前面的叨叨 折騰了這么久,我終于在喝完一聽(tīng)快樂(lè)肥宅水后下定決心來(lái)學(xué)習(xí)寫爬蟲(chóng)了。目標(biāo)很簡(jiǎn)單,因?yàn)槲蚁胍酪幌伦C券化率,然后可視化輸出結(jié)果。證券化率的基礎(chǔ)就是上市公司的總市值,對(duì)于證券化率其實(shí)還蠻多...
摘要:在中實(shí)現(xiàn)機(jī)器學(xué)習(xí)功能的種方法來(lái)源愿碼內(nèi)容編輯愿碼連接每個(gè)程序員的故事網(wǎng)站愿碼愿景打造全學(xué)科系統(tǒng)免費(fèi)課程,助力小白用戶初級(jí)工程師成本免費(fèi)系統(tǒng)學(xué)習(xí)低成本進(jìn)階,幫助一線資深工程師成長(zhǎng)并利用自身優(yōu)勢(shì)創(chuàng)造睡后收入。 在Python中實(shí)現(xiàn)機(jī)器學(xué)習(xí)功能的4種方法 showImg(https://segmentfault.com/img/remote/1460000018849605); 來(lái)源 | ...
閱讀 911·2023-01-14 11:38
閱讀 878·2023-01-14 11:04
閱讀 740·2023-01-14 10:48
閱讀 1983·2023-01-14 10:34
閱讀 942·2023-01-14 10:24
閱讀 819·2023-01-14 10:18
閱讀 499·2023-01-14 10:09
閱讀 572·2023-01-14 10:02