{eval=Array;=+count(Array);}
我想原因是他們的適用范圍不一樣,也就意味著他們的學(xué)習(xí)成本不一樣。如同為什么有了汽車,還有自行車的存在。
pandas 是 Python 中的一個(gè)數(shù)據(jù)處理分析庫,他能夠處理非常復(fù)雜且不規(guī)范的數(shù)據(jù)(許多人以為不能),同時(shí)也能快速做探索分析。
我頭條號其中一篇關(guān)于處理不規(guī)范數(shù)據(jù)的實(shí)戰(zhàn)案例:
["Python替代Excel Vba"系列(三):pandas處理不規(guī)范數(shù)據(jù)](https://www.toutiao.com/i6704937096722776583/?group_id=6704937096722776583)
可以說,在 Excel 中存在的功能,在 pandas 中也是一兩句代碼即可完成,并且能夠做到Excel所不能做到的復(fù)雜需求。
具體可以參考我的系列文章(下面只是列舉其中1篇):
[懂Excel就能輕松入門Python數(shù)據(jù)分析包pandas(八):匹配查找](https://www.toutiao.com/i6729044337029546504/)
因此,公司中的數(shù)據(jù)部門,"報(bào)表科"可能只使用Excel,"分析科"就會同時(shí)使用Excel,vba,pandas
許多公司一開始就使用了Excel作為數(shù)據(jù)模型工具,套上許多公式或vba編程,他們很多時(shí)候不是不想用pandas代替,只是這意味著人力成本與風(fēng)險(xiǎn)。
vba的存在
Excel自帶的功能可以滿足一般工作需求,但不能實(shí)現(xiàn)自動化流程。但微軟及時(shí)提供了vba語言解決這一缺點(diǎn)。因此許多公司早期都會使用vba實(shí)現(xiàn)自動化流程。后期即使發(fā)現(xiàn)pandas效率更高,也不好替換
我相信許多人都認(rèn)為,學(xué)習(xí)vba要比學(xué)習(xí)pandas 要容易,畢竟學(xué)習(xí)pandas還需要去學(xué)習(xí)python。這是許多"數(shù)據(jù)人"的誤區(qū)。
不可否認(rèn),在"操作Excel"這個(gè)角度上看,學(xué)習(xí)vba的確易于學(xué)習(xí)pandas。但是,數(shù)據(jù)領(lǐng)域工作中,真正復(fù)雜的不在于怎么操作Excel,而是怎么處理數(shù)據(jù)。pandas在"玩數(shù)據(jù)"這塊,無疑比Excel與vba要優(yōu)秀得多,學(xué)習(xí)成本也低很多。
這是因?yàn)椋褂胮andas不需要你非常深入python的知識,簡單的判斷、遍歷(實(shí)際不需要自己編寫遍歷代碼),即可馬上學(xué)習(xí)pandas
可惜許多"數(shù)據(jù)人"都被市面上各種學(xué)習(xí)python的資料給嚇倒,從而導(dǎo)致使用pandas代替Excel難以實(shí)現(xiàn)。
我以前的一家公司中的數(shù)據(jù)部門,當(dāng)初也是全用vba+Sql,但后來的維護(hù)成本實(shí)在太高(想象一下匯總也要自己寫幾十行代碼,sql其實(shí)也算簡單,但不能處理不規(guī)范數(shù)據(jù),在pandas 中就一句)。
后來希望轉(zhuǎn)用 pandas,但是也遇到人力成本問題。后來發(fā)現(xiàn)python中有一個(gè)庫xlwings ,可以實(shí)現(xiàn) vba與python之間的互相調(diào)用,并且直接支持pandas(你會發(fā)現(xiàn)當(dāng)前許多的庫,甚至一些很出名的BI工具,都能支持pandas)。
現(xiàn)在,該公司已經(jīng)使用pandas 替換了許多數(shù)據(jù)處理分析工作,而vba只是作為調(diào)整格式的工具。人力成本大大降下來,并且可以讓員工的能力有所提升。
最后提醒各位"數(shù)據(jù)人",不進(jìn)則退。如果你覺得你用Excel或vba就能應(yīng)付當(dāng)前工作需求,沒有必要學(xué)習(xí)更優(yōu)秀的工具,那么可能你的能力就永遠(yuǎn)止步于此。
歡迎關(guān)注我的頭條號,專注于使用Python帶你玩轉(zhuǎn)數(shù)據(jù)。
Excel起步較早,有很多資源。存在由全職團(tuán)隊(duì)制作的書籍,社區(qū)甚至專業(yè)文檔。Excel可視化做得好。Excel的性能確實(shí)不咋地,但能解決大多數(shù)問題,且易于使用。VBA具有宏錄制功能。
pandas的資源也很豐富,性能和功能遠(yuǎn)比Excel強(qiáng)大,但是易用性和可視化不如Excel。
建議:日常小數(shù)量的電子表格用Excel。如果大數(shù)據(jù)量或需要使用VBA,在掌握python的前提下,不如用pandas。
附錄參考資料:https://www.toutiao.com/i6632406205379674627/
Excel 1997 和 Excel 2003 中,工作表的大小僅為 256 列 × 65,536 行。Excel 2007 、 Excel 2010和Excel 2013等新版本中,工作表的大小為 16,384 列 × 1,048,576 行。超出此列和行限制的單元格中的數(shù)據(jù)將會丟失。大數(shù)據(jù)建議直接用csv文件和python的pandas結(jié)合處理。
完全不是一類東西,怎么取代?你是想讓辦公文員用pandas來算團(tuán)建費(fèi)用,還是想讓數(shù)據(jù)分析師用excel來做幾百只股票的選股?
可以使用snapde進(jìn)行數(shù)據(jù)處理,它能打開的數(shù)據(jù)比excel大多了,可以打開處理2000萬行以上數(shù)據(jù),它的數(shù)據(jù)顯示就跟excel一樣,并且它集合了python執(zhí)行器,可以直接用pandas進(jìn)行數(shù)據(jù)運(yùn)算,既友好又高效
用pandas代替Excel,不說其它的,光學(xué)習(xí)成本就不是高一點(diǎn)半點(diǎn)。
要學(xué)會使用pandas,首先起碼要做到Python入門。Python入門在編程語言入門里面算簡單的,但依然是有一定難度的,也不是人人都能做到的。就算Python入門了,不懂NumPy,也是無法學(xué)習(xí)pandas的,因?yàn)楹笳呤墙⒃谇罢呋A(chǔ)上的。
而要學(xué)習(xí)NumPy,又要先具備矩陣等線性代數(shù)的相關(guān)知識,不然很難理解一些軸、秩等基礎(chǔ)概念,以及諸如數(shù)組的乘法、轉(zhuǎn)置、換軸、求逆、點(diǎn)乘積等數(shù)據(jù)操作;沒有這些基礎(chǔ)知識,即使一開始能依葫蘆畫瓢學(xué)習(xí)操作,但終究很難理解和運(yùn)用。
所以,要用pandas大規(guī)模代替Excel,光是額外增加的學(xué)習(xí)成本這一塊,就很高了。
pandas沒能取代Excel和Linux沒能在桌面端戰(zhàn)勝Windows的原因是類似的:操作太復(fù)雜,不適合普通大眾。絕大多數(shù)人習(xí)慣圖形化、所見即所得的操作方式而不是寫代碼。再加上微軟的強(qiáng)力推廣,造成現(xiàn)在人人都知Excel,pandas更多在程序員中被人所知。
excel部署簡單,辦公電腦都有安裝,Python安裝要復(fù)雜一些,不能要求公司的財(cái)務(wù)、法務(wù)等支撐平臺都裝吧,Excel就不一樣了,輸出的分析結(jié)果可以無障礙共享
excel畢竟簡單易用,培訓(xùn)成本低,應(yīng)對普通點(diǎn)的數(shù)據(jù)量已經(jīng)綽綽有余了。
畢竟不是每個(gè)公司都有大量百萬級別的數(shù)據(jù)需要處理的。
0
回答0
回答0
回答0
回答0
回答0
回答1
回答0
回答0
回答0
回答