摘要:處理文件最終得到的字符串得到所有的文本之后,使用結(jié)巴分詞,處理成單個的詞語。
文章鏈接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q
回看18年,最有成就的就是有了自己的 博客網(wǎng)站,堅持記錄,寫文章,累計寫了36篇了,從一開始的難以下手,到現(xiàn)在成為一種習(xí)慣,雖然每次寫都會一字一句斟酌,但是每次看到產(chǎn)出,內(nèi)心還是開心的,享受這樣的過程。
這篇文章就是用python 生成自己寫的博客詞云,平常寫的博客都是markdown 格式的,直接把文件傳到后臺,前端用js去解析文件顯示的,所以我這里處理數(shù)據(jù)就不需要去爬蟲網(wǎng)站,直接讀文件處理的。
關(guān)于生成詞云圖的,在另外兩篇文章中也有介紹過:
[python itchat 爬取微信好友信息,生成詞云
](https://mp.weixin.qq.com/s/4E...
python爬蟲學(xué)習(xí):爬蟲QQ說說并生成詞云圖
markdown文件處理,遍歷文件夾,匹配md 后綴的文件,讀文件,這里的root 是文件夾的絕對路徑。
import os total = "" file_list = os.listdir(root) for file in file_list: //處理md文件 if os.path.splitext(file)[1] == ".md": path = os.path.join(root,file) text = open(path, encoding="utf-8").read() //最終得到的字符串 total = total + " " + text
得到所有的文本之后,使用結(jié)巴分詞 pip3 install jieba,處理成單個的詞語。
import jieba wordlist = jieba.cut(total, cut_all=True) wl = " ".join(wordlist)
因為平常寫的文章里有很多的代碼,這里可以正則只留下中文,然后再處理中文字符。
import re rec = re.compile("[^u4E00-u9FA5]") total = rec.sub("", total) wordlist = jieba.cut(total, cut_all=True) wl = " ".join(wordlist)
最后就是生成詞云,采用WordCloud的庫
wc = WordCloud( # 設(shè)置背景顏色 background_color="white", # 設(shè)置最大顯示的詞云數(shù) max_words=1000, # 這種字體都在電腦字體中,window在C:WindowsFonts下,mac下的是/System/Library/Fonts/PingFang.ttc 字體 font_path="C:WindowsFontsSTFANGSO.ttf", height=2000, width=2000, # 設(shè)置字體最大值 max_font_size=250, # 設(shè)置有多少種隨機(jī)生成狀態(tài),即有多少種配色方案 random_state=30, ) myword = wc.generate(wl) # 生成詞云 # 展示詞云圖 plt.imshow(myword) plt.axis("off") wc.to_file("blog.png") # 保存圖片 plt.ion() plt.pause(5) plt.close() # 圖片顯示5s,之后關(guān)閉
最終的結(jié)果顯示圖,除去代碼之后,看這些詞,不少還是跟android相關(guān)的,也是平常經(jīng)常會提到的詞匯。
歡迎關(guān)注我的個人博客:https://www.manjiexiang.cn/
更多精彩歡迎關(guān)注微信號:春風(fēng)十里不如認(rèn)識你
一起學(xué)習(xí),一起進(jìn)步,歡迎上車,有問題隨時聯(lián)系,一起解決?。?!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/43010.html
摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:上面是生成詞云的方法封裝,還有一些其他方法根據(jù)詞頻生成詞云根據(jù)文本生成詞云根據(jù)詞頻生成詞云根據(jù)文本生成詞云將長文本分詞并去除屏蔽詞此處指英語,中文分詞還是需要自己用別的庫先行實現(xiàn),使用上面的對現(xiàn)有輸出重新著色。 對于數(shù)據(jù)展示這一塊有時候會用到詞云,python中提供的wordcloud模塊可以很靈活的完成生成詞云除了使用python提供的wordcloud模塊以為還有在線的生成方式ht...
摘要:準(zhǔn)備工作抓取數(shù)據(jù)存到文檔中,了解問題分詞分的不太準(zhǔn)確,比如機(jī)器學(xué)習(xí)會被切成機(jī)器和學(xué)習(xí)兩個詞,使用自定義詞典,原本的想法是只切出自定義詞典里的詞,但實際上不行,所以首先根據(jù)分詞結(jié)果提取出高頻詞并自行添加部分詞作為詞典,切詞完畢只統(tǒng)計自定義詞典 準(zhǔn)備工作 抓取數(shù)據(jù)存到txt文檔中,了解jieba 問題 jieba分詞分的不太準(zhǔn)確,比如機(jī)器學(xué)習(xí)會被切成機(jī)器和學(xué)習(xí)兩個詞,使用自定義詞典,原本...
Python pyecharts作為常用的數(shù)據(jù)可視化軟件,能夠清晰的將海量的數(shù)據(jù),去做一個拆分,要是更直觀的去查看數(shù)據(jù)圖表的話,就需要去制作云圖了?那么,怎么制作云圖呢?下面就給大家詳細(xì)的做個解答?! ≡~云圖 什么是詞云圖,相信大家肯定不會感到陌生,一本書統(tǒng)計里面出現(xiàn)的詞頻,然后可視化展示,讓讀者快速的了解這個主題綱要,這就是詞云的直接效果?! ≡~云圖系列模板 固定模式詞云圖 修改一些參...
摘要:用實現(xiàn)微信好友性別及位置信息統(tǒng)計這里使用的庫開發(fā)。使用圖靈機(jī)器人自動與指定好友聊天讓室友幫忙測試發(fā)現(xiàn)發(fā)送表情發(fā)送文字還能回應(yīng),但是發(fā)送圖片可能不會回復(fù),猜應(yīng)該是我們申請的圖靈機(jī)器人是最初級的沒有加圖片識別功能。 1.用 Python 實現(xiàn)微信好友性別及位置信息統(tǒng)計 這里使用的python3+wxpy庫+Anaconda(Spyder)開發(fā)。如果你想對wxpy有更深的了解請查看:wxpy...
閱讀 564·2023-04-25 16:00
閱讀 1598·2019-08-26 13:54
閱讀 2496·2019-08-26 13:47
閱讀 3402·2019-08-26 13:39
閱讀 1037·2019-08-26 13:37
閱讀 2734·2019-08-26 10:21
閱讀 3534·2019-08-23 18:19
閱讀 1601·2019-08-23 18:02