python 生成18年寫過的博客詞云

xi4oh4o 發(fā)布于2019-07-30 18:45 / 368人閱讀

摘要：處理文件最終得到的字符串得到所有的文本之后，使用結(jié)巴分詞，處理成單個的詞語。

文章鏈接：https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q

回看18年，最有成就的就是有了自己的博客網(wǎng)站，堅持記錄，寫文章，累計寫了36篇了，從一開始的難以下手，到現(xiàn)在成為一種習(xí)慣，雖然每次寫都會一字一句斟酌，但是每次看到產(chǎn)出，內(nèi)心還是開心的，享受這樣的過程。

這篇文章就是用python 生成自己寫的博客詞云，平常寫的博客都是markdown 格式的，直接把文件傳到后臺，前端用js去解析文件顯示的，所以我這里處理數(shù)據(jù)就不需要去爬蟲網(wǎng)站，直接讀文件處理的。

關(guān)于生成詞云圖的，在另外兩篇文章中也有介紹過：
[python itchat 爬取微信好友信息，生成詞云
](https://mp.weixin.qq.com/s/4E...
python爬蟲學(xué)習(xí)：爬蟲QQ說說并生成詞云圖

markdown文件處理，遍歷文件夾，匹配md 后綴的文件，讀文件，這里的root 是文件夾的絕對路徑。

import os
total = ""
file_list = os.listdir(root)
for file in file_list:
    //處理md文件
    if os.path.splitext(file)[1] == ".md":
        path = os.path.join(root,file)
        text = open(path, encoding="utf-8").read()
        //最終得到的字符串
        total = total + "
" + text

得到所有的文本之后，使用結(jié)巴分詞 pip3 install jieba，處理成單個的詞語。

import jieba
wordlist = jieba.cut(total, cut_all=True)
wl = " ".join(wordlist)

因為平常寫的文章里有很多的代碼，這里可以正則只留下中文，然后再處理中文字符。

import re
rec = re.compile("[^u4E00-u9FA5]")
total = rec.sub("", total)
wordlist = jieba.cut(total, cut_all=True)
wl = " ".join(wordlist)

最后就是生成詞云，采用WordCloud的庫

wc = WordCloud(
    # 設(shè)置背景顏色
    background_color="white",
    # 設(shè)置最大顯示的詞云數(shù)
    max_words=1000,
    # 這種字體都在電腦字體中，window在C:WindowsFonts下，mac下的是/System/Library/Fonts/PingFang.ttc 字體
    font_path="C:WindowsFontsSTFANGSO.ttf",
    height=2000,
    width=2000,
    # 設(shè)置字體最大值
    max_font_size=250,
    # 設(shè)置有多少種隨機(jī)生成狀態(tài)，即有多少種配色方案
    random_state=30,
)
myword = wc.generate(wl)  # 生成詞云
# 展示詞云圖
plt.imshow(myword)
plt.axis("off")
wc.to_file("blog.png")  # 保存圖片
plt.ion()
plt.pause(5)
plt.close()  # 圖片顯示5s，之后關(guān)閉

最終的結(jié)果顯示圖，除去代碼之后，看這些詞，不少還是跟android相關(guān)的，也是平常經(jīng)常會提到的詞匯。

歡迎關(guān)注我的個人博客：https://www.manjiexiang.cn/

更多精彩歡迎關(guān)注微信號：春風(fēng)十里不如認(rèn)識你
一起學(xué)習(xí)，一起進(jìn)步，歡迎上車，有問題隨時聯(lián)系，一起解決?。?！

云服務(wù)器 GPU云服務(wù)器 python 詞云 python詞云工具 python詞云十行 python詞云形狀

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/43010.html

發(fā)表評論

登陸后可評論

0條評論

xi4oh4o

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow學(xué)習(xí)

閱讀 564·2023-04-25 16:00
判斷鼠標(biāo)點擊的位置是否在某個div區(qū)域內(nèi)

閱讀 1598·2019-08-26 13:54
前端培訓(xùn)-初級階段-場景實戰(zhàn)（2019-05-23）-移動端適配bug

閱讀 2496·2019-08-26 13:47
nodejs request模塊用法

閱讀 3402·2019-08-26 13:39
小程序movable-area拖拽fixed點擊失效

閱讀 1037·2019-08-26 13:37
前端的一些坑，一些記錄，一些冷知識 2

閱讀 2734·2019-08-26 10:21
一個故事講懂vue父子組件傳值

閱讀 3534·2019-08-23 18:19
初步接觸echarts

閱讀 1601·2019-08-23 18:02

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python 生成18年寫過的博客詞云

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python生成歌詞詞云

python使用jieba進(jìn)行中文分詞wordcloud制作詞云

Python pyecharts如何繪制云圖呢？下面就給大家詳解解答

**用python玩微信（聊天機(jī)器人，好友信息統(tǒng)計）**

發(fā)表評論

0條評論

xi4oh4o

男|高級講師

TA的文章

tensorflow學(xué)習(xí)

判斷鼠標(biāo)點擊的位置是否在某個div區(qū)域內(nèi)

前端培訓(xùn)-初級階段-場景實戰(zhàn)（2019-05-23）-移動端適配bug

nodejs request模塊用法

小程序movable-area拖拽fixed點擊失效

前端的一些坑，一些記錄，一些冷知識 2

一個故事講懂vue父子組件傳值

初步接觸echarts

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python 生成18年寫過的博客詞云

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！