文本分析——分詞、統計詞頻、詞云

TNFE 發布于2019-07-30 15:34 / 1637人閱讀

摘要：導入包導入文件和數據數據預處理分詞并去除停用詞算法該類會將文本中的詞語轉換為詞頻矩陣，矩陣元素表示詞在類文本下的詞頻該類會統計每個詞語的權值第一個是計算，第二個是將文本轉為詞頻矩陣獲取詞袋模型中的所有詞語將矩陣抽取出來，元素表示

導入包

import os
import sys
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
from pandas import Series, DataFrame  

import string
import re
import jieba
import jieba.analyse
import datetime
from wordcloud import WordCloud, ImageColorGenerator
import codecs

導入文件和數據

gongdan = pd.read_excel("Gongdan.xlsx")

數據預處理

gongdan["content"] = [str(i) for i in gongdan["content"]]
gongdan["content"] = ["".join(re.findall(u"[u4e00-u9fff]+", i)) for i in gongdan["content"]]
indexs = list(gongdan["content"][pd.isnull(gongdan["content"])].index)
gongdan = gongdan.drop(indexs)
indexs = list(gongdan["content"][gongdan["content"]==""].index)
gongdan = gongdan.drop(indexs)

content = gongdan["content"]

cont = "".join(content)
cont = "".join(re.findall(u"[u4e00-u9fa5]+", cont))

分詞并去除停用詞

stopwords = set()
fr = codecs.open("stopwords.txt", "r", "utf-8")
for word in fr:
   stopwords.add(str(word).strip())
fr.close()

jieba.load_userdict("dict.txt")
text = list(jieba.cut(cont, cut_all=False, HMM=True))
text = list(filter(lambda x: x not in stopwords, text))
text = [str(i) for i in text if i != " "]

Tfidf 算法

from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

test = " ".join(text)
tlist = []
tlist.append(test)

vectorizer=CountVectorizer()#該類會將文本中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在i類文本下的詞頻
transformer = TfidfTransformer()#該類會統計每個詞語的tf-idf權值
tfidf = transformer.fit_transform(vectorizer.fit_transform(tlist))  #第一個fit_transform是計算tf-idf，第二個fit_transform是將文本轉為詞頻矩陣  

word=vectorizer.get_feature_names()#獲取詞袋模型中的所有詞語  
weight=tfidf.toarray()#將tf-idf矩陣抽取出來，元素a[i][j]表示j詞在i類文本中的tf-idf權重  
tfidf_list = {}
for i in range(len(weight)):#打印每類文本的tf-idf詞語權重，第一個for遍歷所有文本，第二個for便利某一類文本下的詞語權重  
    for j in range(len(word)):  
        tfidf_list[word[j]] = weight[i][j]

詞云

font_path = "yahei.ttf"

from PIL import Image
back_coloring = np.array(Image.open("circle.jpg"))

wc = WordCloud(font_path=font_path,  # 設置字體
               background_color="white",  # 背景顏色
               max_words=60,  # 詞云顯示的最大詞數
               mask=back_coloring,  # 設置背景圖片
               stopwords=stopwords,
               max_font_size=100,  # 字體最大值
               random_state=42,
               width=1000, height=860, margin=2,# 設置圖片默認的大小,但是如果使用背景圖片的話,那么保存的圖片大小將會按照其大小保存,margin為詞語邊緣距離
#               prefer_horizontal=1,
               )

wc.generate_from_frequencies(tfidf_list)

plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.figure()
wc.to_file("w.png")

# create coloring from image
image_colors = ImageColorGenerator(back_coloring)
# recolor wordcloud and show
# we could also give color_func=image_colors directly in the constructor
plt.imshow(wc.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.imshow(back_coloring, cmap=plt.cm.gray, interpolation="bilinear")
plt.axis("off")
plt.show()

云服務器 GPU云服務器文本分詞文本統計詞頻 php使用文本統計訪問量

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41336.html

Python生成歌詞詞云

摘要：上面是生成詞云的方法封裝，還有一些其他方法根據詞頻生成詞云根據文本生成詞云根據詞頻生成詞云根據文本生成詞云將長文本分詞并去除屏蔽詞此處指英語，中文分詞還是需要自己用別的庫先行實現，使用上面的對現有輸出重新著色。對于數據展示這一塊有時候會用到詞云，python中提供的wordcloud模塊可以很靈活的完成生成詞云除了使用python提供的wordcloud模塊以為還有在線的生成方式ht...

junbaor 2019-07-30 15:37 評論0 收藏0
python爬蟲實戰一：分析豆瓣中最新電影的影評

摘要：準備把豆瓣上對它的影評短評做一個分析。這樣就得到了最新電影的信息了。例如戰狼的短評網址為其中就是電影的，表示評論的第條評論。如下圖所示好的，至此我們已經爬取了豆瓣最近播放電影的評論數據，接下來就要對數據進行清洗和詞云顯示了。簡介剛接觸python不久，做一個小項目來練練手。前幾天看了《戰狼2》，發現它在最新上映的電影里面是排行第一的，如下圖所示。準備把豆瓣上對它的影評(短評)做...

BearyChat 2019-07-30 14:25 評論0 收藏0
從13萬貓眼評論看看《流浪地球》到底怎么樣

摘要：今年的流浪地球這么火，通過爬取貓眼電影上網友對該片的評價如何。也許很多人在這天通過看流浪地球過節吧。背景最近幾年貓眼電影越來越熱門了，都差不多和豆瓣并駕齊驅了。今年的《流浪地球》這么火，通過爬取貓眼電影上網友對該片的評價如何。爬取貓眼評論找到評論網頁地址先打開貓眼官網找到《流浪地球》的介紹頁面：https://maoyan.com/films/248906 showImg(h...

lemanli 2019-07-31 10:06 評論0 收藏0
復仇者聯盟誰才是絕對 C 位？Python分析9萬條數據告訴你答案

摘要：數據庫文件已經超過了了。復聯從開始便是漫威宇宙各路超級英雄的集結，到現在的第部，更是全英雄的匯聚。所以，滅霸出現的次數居然高于了鋼鐵俠。情感分析，又稱為意見挖掘傾向性分析等。 showImg(https://segmentfault.com/img/remote/1460000019095022); 作者 | 羅昭成責編 | 唐小引《復聯 4》國內上映第十天，程序員的江湖里開始流傳這...

shiweifu 2019-07-31 10:23 評論0 收藏0
Python pyecharts如何繪制云圖呢？下面就給大家詳解解答

　　Python pyecharts作為常用的數據可視化軟件，能夠清晰的將海量的數據，去做一個拆分，要是更直觀的去查看數據圖表的話，就需要去制作云圖了？那么，怎么制作云圖呢？下面就給大家詳細的做個解答。　　詞云圖　　什么是詞云圖，相信大家肯定不會感到陌生，一本書統計里面出現的詞頻，然后可視化展示，讓讀者快速的了解這個主題綱要，這就是詞云的直接效果。　　詞云圖系列模板　　固定模式詞云圖　　修改一些參...

89542767 2022-11-15 13:25 評論0 收藏0