摘要:據(jù)小編簡單了解,已知對工作報告高頻詞匯進(jìn)行梳理的媒體包括法制日報和新華網(wǎng)。高頻詞詞頻年以來政府工作報告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計的高頻詞匯。
本文首發(fā)于微信公眾號號“編程派”。微信搜索“編程派”,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。
上周六,總理在大會堂作政府工作報告,全球媒體矚目。每年都會有媒體對報告中的高頻詞匯進(jìn)行梳理,我們也可以嘗試?yán)肞ython和分詞jieba來自己分析一下。
我們首先來看國內(nèi)部分媒體的梳理結(jié)果。據(jù)小編簡單了解,已知對工作報告高頻詞匯進(jìn)行梳理的媒體包括法制日報和新華網(wǎng)。
國內(nèi)媒體梳理的高頻詞下面是法制日報公布的十大高頻詞。
高頻詞 | 詞頻 | 1978年以來政府工作報告中的提及總數(shù) |
---|---|---|
發(fā)展 | 151 | 4828 |
經(jīng)濟(jì) | 90 | 4449 |
改革 | 74 | 2758 |
建設(shè) | 71 | 3274 |
社會 | 66 | 3402 |
推進(jìn) | 61 | 1096 |
創(chuàng)新 | 61 | 414 |
政策 | 52 | 1231 |
企業(yè) | 48 | 2304 |
加強(qiáng) | 41 | 2238 |
下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計的高頻詞匯。
新華網(wǎng)的信息圖其實有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關(guān)注的重點。
另外,新華網(wǎng)和法制日報得出的數(shù)據(jù)似乎有些出入,雖然并不大。那么,到底那家的數(shù)據(jù)是準(zhǔn)確的呢?
接下來,我們就自己來計算一下報告中的高頻詞匯吧。
準(zhǔn)備工作我們需要從網(wǎng)上爬取政府報告的全文,這里小編選擇中國政府網(wǎng)發(fā)布的報告頁面。為此,我們需要安裝requests和BeautifulSoup4這兩個常用第三方庫。
pip requests beautifulsoup
獲取了報告文本之后,接下來需要對文本進(jìn)行分詞。我們選擇號稱“做最好的中文分詞組件”的jieba中文分詞庫。
pip install jieba
這里提示一下,這三個庫都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問題,最后打印出的中文無法正常顯示。因此,建議使用Python 3執(zhí)行該腳本。
安裝好依賴包之后,我們在腳本analyze_report.py的頂部導(dǎo)入它們。
import jieba import requests from bs4 import BeautifulSoup文本提取
首先,我們從網(wǎng)上抓取政府工作報告的全文。我將這個步驟封裝在一個名叫extract_text的簡單函數(shù)中,接受url作為參數(shù)。因為目標(biāo)頁面中報告的文本在所有的p元素中,所以我們只需要通過BeautifulSoup選中全部的p元素即可,最后返回一個包含了報告正文的字符串,簡單粗暴!
def extract_text(url): """Extract html content.""" page_source = requests.get(url).content bs_source = BeautifulSoup(page_source) report_text = bs_source.find_all("p") text = "" for p in report_text: text += p.get_text() text += " " return text利用jieba分詞,并計算詞頻
然后,我們就可以利用jieba進(jìn)行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義。之所以這么做,是因為默認(rèn)的精確模式下,返回的詞頻數(shù)據(jù)不準(zhǔn)確。
分詞時,還要注意去除標(biāo)點符號,由于標(biāo)點符號的長度都是1,所以我們添加一個len(word) >= 2的條件即可。
最后,我們就可以利用Counter類,將分詞后的列表快速地轉(zhuǎn)化為字典,其中的鍵值就是鍵的出現(xiàn)次數(shù),也就是這個詞在全文中出現(xiàn)的次數(shù)啦。
def word_frequency(text): from collections import Counter words = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2] c = Counter(words) for word_freq in c.most_common(10): word, freq = word_freq print(word, freq)執(zhí)行腳本
兩個函數(shù)都寫好之后,我們就可以愉快地執(zhí)行啦。
url_2016 = "http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm" text_2016 = extract_text(url_2016) word_frequency(text_2016)
最后的結(jié)果如下:
高頻詞 | 次數(shù) |
---|---|
發(fā)展 | 152 |
經(jīng)濟(jì) | 90 |
改革 | 76 |
建設(shè) | 71 |
社會 | 67 |
推進(jìn) | 62 |
創(chuàng)新 | 61 |
政策 | 54 |
企業(yè) | 48 |
服務(wù) | 44 |
## 小結(jié)
從上面的結(jié)果可以看出,新華網(wǎng)發(fā)布的高頻詞統(tǒng)計數(shù)據(jù)與我們自己的分析最為接近。當(dāng)然,新華網(wǎng)的里面少了一個高頻詞:推進(jìn)。
如果有朋友想要驗證結(jié)果的話,可以自己把報告全文復(fù)制到word里,然后查詢下相關(guān)的高頻詞即可,比如下面這樣:
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37801.html
摘要:而自然語言處理被視為深度學(xué)習(xí)即將攻陷的下一個技術(shù)領(lǐng)域,在今年全球較高級的學(xué)術(shù)會議上,我們也看到大量的在深度學(xué)習(xí)引入方面的探索研究。和也是近幾年暫露頭角的青年學(xué)者,尤其是在將深度學(xué)習(xí)應(yīng)用于領(lǐng)域做了不少創(chuàng)新的研究。 深度學(xué)習(xí)的出現(xiàn)讓很多人工智能相關(guān)技術(shù)取得了大幅度的進(jìn)展,比如語音識別已經(jīng)逼近臨界點,即將達(dá)到Game Changer水平;機(jī)器視覺也已經(jīng)在安防、機(jī)器人、自動駕駛等多個領(lǐng)域得到應(yīng)用。 ...
摘要:中試牛刀我們這里有一張祖國地圖,是否可以定制生成一個祖國版圖樣式的詞云圖呢答案是肯定的,只因為太強(qiáng)大,實現(xiàn)思路直接看代碼。 showImg(https://segmentfault.com/img/remote/1460000018757943?w=1280&h=640);Overview:0 引言1 環(huán)境2 模塊準(zhǔn)備3 實現(xiàn)思路4 小試牛刀5 中試牛刀6 總結(jié) 0 引言 詞云圖,也叫...
摘要:本文轉(zhuǎn)載自微信公眾號賬號,作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號Docker(賬號:dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...
摘要:表示學(xué)習(xí)和深度學(xué)習(xí)的興起是密切相關(guān)。自然語言處理中的深度學(xué)習(xí)在自然語言的表示學(xué)習(xí)中提及深度學(xué)習(xí)這是因為深度學(xué)習(xí)首要的用處就是進(jìn)行自然語言的表示。圖是深度學(xué)習(xí)在自然語言理解中應(yīng)用描述。 本文根據(jù)達(dá)觀數(shù)據(jù)特聘專家復(fù)旦大學(xué)黃萱菁教授在達(dá)觀數(shù)據(jù)舉辦的長三角人工智能應(yīng)用創(chuàng)新張江峰會上的演講整理而成,達(dá)觀數(shù)據(jù)副總裁魏芳博士統(tǒng)稿 一、概念 1 什么是自然語言和自然語言理解? 自然語言是指漢語、英語、...
閱讀 853·2021-11-24 09:38
閱讀 1085·2021-10-08 10:05
閱讀 2577·2021-09-10 11:21
閱讀 2800·2019-08-30 15:53
閱讀 1827·2019-08-30 15:52
閱讀 1964·2019-08-29 12:17
閱讀 3418·2019-08-29 11:21
閱讀 1609·2019-08-26 12:17