国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python文本分析:2016年政府工作報告有哪些高頻詞?

CntChen / 2703人閱讀

摘要:據(jù)小編簡單了解,已知對工作報告高頻詞匯進(jìn)行梳理的媒體包括法制日報和新華網(wǎng)。高頻詞詞頻年以來政府工作報告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計的高頻詞匯。

本文首發(fā)于微信公眾號號“編程派”。微信搜索“編程派”,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。

上周六,總理在大會堂作政府工作報告,全球媒體矚目。每年都會有媒體對報告中的高頻詞匯進(jìn)行梳理,我們也可以嘗試?yán)肞ython和分詞jieba來自己分析一下。


我們首先來看國內(nèi)部分媒體的梳理結(jié)果。據(jù)小編簡單了解,已知對工作報告高頻詞匯進(jìn)行梳理的媒體包括法制日報和新華網(wǎng)。

國內(nèi)媒體梳理的高頻詞

下面是法制日報公布的十大高頻詞。

高頻詞 詞頻 1978年以來政府工作報告中的提及總數(shù)
發(fā)展 151 4828
經(jīng)濟(jì) 90 4449
改革 74 2758
建設(shè) 71 3274
社會 66 3402
推進(jìn) 61 1096
創(chuàng)新 61 414
政策 52 1231
企業(yè) 48 2304
加強(qiáng) 41 2238

下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計的高頻詞匯。

新華網(wǎng)的信息圖其實有些含糊不清,有些詞頻不知道到底是2016年還是2015年的,但這里并不是我們關(guān)注的重點。

另外,新華網(wǎng)和法制日報得出的數(shù)據(jù)似乎有些出入,雖然并不大。那么,到底那家的數(shù)據(jù)是準(zhǔn)確的呢?


接下來,我們就自己來計算一下報告中的高頻詞匯吧。

準(zhǔn)備工作

我們需要從網(wǎng)上爬取政府報告的全文,這里小編選擇中國政府網(wǎng)發(fā)布的報告頁面。為此,我們需要安裝requests和BeautifulSoup4這兩個常用第三方庫。

pip requests beautifulsoup

獲取了報告文本之后,接下來需要對文本進(jìn)行分詞。我們選擇號稱“做最好的中文分詞組件”的jieba中文分詞庫。

pip install jieba

這里提示一下,這三個庫都支持Python 2和Python 3。但是在Python 2下,很容易就碰到編碼問題,最后打印出的中文無法正常顯示。因此,建議使用Python 3執(zhí)行該腳本。

安裝好依賴包之后,我們在腳本analyze_report.py的頂部導(dǎo)入它們。

import jieba
import requests
from bs4 import BeautifulSoup
文本提取

首先,我們從網(wǎng)上抓取政府工作報告的全文。我將這個步驟封裝在一個名叫extract_text的簡單函數(shù)中,接受url作為參數(shù)。因為目標(biāo)頁面中報告的文本在所有的p元素中,所以我們只需要通過BeautifulSoup選中全部的p元素即可,最后返回一個包含了報告正文的字符串,簡單粗暴!

def extract_text(url):
    """Extract html content."""
    page_source = requests.get(url).content
    bs_source = BeautifulSoup(page_source)
    report_text = bs_source.find_all("p")

    text = ""

    for p in report_text:
        text += p.get_text()
        text += "
"

    return text
利用jieba分詞,并計算詞頻

然后,我們就可以利用jieba進(jìn)行分詞了。這里,我們要選擇全模式分詞。jieba的全模式分詞,即把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義。之所以這么做,是因為默認(rèn)的精確模式下,返回的詞頻數(shù)據(jù)不準(zhǔn)確。

分詞時,還要注意去除標(biāo)點符號,由于標(biāo)點符號的長度都是1,所以我們添加一個len(word) >= 2的條件即可。

最后,我們就可以利用Counter類,將分詞后的列表快速地轉(zhuǎn)化為字典,其中的鍵值就是鍵的出現(xiàn)次數(shù),也就是這個詞在全文中出現(xiàn)的次數(shù)啦。

def word_frequency(text):
    from collections import Counter

    words = [word for word in jieba.cut(text, cut_all=True) if len(word) >= 2]
    c = Counter(words)

    for word_freq in c.most_common(10):
        word, freq = word_freq
        print(word, freq)
執(zhí)行腳本

兩個函數(shù)都寫好之后,我們就可以愉快地執(zhí)行啦。

url_2016 = "http://www.gov.cn/guowuyuan/2016-03/05/content_5049372.htm"
text_2016 = extract_text(url_2016)
word_frequency(text_2016)

最后的結(jié)果如下:

高頻詞 次數(shù)
發(fā)展 152
經(jīng)濟(jì) 90
改革 76
建設(shè) 71
社會 67
推進(jìn) 62
創(chuàng)新 61
政策 54
企業(yè) 48
服務(wù) 44

## 小結(jié)

從上面的結(jié)果可以看出,新華網(wǎng)發(fā)布的高頻詞統(tǒng)計數(shù)據(jù)與我們自己的分析最為接近。當(dāng)然,新華網(wǎng)的里面少了一個高頻詞:推進(jìn)。

如果有朋友想要驗證結(jié)果的話,可以自己把報告全文復(fù)制到word里,然后查詢下相關(guān)的高頻詞即可,比如下面這樣:

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37801.html

相關(guān)文章

  • 深度學(xué)習(xí)即將攻陷的下一領(lǐng)域:NLP—ACL2016優(yōu)秀論文解讀上

    摘要:而自然語言處理被視為深度學(xué)習(xí)即將攻陷的下一個技術(shù)領(lǐng)域,在今年全球較高級的學(xué)術(shù)會議上,我們也看到大量的在深度學(xué)習(xí)引入方面的探索研究。和也是近幾年暫露頭角的青年學(xué)者,尤其是在將深度學(xué)習(xí)應(yīng)用于領(lǐng)域做了不少創(chuàng)新的研究。 深度學(xué)習(xí)的出現(xiàn)讓很多人工智能相關(guān)技術(shù)取得了大幅度的進(jìn)展,比如語音識別已經(jīng)逼近臨界點,即將達(dá)到Game Changer水平;機(jī)器視覺也已經(jīng)在安防、機(jī)器人、自動駕駛等多個領(lǐng)域得到應(yīng)用。 ...

    mengera88 評論0 收藏0
  • 做大數(shù)據(jù)分析的怎么可以不會這個?

    摘要:中試牛刀我們這里有一張祖國地圖,是否可以定制生成一個祖國版圖樣式的詞云圖呢答案是肯定的,只因為太強(qiáng)大,實現(xiàn)思路直接看代碼。 showImg(https://segmentfault.com/img/remote/1460000018757943?w=1280&h=640);Overview:0 引言1 環(huán)境2 模塊準(zhǔn)備3 實現(xiàn)思路4 小試牛刀5 中試牛刀6 總結(jié) 0 引言 詞云圖,也叫...

    aristark 評論0 收藏0
  • 海航生態(tài)科技輿情大數(shù)據(jù)平臺容器化改造

    摘要:本文轉(zhuǎn)載自微信公眾號賬號,作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號Docker(賬號:dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...

    idealcn 評論0 收藏0
  • 達(dá)觀數(shù)據(jù)特聘專家復(fù)旦大學(xué)黃萱菁教授帶你了解自然語言理解中的表示學(xué)習(xí)

    摘要:表示學(xué)習(xí)和深度學(xué)習(xí)的興起是密切相關(guān)。自然語言處理中的深度學(xué)習(xí)在自然語言的表示學(xué)習(xí)中提及深度學(xué)習(xí)這是因為深度學(xué)習(xí)首要的用處就是進(jìn)行自然語言的表示。圖是深度學(xué)習(xí)在自然語言理解中應(yīng)用描述。 本文根據(jù)達(dá)觀數(shù)據(jù)特聘專家復(fù)旦大學(xué)黃萱菁教授在達(dá)觀數(shù)據(jù)舉辦的長三角人工智能應(yīng)用創(chuàng)新張江峰會上的演講整理而成,達(dá)觀數(shù)據(jù)副總裁魏芳博士統(tǒng)稿 一、概念 1 什么是自然語言和自然語言理解? 自然語言是指漢語、英語、...

    Rocture 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<