python簡單的分析文本

_ipo 發布于2019-07-31 11:03 / 3336人閱讀

摘要：讀取文件內容，正則去除非中英文字符，正則去除非中英文字符篩選出所有英文單詞篩選出所有英文單詞篩選出所有的中文篩選出所有的中文如果參數為空，則按照從高頻到低頻依次全部打印打印頻率最高的五個字符反序輸出打印大于等于小于指定值的轉化成取得

import collections
import re


#讀取tips.txt文件內容，type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:
    
    mytips=tip.read().lower()

#正則去除非中英文字符，
strip_file=re.sub(r"W+","",mytips)
print("正則去除非中英文字符:
{}".format(strip_file))
print()

#篩選出所有英文單詞
only_enlish=re.findall(r"[a-z]+",mytips)
print("篩選出所有英文單詞:
{}".format(only_enlish))

#篩選出所有的中文
only_chinese=re.sub(r"[a-z1-9W]+","",mytips)
only_chinese_split=[c for c in only_chinese]
print("篩選出所有的中文
{}".format(only_chinese_split))

#如果most_common()參數為空，則按照從高頻到低頻依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印頻率最高的五個字符{}".format(most_comm_word))


#sorted（iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序輸出most_comm_word{}".format(low_comm_word))

#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4）指定值的most_comm_word{}".format(specified_most_comm_word))

#轉化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print("轉化成字典：{}".format(dict_most_comm_word))

#zip在python3中是惰性計算，需要轉化成list
word,count=list(zip(*most_comm_word))
print("多帶帶打印word：{}".format(word))
print("多帶帶打印count:{}".format(count))

#defaultdict簡單應用
#分析單詞出現的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):
    enlish_dict[v].append(k)
print("統計每個單詞出現的位置：{}".format(enlish_dict))


#orderdict簡單應用
#單詞從a-z進行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print("單詞從a-z進行排序:
{}".format(order_english_dict))

GPU云服務器云服務器簡單的數據分析簡單的數據分析系統如何進行簡單的數據分析簡單的python

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/44558.html

Python文本分析：2016年政府工作報告有哪些高頻詞？

摘要：據小編簡單了解，已知對工作報告高頻詞匯進行梳理的媒體包括法制日報和新華網。高頻詞詞頻年以來政府工作報告中的提及總數發展經濟改革建設社會推進創新政策企業加強下面是新華網數據新聞部統計的高頻詞匯。本文首發于微信公眾號號編程派。微信搜索編程派，獲取更多Python編程一手教程及優質資源吧。上周六，總理在大會堂作政府工作報告，全球媒體矚目。每年都會有媒體對報告中的高頻詞匯進行梳理，我們也可...

CntChen 2019-07-24 18:31 評論0 收藏0
【正經的AI on Python入門系列】1.2 斗圖工具的優化——文本寬度自適應（來做點小數據分析

摘要：在上一篇文章圖工具的優化實現文本居中中，我們已經實現了對插入字體的左中右對齊顯示，那因為上期文章混進去了不少語法講解，所以后面的內容就順延到這啦，哈哈哈。 showImg(https://segmentfault.com/img/bVbeIu4?w=250&h=250); 在上一篇文章【圖工具的優化——實現文本居中】中，我們已經實現了對插入字體的左中右對齊顯示，那因為上期文章混進去了不...

fireflow 2019-07-30 17:16 評論0 收藏0
用 Python 提取《釜山行》人物關系

摘要：項目代碼下載地址基于共現提取釜山行人物關系更多經典項目全部項目項目簡介：本項目將帶大家使用 Python 提取《釜山行》人物關系，對于給定的劇本文本，通過分析文本中人物的共現關系，提取整個文本表示的人物關系，并將人物關系可視化表示。本項目教程由Forec發布在實驗樓。一、項目介紹 1. 內容簡介《釜山行》是一部喪尸災難片，其人物少、關系簡單，非常適合我們學習文本處理。這個項目將介...

hoohack 2019-07-25 10:54 評論0 收藏0
Python——基本數據類型（模塊2: time庫的使用）（實例3:文本進度條）

摘要：前言本篇主要介紹基本數據類型，以文本進度條為例，介紹庫的使用。前言本篇主要介紹基本數據類型，以文本進度條為例，介紹time庫的使用。并在最后對蟒蛇繪制的代碼進...

Jenny_Tong 2021-09-10 10:51 評論0 收藏0