收藏一個python通過uft8 編碼來提取中文的例子

baiy 發布于2019-07-24 17:53 / 2736人閱讀

摘要：提取文件中所有中文小程序問題描述從一個文件中提取所有中文思路打開文件讀取文件中的文本用正則匹配獲取中文將其內容寫入到另一個文本中實現設置默認編碼只能是下面要求的判斷是否為中文的正則表達式打開要提取的文件打開要寫入的文件循環讀取要讀

Python-提取文件中所有中文小程序
問題描述：

　　　從一個txt文件中提取所有中文

思路：

打開txt文件
讀取txt文件中的文本
用正則匹配獲取中文
將其內容寫入到另一個文本中
python實現：
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding("utf-8") #設置默認編碼,只能是utf-8,下面u4e00-u9fa5要求的
import re
pchinese=re.compile("([u4e00-u9fa5]+)+?") #判斷是否為中文的正則表達式
f=open("data.txt") #打開要提取的文件
fw=open("getdata.txt","w")#打開要寫入的文件
for line in f.readlines(): #循環讀取要讀取文件的每一行
m=pchinese.findall(str(line)) #使用正則表達獲取中文
if m:
str1="|".join(m)#同行的中文用豎杠區分
str2=str(str1)
fw.write(str2)#寫入文件
fw.write(" ")#不同行的要換行
f.close()
fw.close()#打開的文件記得關閉哦!

未驗證

GPU云服務器云服務器收藏一個代碼簡單的python例子 asp 編碼中文一個完整的python程序

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37489.html

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
unicode和utf8 —— 從一個遍歷文件名的腳本，談談對Python2和Python3中字符編

摘要：如果傳一個中文，下和下編碼分別是和，可以自己用打印看看文件中寫死，本來理解是跟這個文件本身編碼有關，但文件編碼同樣是的情況下，下打印了的超集，下仍然是。對編碼問題一直一知半解，之前也是得過且過，正好有個同事要我幫忙寫個腳本，涉及這方面的問題，借這個契機研究了一下. 先貼幾篇比較好的： 1.阮老師的上古文章（07年…），雖然古老但對理解幫助很大，從最基礎講起，邏輯清晰易理解. (ps:...

寵來也 2019-07-30 15:39 評論0 收藏0
BeautifulSoup：網頁解析利器上手簡介

摘要：文檔寫得很清楚，也有中文版，你只要看了最初的一小部分，就可以在代碼中派上用場了。關于爬蟲的案例和方法，我們已講過許多。不過在以往的文章中，大多是關注在如何把網頁上的內容抓取下來。今天我們來分享下，當你已經把內容爬下來之后，如何提取出其中你需要的具體信息。網頁被抓取下來，通常就是 str 字符串類型的對象，要從里面尋找信息，最直接的想法就是直接通過字符串的 find 方法 ...

Carl 2019-07-31 10:09 評論0 收藏0