怎么用python正則表達(dá)式提取/匹配中文漢字

89542767 發(fā)布于2022-11-11 14:38 / 1105人閱讀

　　小編寫這篇文章的一個(gè)主要目的，主要是給大家去做一個(gè)解答，解答的內(nèi)容主要還是python相關(guān)事宜，比如，可以用python正則表達(dá)式去匹配和提取中文漢字，那么，具體的內(nèi)容做法是什么呢？下面就給大家詳細(xì)解答下。

　　python用正則表達(dá)式提取中文

　　Python re正則匹配中文，其實(shí)非常簡(jiǎn)單，把中文的unicode字符串轉(zhuǎn)換成utf-8格式就可以了，然后可以在re中隨意調(diào)用

　　unicode中中文的編碼為/u4e00-/u9fa5，因此正則表達(dá)式u”[u4e00-u9fa5]+”可以表示一個(gè)或者多個(gè)中文字符

　　&gt;&gt;&gt;import re
　　&gt;&gt;&gt;s='中文：123456aa哈哈哈bbcc'.decode('utf8')
　　&gt;&gt;&gt;s
　　u'u4e2du6587uff1a123456aau54c8u54c8u54c8bbcc'
　　&gt;&gt;&gt;print s
　　中文：123456aa哈哈哈bbcc
　　&gt;&gt;&gt;re.match(u"[u4e00-u9fa5]+",s)
　　&lt;_sre.SRE_Match object at 0xb77742c0&gt;
　　&gt;&gt;&gt;pat='中文'.decode("utf8")
　　&gt;&gt;&gt;re.search(pat,s)
　　&lt;_sre.SRE_Match object at 0x16a16df0&gt;
　　&gt;&gt;&gt;newpat='這里是中文內(nèi)容'.decode("utf8")
　　&gt;&gt;&gt;news=re.sub(pat,newpat,s)
　　&gt;&gt;&gt;print news

　　這里是中文內(nèi)容：123456aa哈哈哈bbcc

　　python正則如何匹配中文漢字

　　正則表達(dá)式匹配中文漢字，在實(shí)際應(yīng)用中十分常見。

　　比如：爬蟲網(wǎng)頁(yè)文本提取、驗(yàn)證用戶輸入標(biāo)準(zhǔn)等。

　　以下面文本字符串為例，匹配出astr這個(gè)字符串中的所有漢字。

　　import re
　　astr='''aaaaa何時(shí)when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''

　　下面介紹兩種方法（本文環(huán)境為python3）

　　一、使用Unicode編碼來匹配中文

　　常見的中文Unicode編碼范圍：u4e00-u9fa5

　　實(shí)現(xiàn)匹配代碼：re.findall(’[u4e00-u9fa5]’,astr)

　　import re
　　astr='''aaaaa何時(shí)when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
　　res=re.findall('[u4e00-u9fa5]',astr)

　　print(res)

　　匹配結(jié)果：

　　二、直接使用中文漢字實(shí)現(xiàn)中文匹配

　　沒使用過可能還真不知道，中文匹配還可以這樣

　　實(shí)現(xiàn)匹配代碼：re.findall(’[一-龥]’,astr)

　　import re
　　astr='''aaaaa何時(shí)when杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
　　res=re.findall('[一-龥]',astr)
　　print(res)

　　匹配結(jié)果：

　　注：其實(shí)這里“一”對(duì)應(yīng)的Unicode編碼就是“u4e00”,“龥”（yù）對(duì)應(yīng)的Unicode編碼就是“u9fa5”。

　　常見非英文字符Unicode編碼范圍：

　　u4e00-u9fa5(中文)

　　u0800-u4e00(日文)

　　uac00-ud7ff（韓文）

　　綜上所述，這篇文章就給大家介紹到這里了，希望可以給大家?guī)硪欢◣椭?/p>

GPU云服務(wù)器云服務(wù)器正則匹配漢字正則匹配正則表達(dá)式正則表達(dá)式匹配匹配中文漢字

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/128316.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說明

閱讀 911·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 878·2023-01-14 11:04
python中的特性管理模式詳細(xì)說明

閱讀 740·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 1983·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 942·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 819·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 499·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 572·2023-01-14 10:02

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

怎么用python正則表達(dá)式提取/匹配中文漢字

相關(guān)文章

**經(jīng)驗(yàn)拾憶（純手工）=> Python正則全解詳解**

**PHP正則表達(dá)式規(guī)則及常用方法整理**

使用PHP輔助快速制作一套自己的手寫字體實(shí)踐

**正則表達(dá)式及多語言操作指南**

**正則表達(dá)式及多語言操作指南**

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細(xì)說明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)