摘要:自帶的只能用單個(gè)符號(hào)給文本分段,如果想用多個(gè)符號(hào)分段呢比如想用句號(hào),逗號(hào),分號(hào),感嘆號(hào)問(wèn)好等等標(biāo)點(diǎn),怎么辦這時(shí)候用解釋代表是,由于這些符號(hào)本身在中有特殊意味,所以要在前面加個(gè),用來(lái)代表逗號(hào),問(wèn)號(hào),感嘆號(hào)。的效果是后仍然包括這些標(biāo)點(diǎn)本身。
python自帶的 i.e. text.split(".") 只能用單個(gè)符號(hào)給文本分段,如果想用多個(gè)符號(hào)分段呢? 比如想用句號(hào),逗號(hào),分號(hào),感嘆號(hào)問(wèn)好等等標(biāo)點(diǎn),怎么辦?
這時(shí)候用 re.split()
import re a="Beautiful uef filenrfwe, is not really right; better*than ugly" print(re.split("(; |, |*| )",a)) text = "If you have a; suspicion about, an activity. but are !unsure if it ?warrants, escalation" pattern = "(;|.|,|?|!)" new = re.split(pattern, text)
解釋:
pattern = "(;|.|,|?|!)"
| 代表 or
是escape character, 由于 , ? ! 這些符號(hào)本身在regex中有特殊意味,所以要在前面加個(gè)escape,用,, ?, !來(lái)代表 逗號(hào),問(wèn)號(hào),感嘆號(hào)。
() 的效果是 split后仍然包括這些標(biāo)點(diǎn)本身。 比較:
new = re.split("(;|.|,|?|!)", text)
輸出是:
["If you have a", ";", " suspicion about", ",", " an activity", ".", " but are ", "!", "unsure if it ", "?", "warrants", ",", " escalation"]
然而:
new = re.split(";|.|,|?|!", text)
輸出是:
["If you have a", " suspicion about", " an activity", " but are ", "unsure if it ", "warrants", " escalation"]
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/43941.html
摘要:讀到一個(gè)非數(shù)字非英文字母非下劃線字符。此時(shí)立即跳轉(zhuǎn)回狀態(tài)。以一個(gè)雙引號(hào)開始,并以一個(gè)雙引號(hào)結(jié)束。另外,在讀和時(shí)源代碼不許結(jié)束,即讀到符號(hào),若結(jié)束,則判定為詞法錯(cuò)誤。對(duì)于而言,也有一些其他的詞法錯(cuò)誤判定,如,不能換行。 對(duì)于非 Normal 狀態(tài),我只需要關(guān)心兩個(gè)過(guò)程: 何時(shí)從 Normal 跳轉(zhuǎn)到該狀態(tài); 何時(shí)從該狀態(tài)跳回 Normal 狀態(tài)。 在上一章中,我已經(jīng)寫好了從 Nor...
摘要:比如正則表示匹配這樣一個(gè)字符串第一個(gè)字符是,接下來(lái)是到個(gè)字符,最后是字符。其實(shí)現(xiàn)的方式是使用字符組。具體形式如下,其中和是子模式,用管道符分隔,表示其中任何之一。 貪婪模式: 在使用修飾匹配次數(shù)的特殊符號(hào)時(shí),有幾種表示方法可以使同一個(gè)表達(dá)式能夠匹配不同的次數(shù),比如:{m,n}, {m,}, ?, *, +,具體匹配的次數(shù)隨被匹配的字符串而定。這種重復(fù)匹配不定次數(shù)的表達(dá)式在匹配過(guò)程中,總...
摘要:能匹配中的,但不能匹配中的數(shù)量界定符符號(hào)定義是一個(gè)非負(fù)整數(shù)。則等價(jià)于和均為非負(fù)整數(shù),其中。該方法接受一個(gè)正則表達(dá)式作為它的第一個(gè)參數(shù)。是一個(gè)非強(qiáng)制異常類,它表示一個(gè)正則表達(dá)式模式中的語(yǔ)法錯(cuò)誤。 正則表達(dá)式及多語(yǔ)言操作指南 1. 正則表達(dá)式 正則表達(dá)式是對(duì)字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個(gè)規(guī)則字符串,這個(gè)規(guī)則字符串用來(lái)表達(dá)對(duì)字符串的一...
摘要:能匹配中的,但不能匹配中的數(shù)量界定符符號(hào)定義是一個(gè)非負(fù)整數(shù)。則等價(jià)于和均為非負(fù)整數(shù),其中。該方法接受一個(gè)正則表達(dá)式作為它的第一個(gè)參數(shù)。是一個(gè)非強(qiáng)制異常類,它表示一個(gè)正則表達(dá)式模式中的語(yǔ)法錯(cuò)誤。 正則表達(dá)式及多語(yǔ)言操作指南 1. 正則表達(dá)式 正則表達(dá)式是對(duì)字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個(gè)規(guī)則字符串,這個(gè)規(guī)則字符串用來(lái)表達(dá)對(duì)字符串的一...
閱讀 2858·2021-09-22 15:43
閱讀 4717·2021-09-06 15:02
閱讀 852·2019-08-29 13:55
閱讀 1684·2019-08-29 12:58
閱讀 3068·2019-08-29 12:38
閱讀 1213·2019-08-26 12:20
閱讀 2270·2019-08-26 12:12
閱讀 3318·2019-08-23 18:35