python-文本處理和正則表達式

dailybird 發布于2019-07-25 10:21 / 1215人閱讀

摘要：標記一個子表達式的開始和結束位置。用和進行搜索和替換二者幾乎是一樣的，都是將某字符串中所有匹配正則表達式模式的部分進行替換。

【未完成初稿】
這周在工作中遇到很多需要從一段字符中增刪查改的工作，第一遍用自己寫的腳本去做，結果是可重用性不高，而且效率也不太好。其中也用到了python中的正則表達式部分re,后來就想能不能將我遇到的這類問題全部用正則去解決，具體就是python的re模塊。答案目前還不知道，在還沒遇到更多的問題之前，還是不要輕易下結論。這篇文章就當作一個備忘錄，用來記錄遇到的文本處理問題，其解決的辦法，重點是正則表達式能做到的，因為它總比我們自己寫的快嘛。

這篇文章分為幾個部分：
1，遇到的文本處理的問題
2，正則能夠解決的和不能解決的
3，正則的基本知識
4，python中re正則模塊的學習
5，結合一些實例，用正則完整分析一個問題
6，有哪些不用正則也可以很好解決的
7，回顧和思考
8，資源
其中第1,2,5,6,7可能要不斷更新的。

1，遇到的文本處理的問題

1.1 將一個字符串中的所有中文標點符號替換為英文的。
1.2 將字符串中某些詞替換為另外一個詞
1.3 刪除字符串中的某些詞

2，正則能夠解決的和不能解決的 3，正則的基本知識

[注]這部分引用了
正則表達式 - 語法
正則表達式30分鐘入門教程
3.1 正則是什么

正則表達式(regular expression)描述了一種字符串匹配的模式，可以用來檢查一個串是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。

3.2 一個簡單的例子

從一段英語文字中找到單詞hi,咋一看很簡單，如果是在python中你可能只需要用str.find("hi")就可以找到它的第一個位置了，但除非你的句子中沒有hight,shift...
包含hi的詞，除非你不把Hi、HI也當成hi,除非...

使用正則表達式只要用hi就可以表達這個意思。首先，正則表達式會自動幫我們忽略大小寫，然后，是正則表達式規定的一個特殊代碼，代表著單詞的開頭或結尾，也就是單詞的分界處，代表著hi這個詞前后都被空格、逗號等等分割。

也就是說當我們要處理一段文本得到我們想要的東西的時候，要求太多，我們以為理所當然的事情計算機不會，我們需要用一套機制告訴它我們認為理所應當的規則，這就是正則表達式，它高度抽象、非常不好寫。所以我們需要一個工具下載Regex Tester幫助我們，大概是這樣的：

3.3 怎樣寫正則表達式

正則表達式是由普通字符（例如字符 a 到 z）以及特殊字符（稱為"元字符"）組成的文字模式。

正常的英語都是以a-z 26個字母組成的，而正則語句是由普通字符和元字符組成的，其中：

普通字符：所有大寫和小寫字母、所有數字、所有標點符號和一些其他符號。
元字符：按功能分類，它包括非打印字符、特殊字符、限定符、定位符、

非打印字符

字符	描述
cx	匹配由x指明的控制字符。例如， cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 "c" 字符。
f	匹配一個換頁符。等價于 x0c 和 cL。
n	匹配一個換行符。等價于 x0a 和 cJ。
r	匹配一個回車符。等價于 x0d 和 cM。
s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價于 [ fnrtv]。
S	匹配任何非空白字符。等價于 ¹。
t	匹配一個制表符。等價于 x09 和 cI。
v	匹配一個垂直制表符。等價于 x0b 和 cK。

特殊字符

特別字符	描述
$	匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性，則 $ 也匹配 "n" 或 "r"。要匹配 $ 字符本身，請使用 $。
( )	標記一個子表達式的開始和結束位置。子表達式可以獲取供以后使用。要匹配這些字符，請使用 ( 和 )。
*	匹配前面的子表達式零次或多次。要匹配 * 字符，請使用 *。
+	匹配前面的子表達式一次或多次。要匹配 + 字符，請使用 +。
.
[	標記一個中括號表達式的開始。要匹配 [，請使用 [。
?	匹配前面的子表達式零次或一次，或指明一個非貪婪限定符。要匹配 ? 字符，請使用 ?。
\|5789536e17c4d1581d5e6e1dc5484afa163	將下一個字符標記為或特殊字符、或原義字符、或向后引用、或八進制轉義符。例如， "n" 匹配字符 "n"。"n" 匹配換行符。序列 "" 匹配 ""，而 "(" 則匹配 "("。
^	匹配輸入字符串的開始位置，除非在方括號表達式中使用，此時它表示不接受該字符集合。要匹配 ^ 字符本身，請使用 ^。
{	標記限定符表達式的開始。要匹配 {，請使用 {。
\|	指明兩項之間的一個選擇。要匹配 \|，請使用 \|。

限定符
限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有*或+或?或{n}或{n,}或{n,m}共6種。

正則表達式的限定符有：

字符	描述
*	匹配前面的子表達式零次或多次。例如，zo 能匹配 "z" 以及 "zoo"。等價于{0,}。
+	匹配前面的子表達式一次或多次。例如，"zo+" 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等價于 {1,}。
?	匹配前面的子表達式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價于 {0,1}。
{n}	n 是一個非負整數。匹配確定的 n 次。例如，"o{2}" 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的兩個 o。
{n,}	n 是一個非負整數。至少匹配n 次。例如，"o{2,}" 不能匹配 "Bob" 中的 "o"，但能匹配 "foooood" 中的所有 o。"o{1,}" 等價于 "o+"。"o{0,}" 則等價于 "o*"。
{n,m}	m 和 n 均為非負整數，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 將匹配 "fooooood" 中的前三個 o。"o{0,1}" 等價于 "o?"。請注意在逗號和兩個數之間不能有空格。

定位符
定位符使您能夠將正則表達式固定到行首或行尾。它們還使您能夠創建這樣的正則表達式，這些正則表達式出現在一個單詞內、在一個單詞的開頭或者一個單詞的結尾。定位符用來描述字符串或單詞的邊界，^和$分別指字符串的開始與結束，b描述單詞的前或后邊界，B表示非單詞邊界。


字符	描述
^	匹配輸入字符串開始的位置。如果設置了 RegExp 對象的 Multiline 屬性，^ 還會與 n 或 r 之后的位置匹配。
$	匹配輸入字符串結尾的位置。如果設置了 RegExp 對象的 Multiline 屬性，$ 還會與 n 或 r 之前的位置匹配。
b	匹配一個字邊界，即字與空格間的位置。
B	非字邊界匹配。

4，python中re正則模塊的學習

正則在python中是通過re模塊實現的。文檔
下面給出re核心函數和方法

   **`re` 模塊的函數                              描述**

complie(pattern,flags=0)           對正則表達式模式 pattern 進行編譯，flags 是可選標志符，并返回一個 regex 對象

match(pattern,string,flags=0)      用pattern匹配字符串 string,成功返回匹配對象，否則返回None

search(pattern,string,flags=0)     在字符串 string 中查找正則表達式模式 pattern 的第一次出現，匹配成功，返回一個匹配對象；否則返回 None

findall(pattern,string[,flags])    在字符串 string 中查找正則表達式模式 pattern 的所有(非重復)出現；返回一個匹配對象的列表

finditer(pattern,string,[,flags])  和 findall()相同，但返回的不是列表而是迭代器；對于每個匹配，該迭代器返回一個匹配對象

split(pattern,string,max=0)        根據正則表達式 pattern 中的分隔符把字符 string 分割為一個列表，返回成功匹配的列表，最多分割 max 次(默認是分割所有匹配的地方)。

sub(pattern,repl,string,max=0)     把字符串 string 中所有匹配正則表達式 pattern 的地方替換成字符串 repl,如果 max 的值沒有給出， 則對所有匹配的地方進行替換。

group(num=0)                       返回全部匹配對象(或指定編號是 num 的子組)

groups()                           返回一個包含全部匹配的子組的元組(如果沒成功匹配，就返回一個空元組)

1. 使用 compile()編譯正則表達式
為什么要編譯：正則表達式模式使用前必須先被編譯成 regex 對象，也就是說每次使用都要編譯一次，那還不如先編譯，然后隨時用起來，省時省空間。

原本是這樣：

result1=re.match(pattern,string1)
result2=re.match(pattern,string2)
result3=re.match(pattern,string3)
...

現在是這樣：

prog = re.compile(pattern)
result1 = prog.match(string1)
result2 = prog.match(string2)
result3 = prog.match(string3)
...

結果是不用每次都要將pattern作為參數放入函數中去了，大大節省時間。

2. 用 match()匹配字符串

簡單：

m = re.match("foo", "foo") # pattern matches string ，模式匹配字符串
if m is not None: # show match if successful 如果成功，顯示匹配
    m.group()#group()返回全部對象 "foo"

m = re.match("foo", "bar")# pattern does not match string 模式不匹配字符串
m#None
m = re.match("foo", "food on the table") # match succeeds # 匹配成功
m.group()#"foo"

+正則：

3. 用search()匹配字符串

其實，你要搜索的模式出現在一個字符串中間的機率要比出現在字符串開頭的機率更大一些。
這正是 search()派上用場的時候。search 和 match 的工作方式一樣，不同之處在于 search 會檢查參數字符串任意位置的地方給定正則表達式模式的匹配情況。如果搜索到成功的匹配，會返回一個匹配對象，否則返回 None。

現在我們來舉例說明 match()和 search()之間的區別。我們用字符串"foo"去匹配“seafood”:

m = re.match("foo", "seafood") # no match 匹配失敗
m#None
m = re.search("foo", "seafood") # use search() instead 改用 search()
if m is not None: m.group()
"foo"#匹配成功

4. 用findall()匹配字符串

它用于非重疊地查找某字符串中一個正則表達式模式出
現的情況。findall()和 search()相似之處在于二者都執行字符串搜索，但 findall()和 match()與search()不同之處是，findall()總返回一個列表。如果 findall()沒有找到匹配的部分，會返回空列表；如果成功找到匹配部分，則返回所有匹配部分的列表(按從左到右出現的順序排列)。

re.findall("car", "carry the barcardi to the car")
["car", "car", "car"]

5. 用 split()分割(分隔模式)

re 模塊和正則表達式對象的方法 split()與字符串的 split()方法相似， 前者是根據正則表達式模式分隔字符串，后者是根據固定的字符串分割,因此與后者相比，顯著提升了字符分割的能力。

re.split(":", "str1:str2:str3")
["str1", "str2", "str3"]

6. 用 sub()[和 subn()]進行搜索和替換

二者幾乎是一樣的，都是將某字符串中所有匹配正則表達式模式的部分進行替換。用來替換的部分通常是一個字符串，但也可能是一個函數，該函數返回一個用來替換的字符串。subn()和 sub()一樣，但它還返回一個表示替換次數的數字，替換后的字符串和表示替換次數的數字作為一個元組的元素返回。

 re.sub("l","L","hello")

 heLLo

5，結合一些實例，用正則完整分析一個問題

實例1：

前幾天處理了一個小問題,問題描述如下：
問題：字符串s有兩種內容，一種是"客車",一種是"4排5座SUV",如果是"客車"原樣返回，如果是
"4排5座SUV",則將字符串"4排5座SUV"中的"5座"多帶帶提取出來，這個問題很簡單先用if語句解決
"客車",在查看"4排5座SUV"中文和英文的字符長度，用切片選出來就行，解決如下:

try:
    if s=="客車":
        return s
    else:
        return s[3:6]
except:
        return ""

其實用正則可以輕松解決：

import re
split=re.compile("d座|客車")
try:
    result=split.search(s).group()
except:
    result=""

使用正則的好處：
1,不需要先知道要匹配字符的位置如[3:6],如果要匹配很多條結果用切片法肯定很亂。
2,更加靈活，如果出現"￥%……4排5座SUV"也可以成功匹配
3,預先編譯，更高效

6，有哪些不用正則也可以很好解決的 7，回顧和思考 8，資源

12個優秀資源助你迅速掌握正則表達式

fnrtv ?

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37916.html

【Python】Python正則表達式使用指導

摘要：反斜杠的困擾與大多數編程語言相同，正則表達式里使用作為轉義字符，這就可能造成反斜杠困擾。文本中正則表達式結束搜索的索引。以元組形式返回全部分組截獲的字符串。用于指定最大分割次數，不指定將全部分割。 1. 正則表達式基礎 1.1. 簡單介紹正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具，擁有自己獨特的語法以及一個獨立的處理引擎，效率上可能不如str自帶的方法...

nihao 2019-07-30 16:51 評論0 收藏0
python爬蟲抓取純靜態網站及其資源

摘要：下面跟大家詳細分享一下寫爬蟲抓取靜態網站的全過程。而我們上面說的元字符都代表一定的規則和占據一定的字符。遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由于時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然后就開始思考怎么把頁面給下載下來。由于之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我采取的辦...

daydream 2019-07-30 17:16 評論0 收藏0
Python正則表達式很難？一篇文章搞定他，不是我吹！

摘要：正則表達式語法字符與字符類特殊字符以上特殊字符要想使用字面值，必須使用進行轉義字符類包含在中的一個或者多個字符被稱為字符類，字符類在匹配時如果沒有指定量詞則只會匹配其中的一個。 1. 正則表達式語法 1.1 字符與字符類 1 特殊字符：.^$?+*{}| 以上特殊字符要想使用字面值，必須使用進行轉義 2 字符類 1. 包含在[]中的一個或者多個字符被稱為字符類，字符類在匹配時如果沒有指...

dcr309duan 2019-07-31 10:28 評論0 收藏0
Python3網絡爬蟲實戰---26、正則表達式

摘要：上一篇文章網絡爬蟲實戰高級用法下一篇文章網絡爬蟲實戰與正則表達式抓取貓眼電影排行本節我們看一下正則表達式的相關用法，正則表達式是處理字符串的強大的工具，它有自己特定的語法結構，有了它，實現字符串的檢索替換匹配驗證都不在話下。上一篇文章：Python3網絡爬蟲實戰---25、requests：高級用法下一篇文章：Python3網絡爬蟲實戰---27、Requests與正則表達式抓取貓眼...

Pocher 2019-07-31 10:35 評論0 收藏0
使用Python正則表達式操作文本數據

摘要：在中，使用的內置模塊處理正則表達式操作。使用正則表達式對象在字符串中搜索模式。編寫和使用正則表達式在中創建正則表達式的第一步是導入模塊正則表達式使用模式字符串表示，模式字符串是指定所需搜索模式的字符串。 showImg(https://segmentfault.com/img/remote/1460000019166945?w=504&h=300); 來源 | 愿碼(ChainDes...

Yuanf 2019-07-31 10:24 評論0 收藏0