python正則表達式簡單爬蟲入門+案例（爬取貓眼電影TOP榜）

xiaowugui666 發布于2019-07-30 14:39 / 759人閱讀

摘要：用迭代進行異步操作保存寫入文件配置啟動函數使用多進程加速一秒完成

用正則表達式實現一個簡單的小爬蟲 常用方法介紹 1、導入工具包

import requests
#導入請求模塊
from flask import json
#導入json模塊
from requests.exceptions import RequestException
#異常捕捉模塊
import re
#導入正則模塊
from multiprocessing import Pool
#導入進程模塊

2、獲取頁面

response =requests.get(url)
url:當前需要爬取的鏈接
requests.get()獲得頁面

3、if response.status_code ==200:

#驗證狀態碼
response.status_code：獲取狀態碼
200：表示正常，連接成功

4、response.text：得到頁面內容

例如：response =requests.get(url)

5、except RequestException:捕捉異常

try:
    ...
except RequestException:
    ...

6、pat = re.compile():編譯正則表達式

#正則表達式基礎知識即可

7、items =re.findall(pat,html)

pat：編譯過的正則表達式
html：用response.text得到的頁面內容
re.findall()：找到所有匹配的內容

8、打開文件

with open("result","a",encoding="utf-8")as f
with as :打開自動閉合的文件并設立對象f進行操作
result:文件名字
a:打開方式是續寫模式
encoding:編碼格式

9、寫入文件

 f.write(json.dumps(conrent,ensure_ascii =False)+"
")
 json.dumps:以json方式寫入

10、簡單進程

pool = Pool()
#創建進程池
pool.map(func,[i*10 for i in range(10)])
[i*10 for i in range(10)]：生成器，生成0到9的數字乘以10的結果，生成一個列表為[0,10,20....]
func:函數
map：將函數作用于列表每一個元素

11、yield:生成器 案例：用上面的工具完成爬去貓眼電影TOP榜

#__author:PL.Li
#導入需要使用的模塊
import requests
from flask import json
from requests.exceptions import RequestException
import re
from multiprocessing import Pool
#嘗試連接獲取頁面
def get_response(url):
    try:
        response =requests.get(url)
        if response.status_code ==200:
            return response.text
        return None
    except RequestException:
        return None
#正則匹配需要的內容
def re_one_page(html):
#超級長的正則表達式進行匹配，匹配到的是個集合。  
    pat =re.compile(".*?board-index.*?">(/d+?).*?data-src="(.*?).*?name">(.*?)"class=.*?class="star">"
                    "(.*?)
.*?releasetime">(.*?)
.*?integer">(.*?).*?fraction">(.*?).*?",re.S)
   #用迭代進行異步操作  
    items =re.findall(pat,html)
    for item in items:
        yield {
            "index":item[0],
            "image":item[1],
            "title":item[2],
            "actor":item[3].strip()[3:],
            "time":item[4].strip(),
            "score":item[5]+item[6]

        }
#保存寫入文件
def write_file(conrent):
    with open("result","a",encoding="utf-8")as f:
        f.write(json.dumps(conrent,ensure_ascii =False)+"
")
        f.close()
#配置啟動函數
def main(offset):
    url ="http://maoyan.com/board"+str(offset)
    html=get_response(url)
    for item in re_one_page(html):
        write_file(item)
#使用多進程加速一秒完成
if __name__ == "__main__":
        pool = Pool()
        pool.map(main,[i*10 for i in range(10)])

GPU云服務器云服務器正則表達式入門 python爬取入門 python 正則表達式 python正則表達

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40841.html

Python3網絡爬蟲實戰---27、Requests與正則表達式抓取貓眼電影排行

摘要：所以我們如果想獲取電影，只需要分開請求次，而次的參數設置為，，，，即可，這樣我們獲取不同的頁面結果之后再用正則表達式提取出相關信息就可以得到的所有電影信息了。上一篇文章網絡爬蟲實戰正則表達式下一篇文章網絡爬蟲實戰解析庫的使用上一篇文章：Python3網絡爬蟲實戰---26、正則表達式下一篇文章：Python3網絡爬蟲實戰---28、解析庫的使用：XPath 本節我們利用 Reque...

SwordFly 2019-07-31 10:35 評論0 收藏0
requests+正則表達式+multiprocessing多線程抓取貓眼電影TOP100

摘要：本文介紹利用庫庫和正則表達式爬取貓眼電影電影的相關信息，提取出電影名稱上映時間評分封面圖片等信息，將爬取的內容寫入到文件中。獲取到不同的網頁后使用正則表達式提取出我們要的信息，就可以得到電影信息了，可以使用多線程加速爬取。本文介紹利用Requests庫、multiprocessing庫和正則表達式爬取貓眼電影TOP100電影的相關信息，提取出電影名稱、上映時間、評分、封面圖片等信息，...

jifei 2019-07-30 18:39 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
Requests+正則表達式爬取貓眼電影

摘要：目標通過正則表達式爬取貓眼電影電影的排名名字電影封面圖片主演上映時間貓眼評分，將爬取的內容寫入文件中。為了加快爬取網頁的速度，可以開啟循環和多線程當需要爬取的信息很大時，這是一個不錯的技巧。目標通過Request+正則表達式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入文件中。流程框架進入到貓眼電影TOP100的頁面，此時的U...

30e8336b8229 2019-07-30 18:37 評論0 收藏0