Python3爬蟲下載pdf（一）

instein 發布于2019-07-30 14:32 / 3215人閱讀

摘要：爬蟲下載一最近在學習的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。

Python3爬蟲下載pdf（一）

最近在學習python的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。

需下載以下模塊

bs4 模塊

requests 模塊

一、源碼

"""
功能：下載指定url內的所有的pdf
語法：將含有pdf的url放到腳本后面執行就可以了
"""

from bs4 import BeautifulSoup as Soup
import requests
from sys import argv

try:
    ##用于獲取命令行參數，argv[0]是腳本的名稱
    root_url = argv[1]
except:
    print("please input url behind the script!!")
    exit()

##獲得含有所有a標簽的一個列表
def getTagA(root_url):
    res = requests.get(root_url)
    soup = Soup(res.text,"html.parser")
    temp = soup.find_all("a")
    return temp

##從所有a標簽中找到含有pdf的，然后下載
def downPdf(root_url,list_a):
    number = 0
    ##如果網站url是以類似xx/index.php格式結尾，那么只取最后一個/之前的部分
    if not root_url.endswith("/"):     
        index = root_url.rfind("/")
        root_url = root_url[:index+1]
    for name in list_a:
        name02 = name.get("href")
        ##篩選出以.pdf結尾的a標簽
        if name02.lower().endswith(".pdf"):
            pdf_name = name.string 
            number += 1
            print("Download the %d pdf immdiately!!!"%number,end="  ")
            print(pdf_name+"downing.....") 
             ##因為要下載的是二進制流文件，將strem參數置為True     
            response = requests.get(root_url+pdf_name,stream="TRUE")
            with open(pdf_name,"wb") as file:
                for data in response.iter_content():
                    file.write(data)

if __name__ == "__main__":
    downPdf(root_url,getTagA(root_url))

二、亮點

利用str.rfind("S") 函數來獲得 S 在str 從右邊數第一次出現的index

使用str.lower().endswith("S") 函數來判斷str 是否以S/s 結尾

云服務器 GPU云服務器 python3 爬蟲 python3爬蟲爬蟲python3 python爬蟲pdf

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40765.html

Python3爬蟲下載pdf（二）

摘要：爬蟲下載二最近在學習的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設置命令行參數功能下載目標最大的線程數。方法的作用與內置函數類似，不過函數會在多個線程中并發調用方法返回一個生成器。 Python3爬蟲下載pdf（二）最近在學習python的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。需下載下載以下模塊 bs4模塊 reques...

LancerComet 2019-07-30 14:32 評論0 收藏0
爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
50行Python代碼，教你獲取公眾號全部文章

摘要：今天介紹一種通過抓包端微信的方式去獲取公眾號文章的方法。如上圖，通過抓包工具獲取微信的網絡信息請求，我們發現每次下拉刷新文章的時候都會請求這個接口。本文首發自公眾號：python3xxx 爬取公眾號的方式常見的有兩種通過搜狗搜索去獲取，缺點是只能獲取最新的十條推送文章通過微信公眾號的素材管理，獲取公眾號文章。缺點是需要申請自己的公眾號。 showImg(//img.mukew...

MartinHan 2019-07-31 11:27 評論0 收藏0
Python3網絡爬蟲實戰---16、Web網頁基礎

摘要：，簡稱為，是一種腳本語言，和配合使用，提供給用戶的只是一種靜態的信息，缺少交互性。這就是網頁的三大基本組成。父節點擁有子節點，同級的子節點被稱為兄弟節點。選擇屬于其父節點的首個節點的每個節點。同上，從最后一個上一篇文章：Python3網絡爬蟲實戰---15、爬蟲基礎：HTTP基本原理下一篇文章：Python3網絡爬蟲實戰---17、爬蟲基本原理我們平時用瀏覽器訪問網站的時候，一個...

netScorpion 2019-07-31 10:34 評論0 收藏0
干貨 | 學習Python的正確姿勢

摘要：勤學學習效率與效果取決于執行力。這一步學習的正確姿勢是在實踐操作中發掘問題，然后帶著問題找答案。拆分任務將目標分解成具體可執行的學習任務。勤學強大的執行力是學習的根本保障。分享復述檢驗學習成果，提高學習效果的最好方法。 showImg(https://segmentfault.com/img/bVbcPGZ?w=256&h=256); 前段時間和大家一起分享了一篇關于學習方法內容《大牛...

Thanatos 2019-07-30 16:57 評論0 收藏0