摘要:一般常用爬蟲下載文本,圖片,視頻,聲音。此處以下載圖片為例,圖片也是相對最容易。格式的文件下載只要抓包或者得到請求鏈接,那么將上面的程序稍稍改動一下,即可下載。比如只要能試聽,就會有鏈接。聲明部分參考了很有趣兒的爬蟲分享
一般常用爬蟲下載文本,圖片,視頻,聲音。此處以下載圖片為例,圖片也是相對最容易。
#-*- coding:utf-8 -*- import os,re,requests #獲取圖片鏈接(以百度圖片為例,因為部分參考了voidsky_很有趣兒的爬蟲分享) keyword=raw_input("please input what you want to serch:") url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word="+keyword+"&ct=201326592&ic=0&lm=-1&width=&height=&v=flip" page=requests.get(url).text pic_link=re.findall(""objURL":"(.*?)",",page,re.S) #將圖片文件寫入本地 i=1 for item in pic_link: #需要添加捕獲異常,因為不是所有圖片都能下載 try: pic=requests.get(item).content except requests.exceptions.ConnectionError: print "Sorry.The current pic is not avilible." continue filename=str(i)+(".jpg") path=os.path.join("F:","001",filename)#這個地址是我電腦的地址,可修改輸出地址 file=open(path,"wb") file.write(pic) file.close() print ("have down", i) i+=1 print ("download" ,i-1)
總結和反思:
1、url變量本身就是str類型,無需糾結‘ ’或“ ”;
2、requests.get().text 獲取了鏈接地址的源代碼文本;
requests.get().text 獲取鏈接地址的二進制內容,用于將圖片,聲音,視頻等寫入這些文件中;
3、涉及這樣批量下載,需要處理捕獲異常,不然程序就會在出錯處中斷,不會繼續運行;
4、continue 使得程序即使報錯了,也能繼續下一個循環,即圖片下載;
5、在正則匹配中re.S參數設置,表示把字符串當做一個整體,n也當做字符串而不是換行,不因換行而重新匹配,可跨行匹配,。
6、MP3、MP4格式的文件下載,只要抓包或者F12得到請求鏈接,那么將上面的程序稍稍改動一下,即可下載。比如:
只要能試聽,就會有鏈接。
聲明:部分參考了voidsky_很有趣兒的爬蟲分享:https://www.jianshu.com/p/19c...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41261.html
摘要:知乎日報代理首先感謝提供的分析使用詳情請參考他提供的參數和地址代理轉發的使用為前綴進入代理路由啟動界面圖像獲取后為圖像分辨率,接受任意的格式,為任意非負整數,返回值均相同返回值示例最新消息等具體參考提供的分析中的使用方式以及參數含義。 項目說明 這是一個基于express的node后端API服務,當時只是想抓取字幕組網站的下載資源,以備以后通過nas的方式去自動下載關注的美劇。不過后來...
摘要:避免重定向重定向用和狀態碼,下面是一個有狀態碼的頭瀏覽器會自動跳轉到域指明的。除此之外還有別的跳轉方式元標簽和,但如果你必須得做重定向,最好用標準的狀態碼,主要是為了讓返回按鈕能正常使用。要提高性能,優化這些響應至關重要。 性能優化 減少Http請求: 1.盡量減少HTTP請求數 80%的終端用戶響應時間都花在了前端上,其中大部分時間都在下載頁面上的各種組件:圖片,樣式表,腳本,...
摘要:避免重定向重定向用和狀態碼,下面是一個有狀態碼的頭瀏覽器會自動跳轉到域指明的。除此之外還有別的跳轉方式元標簽和,但如果你必須得做重定向,最好用標準的狀態碼,主要是為了讓返回按鈕能正常使用。要提高性能,優化這些響應至關重要。 性能優化 減少Http請求: 1.盡量減少HTTP請求數 80%的終端用戶響應時間都花在了前端上,其中大部分時間都在下載頁面上的各種組件:圖片,樣式表,腳本,...
閱讀 3466·2023-04-25 18:52
閱讀 2480·2021-11-22 15:31
閱讀 1218·2021-10-22 09:54
閱讀 3004·2021-09-29 09:42
閱讀 602·2021-09-26 09:55
閱讀 905·2021-09-13 10:28
閱讀 1093·2019-08-30 15:56
閱讀 2105·2019-08-30 15:55