摘要:從剛開(kāi)始接觸到使用進(jìn)行爬蟲(chóng),經(jīng)歷了許多,不懂的各種百度,硬是從不會(huì)進(jìn)步成入門了,抱怨的話不多說(shuō),進(jìn)入正題。
從剛開(kāi)始接觸Python2.7到使用Scrapy1.3進(jìn)行爬蟲(chóng),經(jīng)歷了許多,不懂的各種百度,硬是從不會(huì)進(jìn)步成入門了,抱怨的話不多說(shuō),進(jìn)入正題。
寫這篇文章的目的在于總結(jié)這段時(shí)間學(xué)習(xí)Scrapy的到的一些經(jīng)驗(yàn)
環(huán)境搭建1、如果在代碼中運(yùn)行命令scrapy crawl sina2出錯(cuò)(如上圖) subprocess.CalledProcessError: Command "scrapy crawl sina2" returned non-zero exit status 1 有可能是: 1、先將scrapy crawl sina2命令在cmd窗口中測(cè)試,如果報(bào)錯(cuò): Fatal error in launcher: Unable to create process using """ 請(qǐng)參考下方第二點(diǎn) 2、scrapy沒(méi)有裝好
2、如果命令行出錯(cuò) Fatal error in launcher: Unable to create process using """ 有可能是: 1、python沒(méi)有安裝在c盤的原因,經(jīng)測(cè)試我將python27放到除c盤以外都不行 2、安裝路徑不要有 空格中文之類的字符
3、pip被墻,修改國(guó)內(nèi)源方法,可以增加速度(好久沒(méi)去測(cè)試,不懂還可以用不) 1、linux或者是Mac的 pip源: 1、找到vi ~/.pip/pip.conf 2、修改 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple 2、window的 pip源: 1、找到C:UsersAdministrator 2、新建pip文件夾,新建pip.ini文件 填寫以下內(nèi)容 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple
4、安裝Scrapy過(guò)程中出錯(cuò): ERROR: ‘xslt-config’ 不是內(nèi)部或外部命令,也不是可運(yùn)行的程序 或批處理文件。 1、在http://pypi.python.org/simple/lxml/下載win10 x64(看系統(tǒng)情況) 的lxml-2.2.8.win-amd64-py2.7.exe 2、然后重新打開(kāi)cmd去pip install Scrapy 解決了此xml的問(wèn)題了
5、運(yùn)行代碼報(bào)錯(cuò): ImportError: No module named win32api 解決: 1、pip install pypiwin32從一臺(tái)電腦快速?gòu)?fù)制環(huán)境到另以臺(tái)電腦(window)
當(dāng)你在一臺(tái)電腦上配置相當(dāng)完全的python開(kāi)發(fā)環(huán)境之后,想要換一臺(tái)同類型的電腦繼續(xù)工作,一想到要從新安裝各類的三方庫(kù),是不是很累,我這里有幾點(diǎn)小建議
1、首先明確需要的安裝的基本東西: 1、jdk(python需要) 2、PythonChram(開(kāi)發(fā)工具) 3、Python27(python基礎(chǔ))
2、jdk: 1、到已安裝電腦的安裝目錄復(fù)制jdk文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、配置jdk環(huán)境變量,路徑指向你存放的目錄(自行百度) 說(shuō)明:jdk安裝完的文件夾,可以直接拷貝應(yīng)用,無(wú)需從網(wǎng)絡(luò)上下載然后安裝,比較方便
3、PythonChram: 1、到已安裝電腦的安裝目錄復(fù)制PythonChram文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、同時(shí):也可以打開(kāi)軟件,將設(shè)置項(xiàng)導(dǎo)出,拷貝到新電腦的軟件上使用,可以省去設(shè)置軟件 外觀的麻煩事,但是可能有些基礎(chǔ)的配置項(xiàng)就需要重新配置如: 1、python解釋器的位置 2、git的路徑
4、Python27: 1、到已安裝電腦的安裝目錄復(fù)制Python27文件夾 2、拷貝到新電腦的C盤根目錄(特別注意:放到除C盤之外的目錄可能會(huì)出現(xiàn)問(wèn)題,請(qǐng)自測(cè)) 3、配置環(huán)境變量(指向存放的c盤目錄) 說(shuō)明:Python27安裝完的文件夾,可以直接拷貝應(yīng)用,無(wú)需從網(wǎng)絡(luò)上下載然后安裝,比較 方便,而且里面已經(jīng)包含了需要的三方庫(kù),可以省掉用pip安裝的麻煩事情
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/40701.html
摘要:一基礎(chǔ)環(huán)境由于不是職業(yè)的開(kāi)發(fā)者,因此環(huán)境是基于的。二安裝打開(kāi)命令行工具創(chuàng)建虛擬環(huán)境,默認(rèn)情況下會(huì)創(chuàng)建目錄,所有的虛擬環(huán)境都會(huì)產(chǎn)生一個(gè)子目錄保存在此,里面包含基本程序文件以及庫(kù)文件。 目錄 基于 Python 的 Scrapy 爬蟲(chóng)入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲(chóng)入門:頁(yè)面提取 基于 Python 的 Scrapy 爬蟲(chóng)入門:圖片處理 作為一個(gè)全棧工程師(...
摘要:快速入門接上篇學(xué)習(xí)一安裝,安裝后,我們利用一個(gè)簡(jiǎn)單的例子來(lái)熟悉如何使用創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目。創(chuàng)建一個(gè)項(xiàng)目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個(gè)的項(xiàng)目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見(jiàn)入門項(xiàng)目 快速入門 接上篇Scrapy學(xué)習(xí)(一) 安裝,安裝后,我們利用一個(gè)簡(jiǎn)單的例子來(lái)熟悉如何使用Scrapy創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目。 創(chuàng)建一個(gè)Scrapy項(xiàng)目 在已配置好的環(huán)境...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲(chóng)。所以我一個(gè)python小白就被拉去做了爬蟲(chóng)。花了兩周時(shí)間,拼拼湊湊總算趕出來(lái)了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過(guò)...
摘要:本文內(nèi)容爬取豆瓣電影頁(yè)面內(nèi)容,字段包含排名,片名,導(dǎo)演,一句話描述有的為空,評(píng)分,評(píng)價(jià)人數(shù),上映時(shí)間,上映國(guó)家,類別抓取數(shù)據(jù)存儲(chǔ)介紹爬蟲(chóng)框架教程一入門創(chuàng)建項(xiàng)目創(chuàng)建爬蟲(chóng)注意,爬蟲(chóng)名不能和項(xiàng)目名一樣應(yīng)對(duì)反爬策略的配置打開(kāi)文件,將修改為。 本文內(nèi)容 爬取豆瓣電影Top250頁(yè)面內(nèi)容,字段包含:排名,片名,導(dǎo)演,一句話描述 有的為空,評(píng)分,評(píng)價(jià)人數(shù),上映時(shí)間,上映國(guó)家,類別 抓取數(shù)據(jù)存儲(chǔ) ...
目錄 基于 Python 的 Scrapy 爬蟲(chóng)入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲(chóng)入門:頁(yè)面提取 基于 Python 的 Scrapy 爬蟲(chóng)入門:圖片處理 上篇文章中講解了如何從網(wǎng)站頁(yè)面抓取所需要的數(shù)據(jù),很幸運(yùn)范例中所需的數(shù)據(jù)是通過(guò) Ajax 請(qǐng)求返回的 JSON 結(jié)構(gòu)化數(shù)據(jù),處理起來(lái)很簡(jiǎn)單,圖片內(nèi)容也只取了一個(gè)鏈接,對(duì)于我最初的目標(biāo)把這些圖集添加到自己的博客站點(diǎn)中這...
閱讀 720·2021-11-24 10:30
閱讀 1254·2021-09-24 09:48
閱讀 3074·2021-09-24 09:47
閱讀 3588·2019-08-29 17:11
閱讀 2875·2019-08-29 15:38
閱讀 2270·2019-08-29 11:03
閱讀 3594·2019-08-26 12:15
閱讀 1008·2019-08-26 10:45