摘要:從今天起,我將在這里更新一個系列的簡單爬蟲到建立網(wǎng)站的實踐手記。內(nèi)容將會從最簡單的開始,環(huán)境搭建,基本爬蟲,入庫,用建立可供用戶訪問的網(wǎng)站,網(wǎng)站部署。第一部分,買,裝環(huán)境。我們爬蟲站點的所有文件都放在里面。
從今天起,我將在這里更新一個系列的python簡單爬蟲到建立網(wǎng)站的實踐手記。
內(nèi)容將會從最簡單的開始,環(huán)境搭建,基本爬蟲,入庫,用Django建立可供用戶訪問的網(wǎng)站,網(wǎng)站部署。
同時打算涉及簡單的異步爬蟲,piplibe,隊列等等。
為了方便,將使用django和sqlite3來作為例子, 雖然有時候這并不是最合適的場景。。
最終目的:一個能用的自動更新的垃圾站
下面進入正題。
第一部分,買VPS,裝環(huán)境。本文的一切操作都在vps上
在Runabove建立最便宜的instance.
選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字"PythonSpider"-FireUp!
不出一分鐘,VPS就建立好了。
用SSH 連接服務(wù)器
先建立一個screen,順手更新apt-get,以后都在這里面操作,避免掉線導(dǎo)致任務(wù)中斷。
bashscreen -S spider # 取名叫spider的screen sudo apt-get update sudp apt-get upgrade
再順手安裝一些肯定會用的東西
bashsudo apt-get install gcc python-dev -y sudo - #這一步以后,用戶就是root了 記住 nginx=stable # use nginx=development for latest development version add-apt-repository ppa:nginx/$nginx apt-get update apt-get install nginx -y apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y
裝pip和virtualenv
bashwget https://bootstrap.pypa.io/get-pip.py python get-pip.py pip install virtualenv
建立~/venv目錄,建立virtualenv, 激活virtualenv
bashmkdir ~/venv cd ~/venv virtualenv spider source ~/venv/spider/bin/activate
之后,shell提示符應(yīng)該是這樣
安裝django(1.7)
bashpip install django cd ~ # 返回用戶目錄
5秒鐘后,django安裝完畢,現(xiàn)在開始建立項目目錄(Django的project)。我們爬蟲站點的所有文件都放在里面。
bashdjango-admin startproject python_spider
再測試下安裝是否成功
bashservice nginx stop # 為毛? 因為RunAbove的8000神馬的端口不好用 python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼
現(xiàn)在訪問192.99.71.91,我就能看到Django的示例頁面
沒騙你吧? 好了,看一眼能用就ctrl+c把服務(wù)器關(guān)掉。
然后,再建立一個app
bashcd python_spider python manage.py startapp web
所以,現(xiàn)在我有一個Django項目,叫python_spider, 它里面有個app叫web.
未完待續(xù)。。。(點擊下面閱讀)
下一篇,是簡單Python爬蟲的編寫。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37503.html
摘要:接上回第二部分,編寫爬蟲。進入微信嵌套選擇圖片和上傳圖片接口,實現(xiàn)一鍵上傳圖片,遇到問題看吧,我現(xiàn)在已經(jīng)可以通過爬蟲獲取的提問標(biāo)題了。微信故意省略想做小偷站的,看到這里基本上就能搞出來了。下一篇,采集入庫 上回,我裝了環(huán)境 也就是一對亂七八糟的東西 裝了pip,用pip裝了virtualenv,建立了一個virtualenv,在這個virtualenv里面,裝了Django,創(chuàng)建了一個...
摘要:進入正題第三部分,采集入庫。內(nèi)容如下加上這個可以記住問題在的位置,方便以后更新或者其他操作都很直白,關(guān)于各個可以看看的文檔。代碼如下添加方法采集當(dāng)前分頁正在抓取分頁這個地方寫得很笨,之前該在加上這個屬性。 上回,我已經(jīng)大概把爬蟲寫出來了。 我寫了一個內(nèi)容爬蟲,一個爬取tag里面內(nèi)容鏈接的爬蟲 其實還差一個,就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題,因為我上次忘了 這次又不...
摘要:大概個月前已新手的身份寫了幾篇入門的文章爬蟲建站入門手記從零開始建立采集站點結(jié)果弄到一半就棄坑了。前兩次的視頻存檔編寫爬蟲入庫由于很久沒有寫這些東西了,視頻里面有一半的時間在和上找資料。。。下面是建立的一個微信群的二維碼 大概20個月前已新手的身份寫了幾篇入門的文章:Python爬蟲建站入門手記——從零開始建立采集站點 結(jié)果弄到一半就棄坑了。 該填的坑是要填的,于是我最近開始在 liv...
摘要:從零開始系列文章,將介紹如何利做為服務(wù)端腳本,通過框架開發(fā)。框架是基于的引擎,是目前速度最快的引擎。瀏覽器就基于,同時打開個網(wǎng)頁都很流暢。標(biāo)準(zhǔn)的開發(fā)框架,可以幫助我們迅速建立站點,比起的開發(fā)效率更高,而且學(xué)習(xí)曲線更低。 從零開始nodejs系列文章,將介紹如何利Javascript做為服務(wù)端腳本,通過Nodejs框架web開發(fā)。Nodejs框架是基于V8的引擎,是目前速度最快的Java...
摘要:是什么呀是一個和不太一樣的數(shù)據(jù)庫。懷疑是同時聯(lián)了四個集合的數(shù)據(jù)造成的。這本書的定位是和的應(yīng)用,所以有意弱化了數(shù)據(jù)庫的搭建維護和底層優(yōu)化。所以本書可能不適合數(shù)據(jù)庫工程師。 這篇文章沒有代碼,請放心閱讀。 程序員最寶貴的東西是生命,生命屬于程序員只有一次。一個程序員的一生應(yīng)該這樣度過:當(dāng)她回首往事的時候,她不會因為搭建環(huán)境浪費時間而悔恨,也不會因為集群無法運行而羞恥。這樣,在她開發(fā)的時候,...
閱讀 1214·2021-09-26 09:55
閱讀 3159·2019-08-30 15:55
閱讀 948·2019-08-30 15:53
閱讀 2286·2019-08-30 13:59
閱讀 2367·2019-08-29 13:08
閱讀 1098·2019-08-29 12:19
閱讀 3290·2019-08-26 13:41
閱讀 411·2019-08-26 13:24