Python爬蟲建站入門手記——從零開始建立采集站點（一：環(huán)境搭建）

HackerShell 發(fā)布于2019-07-24 17:56 / 1805人閱讀

摘要：從今天起，我將在這里更新一個系列的簡單爬蟲到建立網(wǎng)站的實踐手記。內(nèi)容將會從最簡單的開始，環(huán)境搭建，基本爬蟲，入庫，用建立可供用戶訪問的網(wǎng)站，網(wǎng)站部署。第一部分，買，裝環(huán)境。我們爬蟲站點的所有文件都放在里面。

從今天起，我將在這里更新一個系列的python簡單爬蟲到建立網(wǎng)站的實踐手記。

內(nèi)容將會從最簡單的開始，環(huán)境搭建，基本爬蟲，入庫，用Django建立可供用戶訪問的網(wǎng)站，網(wǎng)站部署。

同時打算涉及簡單的異步爬蟲，piplibe，隊列等等。

為了方便，將使用django和sqlite3來作為例子，雖然有時候這并不是最合適的場景。。

最終目的：一個能用的自動更新的垃圾站

下面進入正題。

第一部分，買VPS，裝環(huán)境。

本文的一切操作都在vps上

在Runabove建立最便宜的instance.

選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字"PythonSpider"-FireUp!

不出一分鐘，VPS就建立好了。

用SSH 連接服務(wù)器

先建立一個screen，順手更新apt-get,以后都在這里面操作，避免掉線導(dǎo)致任務(wù)中斷。

bashscreen -S spider # 取名叫spider的screen
sudo apt-get update
sudp apt-get upgrade

再順手安裝一些肯定會用的東西

bashsudo apt-get install gcc python-dev -y
sudo - #這一步以后，用戶就是root了 記住
nginx=stable # use nginx=development for latest development version
add-apt-repository ppa:nginx/$nginx
apt-get update
apt-get install nginx -y
apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y

裝pip和virtualenv

bashwget https://bootstrap.pypa.io/get-pip.py
python get-pip.py
pip install virtualenv

建立~/venv目錄，建立virtualenv, 激活virtualenv

bashmkdir ~/venv
cd ~/venv
virtualenv spider
source ~/venv/spider/bin/activate

之后，shell提示符應(yīng)該是這樣

安裝django(1.7)

bashpip install django
cd ~ # 返回用戶目錄

5秒鐘后，django安裝完畢，現(xiàn)在開始建立項目目錄(Django的project)。我們爬蟲站點的所有文件都放在里面。

bashdjango-admin startproject python_spider

再測試下安裝是否成功

bashservice nginx stop # 為毛? 因為RunAbove的8000神馬的端口不好用
python manage.py runserver 0.0.0.0:80 # 只能用80，真蛋疼

現(xiàn)在訪問192.99.71.91,我就能看到Django的示例頁面

沒騙你吧？好了，看一眼能用就ctrl+c把服務(wù)器關(guān)掉。

然后，再建立一個app

bashcd python_spider
python manage.py startapp web

所以，現(xiàn)在我有一個Django項目，叫python_spider, 它里面有個app叫web.

未完待續(xù)。。。(點擊下面閱讀)
下一篇，是簡單Python爬蟲的編寫。

云服務(wù)器 GPU云服務(wù)器從零開始學(xué)python網(wǎng)絡(luò)爬蟲 python從零開始從零開始學(xué)python python爬蟲搭建環(huán)境

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/37503.html

上一篇：Python爬蟲建站入門手記——從零開始建立采集站點（二：編寫爬蟲）

下一篇：web.py源碼分析: 模板(3)

相關(guān)文章

Python爬蟲建站入門手記——從零開始建立采集站點（二：編寫爬蟲）

摘要：接上回第二部分，編寫爬蟲。進入微信嵌套選擇圖片和上傳圖片接口，實現(xiàn)一鍵上傳圖片，遇到問題看吧，我現(xiàn)在已經(jīng)可以通過爬蟲獲取的提問標(biāo)題了。微信故意省略想做小偷站的，看到這里基本上就能搞出來了。下一篇，采集入庫上回，我裝了環(huán)境也就是一對亂七八糟的東西裝了pip，用pip裝了virtualenv，建立了一個virtualenv，在這個virtualenv里面，裝了Django，創(chuàng)建了一個...

Codeing_ls 2019-07-24 17:55 評論0 收藏0

Python爬蟲建站入門手記——從零開始建立采集站點（三：采集入庫）

摘要：進入正題第三部分，采集入庫。內(nèi)容如下加上這個可以記住問題在的位置，方便以后更新或者其他操作都很直白，關(guān)于各個可以看看的文檔。代碼如下添加方法采集當(dāng)前分頁正在抓取分頁這個地方寫得很笨，之前該在加上這個屬性。上回，我已經(jīng)大概把爬蟲寫出來了。我寫了一個內(nèi)容爬蟲，一個爬取tag里面內(nèi)容鏈接的爬蟲其實還差一個，就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題，因為我上次忘了這次又不...

amuqiao 2019-07-24 17:55 評論0 收藏0

[時隔20個月來填坑]Python爬蟲建站入門手記

摘要：大概個月前已新手的身份寫了幾篇入門的文章爬蟲建站入門手記從零開始建立采集站點結(jié)果弄到一半就棄坑了。前兩次的視頻存檔編寫爬蟲入庫由于很久沒有寫這些東西了，視頻里面有一半的時間在和上找資料。。。下面是建立的一個微信群的二維碼大概20個月前已新手的身份寫了幾篇入門的文章：Python爬蟲建站入門手記——從零開始建立采集站點結(jié)果弄到一半就棄坑了。該填的坑是要填的，于是我最近開始在 liv...

Lavender 2019-07-25 10:50 評論0 收藏0

從零開始nodejs系列文章

摘要：從零開始系列文章，將介紹如何利做為服務(wù)端腳本，通過框架開發(fā)。框架是基于的引擎，是目前速度最快的引擎。瀏覽器就基于，同時打開個網(wǎng)頁都很流暢。標(biāo)準(zhǔn)的開發(fā)框架，可以幫助我們迅速建立站點，比起的開發(fā)效率更高，而且學(xué)習(xí)曲線更低。從零開始nodejs系列文章，將介紹如何利Javascript做為服務(wù)端腳本，通過Nodejs框架web開發(fā)。Nodejs框架是基于V8的引擎，是目前速度最快的Java...

rickchen 2019-08-19 14:22 評論0 收藏0

數(shù)據(jù)工程師妹子養(yǎng)成手記——數(shù)據(jù)庫篇

摘要：是什么呀是一個和不太一樣的數(shù)據(jù)庫。懷疑是同時聯(lián)了四個集合的數(shù)據(jù)造成的。這本書的定位是和的應(yīng)用，所以有意弱化了數(shù)據(jù)庫的搭建維護和底層優(yōu)化。所以本書可能不適合數(shù)據(jù)庫工程師。這篇文章沒有代碼，請放心閱讀。程序員最寶貴的東西是生命，生命屬于程序員只有一次。一個程序員的一生應(yīng)該這樣度過：當(dāng)她回首往事的時候，她不會因為搭建環(huán)境浪費時間而悔恨，也不會因為集群無法運行而羞恥。這樣，在她開發(fā)的時候，...

yexiaobai 2019-07-31 10:05 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

HackerShell

男|高級講師

我要關(guān)注我要私信

TA的文章
閱讀更多

??C++布爾值??

閱讀 1214·2021-09-26 09:55

前端_CSS

閱讀 3159·2019-08-30 15:55

cssfloat布局以及其他小技巧

閱讀 948·2019-08-30 15:53

CSS文本省略顯示

閱讀 2286·2019-08-30 13:59

一些面試時關(guān)于 CSS 的問題

閱讀 2367·2019-08-29 13:08

Vue入門——Vue的核心

閱讀 1098·2019-08-29 12:19

深度解析之異步加載和預(yù)加載

閱讀 3290·2019-08-26 13:41

小程序云開發(fā)之新聞類項目分析

閱讀 411·2019-08-26 13:24

最新活動

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲建站入門手記——從零開始建立采集站點（一：環(huán)境搭建）

相關(guān)文章

Python爬蟲建站入門手記——從零開始建立采集站點（二：編寫爬蟲）

Python爬蟲建站入門手記——從零開始建立采集站點（三：采集入庫）

**[時隔20個月來填坑]Python爬蟲建站入門手記**

從零開始nodejs系列文章

數(shù)據(jù)工程師妹子養(yǎng)成手記——數(shù)據(jù)庫篇

發(fā)表評論

0條評論

HackerShell

男|高級講師

TA的文章

??C++布爾值??

前端_CSS

cssfloat布局以及其他小技巧

CSS文本省略顯示

一些面試時關(guān)于 CSS 的問題

Vue入門——Vue的核心

深度解析之異步加載和預(yù)加載

小程序云開發(fā)之新聞類項目分析

最新活動