Python是什么，什么是爬蟲(chóng)？具體該怎么學(xué)習(xí)？

yanest 2022-06-22 19:52 回答10 收藏1

收藏問(wèn)題

10條回答

hidogs

回答于2022-06-22 19:52

Python是一種極少數(shù)能兼具簡(jiǎn)單與功能強(qiáng)大的編程語(yǔ)言，易于學(xué)習(xí)理解，入門容易，代碼更接近于自然語(yǔ)言和平時(shí)的思維方式，據(jù)統(tǒng)計(jì)顯示是世界上最受歡迎的語(yǔ)言之一。

爬蟲(chóng)就是利用爬蟲(chóng)技術(shù)去抓取各論壇、網(wǎng)站數(shù)據(jù)，將所需數(shù)據(jù)保存到數(shù)據(jù)庫(kù)或是特定格式文件。

具體學(xué)習(xí)：

1）首先是學(xué)習(xí)Python基本常識(shí)學(xué)習(xí)，了解網(wǎng)絡(luò)請(qǐng)求原理、網(wǎng)頁(yè)結(jié)構(gòu)。

2）視頻學(xué)習(xí)或者找一本專業(yè)網(wǎng)絡(luò)爬蟲(chóng)的書進(jìn)行學(xué)習(xí)。所謂“前人栽樹(shù)后人乘涼”，跟著大神的步伐進(jìn)行實(shí)際操作，必定能事半功倍。

3）網(wǎng)站實(shí)際操作，在具備爬蟲(chóng)思想之后多找一些網(wǎng)站進(jìn)行操作。

評(píng)論0 贊同0

加載中...

OpenDigg

回答于2022-06-22 19:52

python是一種跨平臺(tái)的編程語(yǔ)言，1989年由一個(gè)荷蘭人創(chuàng)立的，它的特點(diǎn)是簡(jiǎn)潔、易用、可擴(kuò)展性好，目前編程語(yǔ)言熱度排名在前幾名，可謂非常非?；?。

爬蟲(chóng)一般指網(wǎng)絡(luò)爬蟲(chóng)，是一種可自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序，它一般由控制器、解析器和資源庫(kù)組成。python爬蟲(chóng)是用python語(yǔ)言編寫的爬蟲(chóng)。

怎么學(xué)習(xí)python和爬蟲(chóng)呢？首先，網(wǎng)上的這方面的學(xué)習(xí)資料是很多的，很多免費(fèi)教程，例如csdn博客。其次，可以買相關(guān)紙質(zhì)或電子書、網(wǎng)絡(luò)課程來(lái)系統(tǒng)學(xué)習(xí)。

評(píng)論0 贊同0

加載中...

Python語(yǔ)言的由來(lái)

Python作為一門編程開(kāi)發(fā)語(yǔ)言，早在1989年的時(shí)候，由阿姆斯特丹，年青人Guido所開(kāi)發(fā)的，之所以為什么會(huì)叫Python呢？主要是因?yàn)樗荕onty Python喜劇團(tuán)體的愛(ài)好者，才有了后來(lái)的，這門編程語(yǔ)言的流行。

Python的語(yǔ)法非常接近英語(yǔ)，風(fēng)格統(tǒng)一，非常優(yōu)美，而且內(nèi)置了很多高效的工具。Python語(yǔ)言可以作為一種輕量級(jí)的語(yǔ)言開(kāi)發(fā)，可以從桌面應(yīng)用、WEB開(kāi)發(fā)、自動(dòng)化測(cè)試運(yùn)維、爬蟲(chóng)、人工智能、大數(shù)據(jù)處理都能做，應(yīng)用非常廣泛。

什么是爬蟲(chóng)

作為學(xué)習(xí)Python中，首先要學(xué)會(huì)爬取數(shù)據(jù)。數(shù)據(jù)大部分來(lái)源于網(wǎng)絡(luò)，好好掌握requests、scrapy、selenium、beautifulSoup，這些庫(kù)都是寫網(wǎng)絡(luò)爬蟲(chóng)必需的。

通俗的來(lái)講就是，可以把互聯(lián)網(wǎng)看成一張非常大的蜘蛛網(wǎng)，所有互聯(lián)網(wǎng)的資源中，每個(gè)站點(diǎn)資源相比于蜘蛛網(wǎng)上的一個(gè)結(jié)點(diǎn)，按照已經(jīng)設(shè)定好的規(guī)則和方法路徑在互聯(lián)網(wǎng)上尋找目標(biāo)結(jié)點(diǎn)，以便獲取資源。

如何學(xué)習(xí)Python

隨著編程越來(lái)越進(jìn)入普通大眾的視野內(nèi)，Python 也已經(jīng)走進(jìn)了小學(xué)生的課程里，其實(shí)不只是小學(xué)生，為了自己的發(fā)展前景，或許你才是最該學(xué) Python 的人。

Python 由于其獨(dú)特性，使其在各種編程語(yǔ)言中脫穎而出，在全世界擁有大量擁護(hù)它的程序員，作為一名Python編程開(kāi)發(fā)人員，可以應(yīng)用到各行各業(yè)中，進(jìn)行領(lǐng)域內(nèi)的融合發(fā)展進(jìn)步。

如何更好的學(xué)習(xí)Python，提高自身水平，以下說(shuō)明僅作參考，可以作為學(xué)習(xí)Python的參考示例。

首先需要通過(guò)讀書，建立扎實(shí)的Python語(yǔ)言基礎(chǔ)。
開(kāi)始學(xué)習(xí)利用 Python 實(shí)現(xiàn)一個(gè)小的獨(dú)立項(xiàng)目的教程，如發(fā)郵件、寫文件。借此機(jī)會(huì)，你會(huì)了解到對(duì)于 Python開(kāi)發(fā)者而言有用的包和庫(kù)。
培養(yǎng)閱讀文檔的習(xí)慣。利用已有的庫(kù)，搭建小的應(yīng)用程序。
培養(yǎng)關(guān)于語(yǔ)言及其工具更深度的理解。了解領(lǐng)域內(nèi)專家的工作。
接觸源代碼。
開(kāi)始著手寫出適合自己練手的一些小項(xiàng)目。
能夠參與到一些公司中的項(xiàng)目，對(duì)于自己的Python編程學(xué)習(xí)是非常有益處的，可以更好的提高自己的能力。
學(xué)會(huì)不斷的總結(jié)和反思，試著可以撰寫一些博客，記錄下自己的技術(shù)分享，也是進(jìn)步的一種方式。

評(píng)論0 贊同0

加載中...

SwordFly

回答于2022-06-22 19:52

Python 是一門開(kāi)發(fā)語(yǔ)言

爬蟲(chóng)指的是利用程序在網(wǎng)上抓取信息。

用python 可以快速方便的編寫爬蟲(chóng)程序。

想要入門Python 爬蟲(chóng)首先需要解決四個(gè)問(wèn)題

熟悉python編程

了解HTML

了解網(wǎng)絡(luò)爬蟲(chóng)的基本原理

學(xué)習(xí)使用python爬蟲(chóng)庫(kù)

網(wǎng)絡(luò)爬蟲(chóng)，其實(shí)叫作網(wǎng)絡(luò)數(shù)據(jù)采集更容易理解。

就是通過(guò)編程向網(wǎng)絡(luò)服務(wù)器請(qǐng)求數(shù)據(jù)（HTML表單），然后解析HTML，提取出自己想要的數(shù)據(jù)。

歸納為四大步：

根據(jù)url獲取HTML數(shù)據(jù)

解析HTML，獲取目標(biāo)信息

存儲(chǔ)數(shù)據(jù)

重復(fù)第一步

你需要做的是：

1.學(xué)習(xí)python 基礎(chǔ)

2.了解html的基礎(chǔ)知識(shí)

3.熟悉爬蟲(chóng)庫(kù)

4.開(kāi)始寫吧

評(píng)論0 贊同0

加載中...

dingda

回答于2022-06-22 19:52

爬蟲(chóng)就是利用爬蟲(chóng)技術(shù)去抓取各論壇、網(wǎng)站數(shù)據(jù)，將所需數(shù)據(jù)保存到數(shù)據(jù)庫(kù)或是特定格式文件。

具體學(xué)習(xí)：

1）首先是學(xué)習(xí)Python基本常識(shí)學(xué)習(xí)，了解網(wǎng)絡(luò)請(qǐng)求原理、網(wǎng)頁(yè)結(jié)構(gòu)。

3）網(wǎng)站實(shí)際操作，在具備爬蟲(chóng)思想之后多找一些網(wǎng)站進(jìn)行操作。

評(píng)論0 贊同0

加載中...

wwq0327

回答于2022-06-22 19:52

Python 是一門開(kāi)發(fā)語(yǔ)言，爬蟲(chóng)指的是利用程序在網(wǎng)上抓取信息。用python 可以快速方便的編寫爬蟲(chóng)程序。Python的語(yǔ)法非常接近英語(yǔ)，風(fēng)格統(tǒng)一，非常優(yōu)美，而且內(nèi)置了很多高效的工具。Python語(yǔ)言可以作為一種輕量級(jí)的語(yǔ)言開(kāi)發(fā)，可以從桌面應(yīng)用、WEB開(kāi)發(fā)、自動(dòng)化測(cè)試運(yùn)維、爬蟲(chóng)、人工智能、大數(shù)據(jù)處理都能做，應(yīng)用非常廣泛。作為學(xué)習(xí)Python中，首先要學(xué)會(huì)爬取數(shù)據(jù)。數(shù)據(jù)大部分來(lái)源于網(wǎng)絡(luò)，好好掌握requests、scrapy、selenium、beautifulSoup，這些庫(kù)都是寫網(wǎng)絡(luò)爬蟲(chóng)必需的。通俗的來(lái)講就是，可以把互聯(lián)網(wǎng)看成一張非常大的蜘蛛網(wǎng)，所有互聯(lián)網(wǎng)的資源中，每個(gè)站點(diǎn)資源相比于蜘蛛網(wǎng)上的一個(gè)結(jié)點(diǎn)，按照已經(jīng)設(shè)定好的規(guī)則和方法路徑在互聯(lián)網(wǎng)上尋找目標(biāo)結(jié)點(diǎn)，以便獲取資源。學(xué)習(xí)python處理自學(xué)以外，個(gè)人建議還是報(bào)班學(xué)習(xí)比較穩(wěn)妥，百戰(zhàn)就特別好，在百戰(zhàn)學(xué)習(xí)python，不僅課程是從零基礎(chǔ)向高級(jí)階段的完整版就業(yè)課程，師資更是一流，都是行業(yè)內(nèi)頂級(jí)大佬專業(yè)授課的，學(xué)習(xí)過(guò)程中班主任和技術(shù)老師全程監(jiān)督輔導(dǎo)，學(xué)完以后還有就業(yè)推薦

評(píng)論0 贊同0

加載中...

ConardLi

回答于2022-06-22 19:52

Python是什么

python是一門跨平臺(tái)、開(kāi)源、免費(fèi)的編程語(yǔ)言，語(yǔ)法簡(jiǎn)單清晰，被廣泛應(yīng)用于各個(gè)領(lǐng)域，如，桌面開(kāi)發(fā)應(yīng)用、游戲開(kāi)發(fā)、網(wǎng)站（web）開(kāi)發(fā)、網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)統(tǒng)計(jì)分析、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能等。

什么是爬蟲(chóng)

爬蟲(chóng)可以看成是一段自動(dòng)提取網(wǎng)頁(yè)的程序，常用來(lái)在互聯(lián)網(wǎng)上爬取一些數(shù)據(jù)或者文件。常見(jiàn)的一些框架有scrapy、selenium、pyspider等，都可以了解下，提高寫爬蟲(chóng)的效率。當(dāng)然寫爬蟲(chóng)這塊，還需要一些html、xpath、正則表達(dá)式等基礎(chǔ)知識(shí)作為基礎(chǔ)。

那么怎么學(xué)習(xí)呢

首先選擇python的版本?，F(xiàn)在使用最多的基本上是python3，python2和python3之間互不兼容，所以在選擇的時(shí)候，可以結(jié)合自己的需求來(lái)選。

其次選擇適合自己的開(kāi)發(fā)工具。比如python常用的開(kāi)發(fā)工具有：pycharm、Visual Studio Code、Sublime Text、anaconda，但是比較推薦使用pycharm。

最后，可以在網(wǎng)上找一些教程文檔或視頻，先把基礎(chǔ)的語(yǔ)法學(xué)習(xí)一遍，然后可以跟著寫一些python小項(xiàng)目案例，來(lái)提高自己的編程能力。

評(píng)論0 贊同0

加載中...

pakolagij

回答于2022-06-22 19:52

利用爬蟲(chóng)，我們可以獲取大量的價(jià)值數(shù)據(jù)，經(jīng)分析可以發(fā)揮巨大的價(jià)值，比如后臺(tái)開(kāi)發(fā)、web開(kāi)發(fā)、科學(xué)計(jì)算等等。爬蟲(chóng)對(duì)于初學(xué)者而言更友好，原理相對(duì)簡(jiǎn)單，幾行代碼就能實(shí)現(xiàn)基本的爬蟲(chóng)。在學(xué)習(xí)爬蟲(chóng)的路上應(yīng)該注意那幾點(diǎn)呢？和神龍HTTP一起看看吧

1.學(xué)習(xí) Python 包并實(shí)現(xiàn)基本的爬蟲(chóng)過(guò)程

大部分爬蟲(chóng)都是按“發(fā)送請(qǐng)求——獲得頁(yè)面——解析頁(yè)面——抽取并儲(chǔ)存內(nèi)容”這樣的流程來(lái)進(jìn)行，這其實(shí)也是模擬了我們使用瀏覽器獲取網(wǎng)頁(yè)信息的過(guò)程。

Python中爬蟲(chóng)相關(guān)的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開(kāi)始，requests 負(fù)責(zé)連接網(wǎng)站，返回網(wǎng)頁(yè)，Xpath 用于解析網(wǎng)頁(yè)，便于抽取數(shù)據(jù)。

如果你用過(guò) BeautifulSoup，會(huì)發(fā)現(xiàn) Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來(lái)基本套路都差不多，一般的靜態(tài)網(wǎng)站根本不在話下，像豆瓣、糗事百科等基本上都可以上手了。

2.掌握各種技巧，應(yīng)對(duì)特殊網(wǎng)站的反爬措施

當(dāng)然，爬蟲(chóng)過(guò)程中也會(huì)經(jīng)歷一些問(wèn)題啊，比如被網(wǎng)站封IP、比如各種奇怪的驗(yàn)證碼、userAgent訪問(wèn)限制、各種動(dòng)態(tài)加載等等。

遇到這些反爬蟲(chóng)的手段，當(dāng)然還需要一些高級(jí)的技巧來(lái)應(yīng)對(duì)，常規(guī)的比如訪問(wèn)頻率控制、使用代理IP池、抓包、驗(yàn)證碼的OCR處理等等。

其中代理IP的選擇尤為重要，好的代理IP質(zhì)量穩(wěn)定、匿名度高，可以幫助我們更好的完成爬蟲(chóng)任務(wù)。像神龍HTTP代理，IP質(zhì)量硬，數(shù)量多，IP池覆蓋國(guó)內(nèi)大部分城市地區(qū)，更有工作人員7x24小時(shí)在線，隨時(shí)幫你解決問(wèn)題。

3.學(xué)習(xí) scrapy，搭建工程化的爬蟲(chóng)

掌握前面的技術(shù)一般量級(jí)的數(shù)據(jù)和代碼基本沒(méi)有問(wèn)題了，但是在遇到非常復(fù)雜的情況，可能仍然會(huì)力不從心，這個(gè)時(shí)候，強(qiáng)大的 scrapy 框架就非常有用了。

scrapy 是一個(gè)功能非常強(qiáng)大的爬蟲(chóng)框架，它不僅能便捷地構(gòu)建request，還有強(qiáng)大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲(chóng)工程化、模塊化。

學(xué)會(huì) scrapy，你可以自己去搭建一些爬蟲(chóng)框架，你就基本具備爬蟲(chóng)工程師的思維了。

4.學(xué)習(xí)數(shù)據(jù)庫(kù)基礎(chǔ)，應(yīng)對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ)

爬回來(lái)的數(shù)據(jù)量小的時(shí)候，你可以用文檔的形式來(lái)存儲(chǔ)，一旦數(shù)據(jù)量大了，這就有點(diǎn)行不通了。所以掌握一種數(shù)據(jù)庫(kù)是必須的，學(xué)習(xí)目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲(chǔ)一些非結(jié)構(gòu)化的數(shù)據(jù)，比如各種評(píng)論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

以上就是學(xué)習(xí)爬蟲(chóng)需要注意的事項(xiàng)，希望對(duì)大家有所幫助

評(píng)論0 贊同0

加載中...

monw3c

回答于2022-06-22 19:52

您好，很高興在這里交流。

我們從爬蟲(chóng)的定義以及對(duì)應(yīng)的學(xué)習(xí)路線來(lái)整體闡述。

1. 爬蟲(chóng)是什么？

網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則，自動(dòng)的抓取網(wǎng)頁(yè)信息的程序或者腳本。

2. 學(xué)習(xí)爬蟲(chóng)需要掌握的基礎(chǔ)知識(shí)

2.1 Python基礎(chǔ)

初始Python：

http://www.imooc.com/learn/177

廖雪峰：

https://www.liaoxuefeng.com/wiki/897692888725344

菜鳥(niǎo)教程：

http://www.runoob.com/python3

簡(jiǎn)明Python教程

https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01

2.2 Python urllib和urllib2 庫(kù)的用法

https://www.liaoxuefeng.com/wiki/1016959663602400/1019223241745024

2.3 Python正則表達(dá)式

https://docs.python.org/zh-cn/3/library/re.html

2.4 Python爬蟲(chóng)框架Scrapy

https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

3. 爬蟲(chóng)案例

3.1 Python爬蟲(chóng)實(shí)戰(zhàn)一之爬取糗事百科段子

https://cuiqingcai.com/993.html

3.2 Python爬蟲(chóng)實(shí)戰(zhàn)四之抓取淘寶MM照片

https://cuiqingcai.com/1001.html

加油，祝一切順利。

評(píng)論0 贊同0

加載中...

Noodles

回答于2022-06-22 19:52

Python爬蟲(chóng)也叫做網(wǎng)絡(luò)機(jī)器人，可以代替人們自動(dòng)地在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理。在大數(shù)據(jù)時(shí)代，信息的采集是一項(xiàng)重要的工作，如果單純靠人力進(jìn)行信息采集，不僅低效繁瑣，搜集的成本也會(huì)提高。推薦去中公教育優(yōu)就業(yè)學(xué)習(xí)

評(píng)論0 贊同0

加載中...

yanest

男|

我要關(guān)注我要私信

TA的文章

問(wèn)答專欄Q & A COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python是什么，什么是爬蟲(chóng)？具體該怎么學(xué)習(xí)？

寫回答

10條回答

回答于2022-06-22 19:52

回答于2022-06-22 19:52

回答于2022-06-22 19:52

Python語(yǔ)言的由來(lái)

什么是爬蟲(chóng)

如何學(xué)習(xí)Python

回答于2022-06-22 19:52

回答于2022-06-22 19:52

回答于2022-06-22 19:52

回答于2022-06-22 19:52

Python是什么

什么是爬蟲(chóng)

那么怎么學(xué)習(xí)呢

回答于2022-06-22 19:52

回答于2022-06-22 19:52

回答于2022-06-22 19:52

相關(guān)問(wèn)題

男|

TA的文章

最新活動(dòng)

您已邀請(qǐng)0人回答 查看邀請(qǐng)

我的邀請(qǐng)列表

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python是什么，什么是爬蟲(chóng)？具體該怎么學(xué)習(xí)？

您已邀請(qǐng)0人回答查看邀請(qǐng)