摘要:在這里我表示所有不經(jīng)驗(yàn)證的轉(zhuǎn)載都是耍流氓,把一篇篇錯(cuò)誤的文章轉(zhuǎn)載的到處都是,不知道浪費(fèi)了多少人的時(shí)間精力去反復(fù)調(diào)試錯(cuò)誤的代碼,尤其是對(duì)初學(xué)者有極大的打擊性。
寫在前面
本人的所有文章只適合善于使用百度的人,因?yàn)樗谢A(chǔ)知識(shí)個(gè)個(gè)博客復(fù)制粘貼了無(wú)數(shù)遍,我這里均不會(huì)詳細(xì)講述。
在這里我表示所有不經(jīng)驗(yàn)證的轉(zhuǎn)載都是耍流氓,把一篇篇錯(cuò)誤的文章轉(zhuǎn)載的到處都是,不知道浪費(fèi)了多少人的時(shí)間精力去反復(fù)調(diào)試錯(cuò)誤的代碼,尤其是對(duì)初學(xué)者有極大的打擊性。
大家在學(xué)習(xí)python爬蟲的過(guò)程中,會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題,語(yǔ)法我看完了,說(shuō)的也很詳細(xì),我也認(rèn)真看了,爬蟲還是不會(huì)寫,或者沒(méi)有思路,所以我的所有文章都會(huì)從實(shí)例的角度來(lái)解析一些常見的問(wèn)題和報(bào)錯(cuò)。
回歸正題,大家暈頭轉(zhuǎn)腦的看完繁雜的語(yǔ)法之后,已經(jīng)迫不及待寫點(diǎn)什么東西了,然后部分同學(xué)可能遇到了這個(gè)
或者類似 Element a at 0x???????,這樣的一個(gè)值,然后大家?guī)е鴨?wèn)題去搜,然后全是英文啊,什么一大堆亂七八糟的啊,英文不好的同學(xué)就崩潰了,在這里,我會(huì)重點(diǎn)解析一下
某種意義上來(lái)說(shuō),當(dāng)你打印變量的時(shí)候得到的這個(gè)值,其實(shí)它是一個(gè)列表,然后列表中的每一個(gè)值都是一個(gè)字典
如何使用理解請(qǐng)看半成品開車實(shí)例,證明了本人非常擅長(zhǎng)把學(xué)習(xí)和樂(lè)趣結(jié)合起來(lái)并且切身解決日常需求,滑稽臉.jpg
from bs4 import BeautifulSoup from lxml import etree import requests gjc="SHKD-700" #定義URL html = "http://www.btanv.com/search/"+gjc+"-hot-desc-1" #解碼URL html = requests.get(html).content.decode("utf-8") #解析成xml dom_tree = etree.HTML(html) #在xml中定位節(jié)點(diǎn),返回的是一個(gè)列表 links = dom_tree.xpath("http://a[@class="download"]") for index in range(len(links)): # links[index]返回的是一個(gè)字典 if (index % 2) == 0: print(links[index].tag) print(links[index].attrib) print(links[index].text)實(shí)例解析
下面重點(diǎn)看看這個(gè)代碼,
print(links[index]) print(type(links[index])) print(links[index].tag)#獲取標(biāo)簽名a print(links[index].attrib)#獲取標(biāo)簽的屬性href和class print(links[index].text)#獲取標(biāo)簽的文字部分
打印出來(lái)的是
a {"href": "magnet:?xt=urn:btih:7502edea0dfe9c2774f95118db3208a108fe10ca", "class": "download"} 磁力鏈接
該節(jié)點(diǎn)的html代碼為
磁力鏈接
看到這里大家應(yīng)該就非常獸血沸騰的了解了三個(gè)屬性的用法了。
總結(jié)Element類型是"lxml.etree._Element",某種意義來(lái)說(shuō)同時(shí)是一個(gè)列表
列表的需要使用tagattrib ext三個(gè)不同的屬性來(lái)獲取我們需要的東西
變量.tag獲取到的是標(biāo)簽名是---字符串
變量.attrib獲取到的是節(jié)點(diǎn)標(biāo)簽a的屬性---字典
變量.text獲取到的是標(biāo)簽文本--字符串
歡迎收藏點(diǎn)贊,拒絕轉(zhuǎn)載,因?yàn)槟壳拔乙彩亲詫W(xué)向前摸索,這些都是我目前認(rèn)知到的東西,肯定有講的不準(zhǔn)確的地方,不希望會(huì)誤導(dǎo)到他人
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41149.html
小編寫這篇文章的主要目的,主要是給大家去做一個(gè)相關(guān)的介紹,介紹的內(nèi)容是關(guān)于Python通用驗(yàn)證碼的一些相關(guān)小技巧,包括有通用驗(yàn)證碼識(shí)別相關(guān)的OCR庫(kù),同時(shí)也會(huì)給大家介紹一些內(nèi)容,介紹包括OCR庫(kù)ddddocr安裝使用教程,下面小編就給大家詳細(xì)解答下。 前言 在使用自動(dòng)化登錄網(wǎng)站的時(shí)候,經(jīng)常輸入用戶名和密碼后會(huì)遇到驗(yàn)證碼。今天介紹一款通用驗(yàn)證碼識(shí)別OCR庫(kù),對(duì)驗(yàn)證碼識(shí)別徹底說(shuō)拜拜,它的名字是...
小編寫這篇文章的主要目的,主要是講解一些關(guān)于python的事情,比如需要對(duì)圖片進(jìn)行批量壓縮,壓縮的方法還是比較的多的,那么,為了提高效率,怎么進(jìn)行批量壓縮呢?下面就給大家詳細(xì)解答下。 前言 最近在研究怎么對(duì)圖片資源進(jìn)行無(wú)損壓縮,網(wǎng)上也找了一些資料。總而言之,收獲不少,所以想對(duì)最近的學(xué)習(xí)做個(gè)總結(jié)。 無(wú)損壓縮其實(shí)是相對(duì)而言的,目的是為了減小圖片資源的內(nèi)存大小但又不影響圖片的顯示質(zhì)量。下面我將...
小編寫這篇文章的一個(gè)主要目的,主要是來(lái)給大家做一個(gè)解答,解答的內(nèi)容是Python+Selenium,具體的一個(gè)內(nèi)容解釋是什么呢?比如,我們可以實(shí)現(xiàn)Geoserver批量發(fā)布Mongo矢量數(shù)據(jù),具體的一個(gè)內(nèi)容,下面就給大家詳細(xì)解答下。 首先,聲明一下,這里我完成的腳步屬于半自動(dòng)化的,我戲稱它為有監(jiān)督的半自動(dòng)化腳本。具體原因后面會(huì)詳細(xì)說(shuō)明。 一、安裝Selenium和ChromeDriver ...
小編寫這篇文章的一個(gè)主要目的,主要是來(lái)給大家去做一個(gè)介紹,介紹的內(nèi)容主要是關(guān)于Python的一些知識(shí),其中的內(nèi)容包含有xpath,JsonPath,bs4等一些知識(shí),主要是去介紹他們的一些基本使用方法,具體的內(nèi)容,下面就給大家詳細(xì)解答下。 1.xpath 1.1 xpath使用 google提前安裝xpath插件,按ctrl+shift+x出現(xiàn)小黑框 安裝lxml庫(kù)pip instal...
閱讀 3785·2023-04-26 02:07
閱讀 3671·2021-10-27 14:14
閱讀 2859·2021-10-14 09:49
閱讀 1624·2019-08-30 15:43
閱讀 2611·2019-08-29 18:33
閱讀 2369·2019-08-29 17:01
閱讀 915·2019-08-29 15:11
閱讀 582·2019-08-29 11:06