Python爬蟲Xpath定位數據的兩種方法

89542767 發布于2022-11-05 16:08 / 805人閱讀

　　小編寫這篇文章的主要目的，就是給大家介紹關于Python的一些總結，比如使用Python爬蟲Xpath定位數據，那么，在定位數據的時候，有兩種方法，具體有什么方法介紹呢？下面就給大家詳細的解答下。

　　方法一：直接右鍵，將文章路徑復制下來點擊Copy full Xpath

　　使用selenium+lxml中的etree進行配合使用，使用etree解析html網頁

　　import requests
　　from lxml import etree
　　import time
　　import socket
　　import csv
　　from selenium import webdriver
　　from configparser import ConfigParser
　　from selenium.webdriver import Chrome
　　from selenium.webdriver import ChromeOptions
　　#禁止圖片和css加載
　　chrome_options=webdriver.ChromeOptions()
　　prefs={"profile.managed_default_content_settings.images":2}
　　chrome_options.add_experimental_option("prefs",prefs)
　　option=ChromeOptions()
　　option.add_experimental_option('excludeSwitches',['enable-automation'])
　　#如果想加載圖片，就把下面第二句話改第一句話，刪掉上面的“禁止圖片和css加載”部分
　　#wb=Chrome(options=option)
　　wb=webdriver.Chrome(options=chrome_options)
　　#最大化窗口、輸入網址、等待至網頁加載完成（防止元素還沒加載出來就開始爬了這樣自然爬不到數據。如果一直加載不出就等10秒，加載好了就立刻結束等待）
　　wb.maximize_window()
　　wb.get("https://www.tianyancha.com/")
　　wb.implicitly_wait(5)
　　然后獲取網頁數據，這里表明哪怕后面出錯了，仍然可以延續wb的位置繼續控制瀏覽器
　　data=wb.page_source
　　time.sleep(3)
　　data=wb.page_source
　　time.sleep(3)
　　page_all.append(data)
　　html=etree.HTML(data)
　　company=html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
　　print(company)

　　方法二：使用制定標簽屬性，搜索指定位置

　　這樣的好處就是，對于批量處理的網頁，有的標簽位置不在同一個地方，那么我們就是不使用全Xpath路徑，而使用相對路徑，用制定某種屬性的標簽，下載相關數據

　　"//div[class='mainArea']/ul/li"

　　使用//div[class=‘mainArea’]的意思是：從根部（//）查找class值為mainArea的Node.

　　所以，那么就很簡單了//某元素[class=‘CLASS值’]

　　大家可以按照這個公式來查找class的元素了。

　　剩下的/ul/li表示的是，繼續查找class='mainArea’的div包括的ul元素下面的li節點集合。

　　這篇內容就為大家介紹到這里了，希望可以給大家帶來更多幫助。

云服務器 GPU云服務器數據統計的兩種方法 json的兩種結構】最優生成樹的兩種算法域名解析的兩種主要方式為

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/128254.html

Python 從零開始爬蟲(八)——動態爬取解決方案之 selenium

摘要：然而讓蟲師們垂涎的并不是以上的種種，而是其通過驅動瀏覽器獲得的解析的能力。所以說這貨在動態爬取方面簡直是掛逼級別的存在，相較于手動分析更簡單易用，節省分析打碼時間。一旦設置了隱式等待時間，它的作用范圍就是對象實例的整個生命周期。 selenium——自動化測試工具，專門為Web應用程序編寫的一個驗收測試工具，測試其兼容性，功能什么的。然而讓蟲師們垂涎的并不是以上的種種，而是其通過驅動瀏...

fobnn 2019-07-30 17:11 評論0 收藏0
爬蟲入門到精通-網頁的解析（xpath）

摘要：起初的提出的初衷是將其作為一個通用的介于與間的語法模型。的基本使用要使用我們需要下載，在爬蟲入門到精通環境的搭建這一章也說明怎么裝，如果還沒有安裝的話，那就去下載安裝吧直接看代碼實戰吧。本文章屬于爬蟲入門到精通系統教程第六講在爬蟲入門到精通第五講中，我們了解了如何用正則表達式去抓取我們想要的內容.這一章我們來學習如何更加簡單的來獲取我們想要的內容. xpath的解釋 XPath即為...

ispring 2019-07-25 11:45 評論0 收藏0
Python3網絡爬蟲實戰---28、解析庫的使用：XPath

摘要：上一篇文章網絡爬蟲實戰與正則表達式抓取貓眼電影排行下一篇文章網絡爬蟲實戰解析庫的使用上一節我們實現了一個最基本的爬蟲，但提取頁面信息時我們使用的是正則表達式，用過之后我們會發現構造一個正則表達式還是比較的繁瑣的，而且萬一有一點地上一篇文章：Python3網絡爬蟲實戰---27、Requests與正則表達式抓取貓眼電影排行下一篇文章：Python3網絡爬蟲實戰---29、解析庫的使用：...

abson 2019-07-31 10:35 評論0 收藏0
Selenium+python親測爬蟲工具爬取年度電影榜單

摘要：介紹是一個用于應用程序測試的工具，測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。支持的瀏覽器包括，，，，，等，它在的領域里的引用能使初學者大大的省去解析網頁中代加密的一些麻煩。 Selenium介紹 Selenium 是一個用于Web應用程序測試的工具，Selenium測試直接運行在瀏覽...

Jiavan 2021-09-04 16:40 評論0 收藏0
Python 從零開始爬蟲(九)——模擬登錄，cookie的使用

摘要：所以只要得到登錄后的并必要時進行更新，服務器就會認定其為登錄狀態?？纯慈思抑?，加密到連名字都沒有了，還混淆，如何下手綜上，適用于沒有加密的登錄或者加密算法比較簡單并且不常更新的網站。遇上無解的加密算法要么手操拷貝，要么請大佬出場。某些網站，登錄和沒登錄，用戶的權限是不一樣的，帳號登錄之后才能獲取更多的信息。更有甚者一上來就是登錄界面，不登錄就不給你進去（如p站）。爬取目標不用登錄固...

edgardeng 2019-07-30 17:14 評論0 收藏0