使用lxml代替beautifulsoup

Drinkey 發布于2019-07-25 10:28 / 1987人閱讀

摘要：深入使用過的都會深深地喜歡上它雖然很流行但是深入了解后你就再也不會使用了我覺得不好用速度也慢雖然可以使用作為解析器了另外這種簡直就是手工時代的操作很多人使用這幾個函數其實它們使用起來不是很愉快手工操作的另一個特征是需要自己手寫正則表達式正則

深入使用過lxml的都會深深地喜歡上它,雖然BeautifulSoup很流行,但是深入了解lxml后,你就再也不會使用bs了

我覺得beautifulsoup不好用,速度也慢(雖然可以使用lxml作為解析器了).另外soup.find_all這種簡直就是手工時代的操作(很多人使用find find_all這幾個函數, 其實它們使用起來不是很愉快),手工操作的另一個特征是需要自己手寫正則表達式(正則是一個小范圍內的軍刀,大范圍用是不對的)

多使用soup.select才是正確的選擇, 多簡單方便.

爬蟲對html頁面做的操作,大部分時候在選取東西,find_all還要自己手工去寫(比如手工寫正則表達式, it"s a hell).

使用XPath以及CSS選擇器才是明智的選擇,這兩者,瀏覽器都可以幫我們自動生成,何樂不為?

另外,lxml用起來舒服多了,速度也不錯.

另外,lxml安裝是一個難題,常有很多錯誤,令人望而生畏,這里提供兩種方法

Windows平臺: 使用Anaconda集成安裝包,無腦解決

Ubuntu平臺: sudo apt-get install python-lxml無腦解決
我從不覺得去自己解決lxml在這些平臺的安裝有什么很大價值,反而容易令人自我懷疑.(寶貴的時間為何要浪費在這種事情上面?)

下面就來一個示例:

#####################
#  獲取SF首頁的標題
#####################
from lxml.etree import HTML
import requests


url = "https://segmentfault.com/"
css_selector = ".title>a"  #這是利用瀏覽器自動獲取的,我甚至都不用知道它是什么意思

text = requests.get(url).text
page = HTML(text)

titles = []
for title in page.cssselect(css_selector):
    titles.append(title.text)
    
print titles

# 這一段程序寫下來,不用動腦筋(無腦寫),不消耗心智

利用瀏覽器獲取XPath/CSS選擇器的方法:
1. 推薦使用Firefox, 比Chrome強大太多
2. 右鍵元素-->copy XPath

GPU云服務器云服務器 BeautifulSoup lxml readability-lxml 代替Cdn

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37986.html

Python3網絡爬蟲實戰---29、解析庫的使用：BeautifulSoup

摘要：解析器在解析的時候實際上是依賴于解析器的，它除了支持標準庫中的解析器，還支持一些第三方的解析器比如，下面我們對支持的解析器及它們的一些優缺點做一個簡單的對比。上一篇文章：Python3網絡爬蟲實戰---28、解析庫的使用：XPath下一篇文章：Python3網絡爬蟲實戰---30、解析庫的使用：PyQuery 前面我們介紹了正則表達式的相關用法，但是一旦正則寫的有問題，可能得到的就...

MockingBird 2019-07-31 10:35 評論0 收藏0
Python3網絡爬蟲實戰---4、數據庫的安裝：MySQL、MongoDB、Redis

摘要：運行結果如果運行結果一致則證明安裝成功。上一篇文章網絡爬蟲實戰請求庫安裝下一篇文章網絡爬蟲實戰數據庫的安裝上一篇文章：Python3網絡爬蟲實戰---2、請求庫安裝：GeckoDriver、PhantomJS、Aiohttp下一篇文章：Python3網絡爬蟲實戰---數據庫的安裝：MySQL、MongoDB、Redis 抓取下網頁代碼之后，下一步就是從網頁中提取信息，提取信息的方式有...

xbynet 2019-07-31 10:33 評論0 收藏0
Python爬蟲筆記4-BeautifulSoup使用

摘要：方法作用查找所有符合條件的元素，返回的是列表形式參數可以根據節點名來查找元素。示例查詢第一個標簽查找第一個節點內容中有字符串的節點內容運行結果關于的使用就這樣吧，常用個人就覺得用好即可參考鏈接崔慶才網絡爬蟲開發實戰使用 BeautifulSoup介紹與lxml一樣，BeautifulSoup也是一個HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML數據。幾種解析工...

fobnn 2019-07-31 10:10 評論0 收藏0
BeautifulSoup：網頁解析利器上手簡介

摘要：文檔寫得很清楚，也有中文版，你只要看了最初的一小部分，就可以在代碼中派上用場了。關于爬蟲的案例和方法，我們已講過許多。不過在以往的文章中，大多是關注在如何把網頁上的內容抓取下來。今天我們來分享下，當你已經把內容爬下來之后，如何提取出其中你需要的具體信息。網頁被抓取下來，通常就是 str 字符串類型的對象，要從里面尋找信息，最直接的想法就是直接通過字符串的 find 方法 ...

Carl 2019-07-31 10:09 評論0 收藏0
BeautifulSoup 使用指北 - 0x01_概覽

摘要：，所有筆記均托管于倉庫。是一個用來從或文件中提取數據的庫。如果對速度有嚴格要求，應直接使用庫來解析。對而言，解析器的速度比或更快。可以通過安裝庫來顯著提升檢測編碼方案的速度。 GitHub@orca-j35，所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉載，但請務必注明出處。概述 ?官方文檔中混雜了 Py2 和 Py3 的術語和代碼，本筆記針對 Py3 梳理了文檔...

jay_tian 2019-07-31 11:27 評論0 收藏0