Python3網絡爬蟲實戰---16、Web網頁基礎

netScorpion 發布于2019-07-31 10:34 / 3390人閱讀

摘要：，簡稱為，是一種腳本語言，和配合使用，提供給用戶的只是一種靜態的信息，缺少交互性。這就是網頁的三大基本組成。父節點擁有子節點，同級的子節點被稱為兄弟節點。選擇屬于其父節點的首個節點的每個節點。同上，從最后一個

上一篇文章：Python3網絡爬蟲實戰---15、爬蟲基礎：HTTP基本原理
下一篇文章：Python3網絡爬蟲實戰---17、爬蟲基本原理

我們平時用瀏覽器訪問網站的時候，一個個站點形形色色，頁面也各不相同，但有沒有想過它是為何才能呈現出這個樣子的？
那么本節我們就來了解一下網頁的基本組成、結構、節點等內容。

1. 網頁的組成

網頁可以分為三大部分，HTML、CSS、JavaScript，我們把網頁比作一個人的話，HTML 相當于骨架，JavaScript 則相當于肌肉，CSS 則相當于皮膚，三者結合起來才能形成一個完善的網頁，下面我們分別來介紹一下三部分的功能。

HTML

HTML 是用來描述網頁的一種語言，其全稱叫做 Hyper Text Markup Language，即超文本標記語言。網頁包括文字、按鈕、圖片、視頻等各種復雜的元素，其基礎架構就是 HTML。不同類型的文字通過不同類型的標簽來表示，如圖片用 img 標簽表示，視頻用 video 標簽來表示，段落用 p 標簽來表示，它們之間的布局又常通過布局標簽 div 嵌套組合而成，各種標簽通過不同的排列和嵌套才形成了網頁的框架。
我們在 Chrome 瀏覽器中打開百度，右鍵單擊審查元素或按 F12 打開開發者模式，切換到 Elements 選項卡即可看到網頁的源代碼，如圖 2-10 所示：

圖 2-10 源代碼
這就是 HTML，整個網頁就是由各種不同的標簽嵌套組合而成的，這些不同標簽定義的節點元素相互嵌套和組合形成了復雜的層次關系，就形成了網頁的架構。

CSS

HTML 定義了網頁的結構，但是只有 HTML 頁面的布局會不美觀，可能只是簡單的節點元素的排列，那么為了讓網頁看起來更好看一點，在這里就借助于 CSS。
CSS，全稱叫做 Cascading Style Sheets，即層疊樣式表。“層疊”是指當在 HTML 中引用了數個樣式文件，并且樣式發生沖突時，瀏覽器能依據層疊順序處理。“樣式”指網頁中文字大小、顏色、元素間距、排列等格式。
CSS是目前唯一的網頁頁面排版樣式標準，有了它的幫助，頁面才會變得更為美觀。
在上圖的右側即為 CSS，例如：

#head_wrapper.s-ps-islite .s-p-top {
??? position: absolute;
??? bottom: 40px;
??? width: 100%;
??? height: 181px;
}

這就是一個 CSS 樣式，在大括號前面是一個 CSS 選擇器，此選擇器的意思是選中 id 為 head_wrapper 且 class 為 s-ps-islite 內部的 class 為 s-p-top 的元素。大括號內部寫的就是一條條樣式規則，例如 position 指定了這個元素的布局方式為絕對布局，bottom 指定元素的下邊距為 40 像素，width 指定了寬度為 100% 占滿父元素，height 則指定了元素的高度。也就是說我們將一些位置、寬度、高度等樣式配置統一寫成這樣的形式，大括號括起來，然后開頭再加上一個 CSS 選擇器，就代表這一個樣式對 CSS 選擇器選中的元素生效，這樣元素就會根據此樣式來展示了。
所以在網頁中，一般會統一定義整個網頁的樣式規則，寫入到 CSS 文件，其后綴名為 css，在 HTML 中只需要用 link 標簽即可引入寫好的 CSS 文件，這樣整個頁面就會變得美觀優雅。

JavaScript

JavaScript，簡稱為 JS，是一種腳本語言，HTML 和 CSS 配合使用，提供給用戶的只是一種靜態的信息，缺少交互性。我們在網頁里可能會看到一些交互和動畫效果，如下載進度條、提示框、輪播圖等，這通常就是 JavaScript 的功勞。它的出現使得用戶與信息之間不只是一種瀏覽與顯示的關系，而是實現了一種實時、動態、交互的頁面功能。
JavaScript 通常也是以多帶帶的文件形式加載的，后綴名為 js，在 HTML 中通過 script 標簽即可引入。
例如：

因此綜上所屬，HTML 定義了網頁的內容和結構，CSS 描述了網頁的布局，JavaScript 定義了網頁的行為。
這就是網頁的三大基本組成。

2. 網頁的結構

我們首先用一個例子來感受一下 HTML 的基本結構。新建一個文本文件，名稱可以自取，后綴名為 html，內容如下：



    
        
        This is a Demo
    
    
        
            
                Hello World
                Hello, this is a paragraph.

這就是一個最簡單的 HTML 實例，開頭是 DOCTYPE 定義了文檔類型，其次最外層是 html 標簽，最后還有對應的結尾代表標簽閉合，其內部是 head 標簽和 body 標簽，分別代表網頁頭和網頁體，它們也分別需要尾標簽表示閉合。head 標簽內定義了一些頁面的配置和引用，如：

它指定了網頁的編碼為 UTF-8。
title 標簽則定義了網頁的標題，會顯示在網頁的選項卡中，不會顯示在網頁的正文中。body 標簽內則是在網頁正文中顯示的內容，div 標簽定義了網頁中的區塊，它的 id 是 container，這是一個非常常用的屬性，且 id 的內容在網頁中是唯一的，我們可以通過 id 來取到這個區塊。然后在此區塊內又有一個 div 標簽，它的 class 為 wrapper，這也是一個非常常用的屬性，經常與 CSS 配合使用來設定樣式。然后此區塊內部又有一個 h2 標簽，這代表一個二級標題，另外還有一個 p 標簽，這代表一個段落，它們二者內部直接寫入相應的內容即可在網頁重呈現出來，它們也有各自的 class 屬性。
我們將代碼保存之后在瀏覽器中打開該文件，可以看到如下內容，如圖 2-11 所示：

圖 2-11 運行結果
可以看到在選項卡上顯示了 This is a Demo 字樣，這是我們在 head 里面的 title 里定義的文字，它顯示在了網頁選項卡里。而網頁正文是 body 標簽內部定義的各個元素生成的，圖中可以看到網頁中顯示了二級標題和段落。
如上實例便是網頁的一般結構，一個網頁標準形式都是 html 標簽內嵌套 head 和 body 標簽，head 內定義網頁的配置和引用，body 內定義網頁的正文。

3. 節點及節點關系

在 HTML 中，所有標簽定義的內容都是節點，它們構成了一個 HTML DOM 樹。
我們先看下什么是 DOM，DOM 是 W3C（萬維網聯盟）的標準。
DOM，英文全稱 Document Object Model，即文檔對象模型。它定義了訪問 HTML 和 XML 文檔的標準：

W3C 文檔對象模型 （DOM） 是中立于平臺和語言的接口，它允許程序和腳本動態地訪問和更新文檔的內容、結構和樣式。

W3C DOM 標準被分為 3 個不同的部分：

核心 DOM - 針對任何結構化文檔的標準模型

XML DOM - 針對 XML 文檔的標準模型

HTML DOM - 針對 HTML 文檔的標準模型

根據 W3C 的 HTML DOM 標準，HTML 文檔中的所有內容都是節點：

整個文檔是一個文檔節點

每個 HTML 元素是元素節點

HTML 元素內的文本是文本節點

每個 HTML 屬性是屬性節點注釋是

注釋節點HTML

DOM 將 HTML 文檔視作樹結構，這種結構被稱為節點樹，如圖 2-12 所示：

圖 2-12 節點樹
通過 HTML DOM，樹中的所有節點均可通過 JavaScript 進行訪問，所有 HTML 節點元素均可被修改，也可以被創建或刪除。
節點樹中的節點彼此擁有層級關系。我們常用 parent（父）、child（子）和 sibling（兄弟）等術語用于描述這些關系。父節點擁有子節點，同級的子節點被稱為兄弟節點。
在節點樹中，頂端節點被稱為根（root），除了根節點之外每個節點都有父節點，同時可擁有任意數量的子節點或兄弟節點。
圖 2-13 展示了節點樹以及節點之間的關系：

圖 2-13 節點樹及節點關系
本段參考 W3SCHOOL，鏈接：http://www.w3school.com.cn/ht...。

4. 選擇器

我們知道網頁由一個個節點組成，CSS 選擇器會根據不同的節點設置不同的樣式規則，那么我們怎樣來定義是哪些節點呢？
在 CSS 中是使用了 CSS 選擇器來定位節點的，例如上例中有個 div 節點的 id 為 container，那么我們就可以用 CSS 選擇器表示為 #container，# 開頭代表選擇 id，其后緊跟 id 的名稱。另外如果我們想選擇 class 為 wrapper 的節點，便可以使用 .wrapper，. 開頭代表選擇 class，其后緊跟 class 的名稱。另外還有一種選擇方式是根據標簽名篩選，例如我們想選擇二級標題，直接用 h2 即可選擇。如上是最常用的三種選擇表示，分別是根據 id、class、標簽名篩選，請牢記它們的寫法。
另外 CSS 選擇器還支持嵌套選擇，各個選擇器之間加上空格分隔開便可以代表嵌套關系，如 #container .wrapper p 則代表選擇 id 為 container 內部的 class 為 wrapper 內部的 p 節點。另外如果不加空格則代表并列關系，如 div#container .wrapper p.text 代表選擇 id 為 container 的 div 節點內部的 class 為 wrapper 節點內部的 class 為 text 的 p 節點。這就是 CSS 選擇器，其篩選功能還是非常強大的。
另外 CSS 選擇器還有一些其他的語法規則，在這里整理如下：

選擇器	例子	例子描述
.class	.intro	選擇 class="intro" 的所有節點。
#id	#firstname	選擇 id="firstname" 的所有節點。
*	*	選擇所有節點。
element	p	選擇所有 p 節點。
element,element	div,p	選擇所有 div 節點和所有 p 節點。
element element	div p	選擇 div 節點內部的所有 p 節點。
element>element	div>p	選擇父節點為 div 節點的所有 p 節點。
element+element	div+p	選擇緊接在 div 節點之后的所有 p 節點。
[attribute]	[target]	選擇帶有 target 屬性所有節點。
[attribute=value]	[target=blank]	選擇 target="blank" 的所有節點。
[attribute~=value]	[title~=flower]	選擇 title 屬性包含單詞 "flower" 的所有節點。
:link	a:link	選擇所有未被訪問的鏈接。
:visited	a:visited	選擇所有已被訪問的鏈接。
:active	a:active	選擇活動鏈接。
:hover	a:hover	選擇鼠標指針位于其上的鏈接。
:focus	input:focus	選擇獲得焦點的 input 節點。
:first-letter	p:first-letter	選擇每個 p 節點的首字母。
:first-line	p:first-line	選擇每個 p 節點的首行。
:first-child	p:first-child	選擇屬于父節點的第一個子節點的每個 p 節點。
:before	p:before	在每個 p 節點的內容之前插入內容。
:after	p:after	在每個 p 節點的內容之后插入內容。
:lang(language)	p:lang	選擇帶有以 "it" 開頭的 lang 屬性值的每個 p 節點。
element1~element2	p~ul	選擇前面有 p 節點的每個 ul 節點。
[attribute^=value]	a[src^="https"]	選擇其 src 屬性值以 "https" 開頭的每個 a 節點。
[attribute$=value]	a[src$=".pdf"]	選擇其 src 屬性以 ".pdf" 結尾的所有 a 節點。
[attribute*=value]	a[src*="abc"]	選擇其 src 屬性中包含 "abc" 子串的每個 a 節點。
:first-of-type	p:first-of-type	選擇屬于其父節點的首個 p 節點的每個 p 節點。
:last-of-type	p:last-of-type	選擇屬于其父節點的最后 p 節點的每個 p 節點。
:only-of-type	p:only-of-type	選擇屬于其父節點唯一的 p 節點的每個 p 節點。
:only-child	p:only-child	選擇屬于其父節點的唯一子節點的每個 p 節點。
:nth-child(n)	p:nth-child	選擇屬于其父節點的第二個子節點的每個 p 節點。
:nth-last-child(n)	p:nth-last-child	同上，從最后一個子節點開始計數。
:nth-of-type(n)	p:nth-of-type	選擇屬于其父節點第二個 p 節點的每個 p 節點。
:nth-last-of-type(n)	p:nth-last-of-type	同上，但是從最后一個子節點開始計數。
:last-child	p:last-child	選擇屬于其父節點最后一個子節點每個 p 節點。
:root	:root	選擇文檔的根節點。
:empty	p:empty	選擇沒有子節點的每個 p 節點（包括文本節點）。
:target	#news:target	選擇當前活動的 #news 節點。
:enabled	input:enabled	選擇每個啟用的 input 節點。
:disabled	input:disabled	選擇每個禁用的 input 節點
:checked	input:checked	選擇每個被選中的 input 節點。
:not(selector)	p:not	選擇非 p 節點的每個節點。
::selection	::selection	選擇被用戶選取的節點部分。

另外還有一種比較常用的選擇器是 XPath，此種選擇方式在后文會詳細介紹。

5. 結語

本節介紹了網頁的基本結構和節點關系，了解了這些內容我們才有更加清晰的思路去解析和提取網頁內容。

上一篇文章：Python3網絡爬蟲實戰---15、爬蟲基礎：HTTP基本原理
下一篇文章：Python3網絡爬蟲實戰---17、爬蟲基本原理

云服務器 GPU云服務器 python3爬蟲實戰網絡爬蟲實戰 python3網絡爬蟲網絡爬蟲基礎

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/44052.html

Python3網絡爬蟲實戰---17、爬蟲基本原理

摘要：在前面我們講到了和的概念，我們向網站的服務器發送一個，返回的的便是網頁源代碼。渲染頁面有時候我們在用或抓取網頁時，得到的源代碼實際和瀏覽器中看到的是不一樣的。所以使用基本請求庫得到的結果源代碼可能跟瀏覽器中的頁面源代碼不太一樣。上一篇文章：Python3網絡爬蟲實戰---16、Web網頁基礎下一篇文章：Python3網絡爬蟲實戰---18、Session和Cookies 爬蟲，即網...

hellowoody 2019-07-31 10:34 評論0 收藏0
Python3網絡爬蟲實戰---15、爬蟲基礎：HTTP基本原理

摘要：上一篇文章網絡爬蟲實戰部署相關庫的安裝下一篇文章網絡爬蟲實戰網頁基礎在寫爬蟲之前，還是需要了解一些爬蟲的基礎知識，如原理網頁的基礎知識爬蟲的基本原理基本原理等。由萬維網協會和工作小組共同合作制定的規范，目前廣泛使用的是版本。上一篇文章：Python3網絡爬蟲實戰---14、部署相關庫的安裝：Scrapyrt、Gerapy下一篇文章：Python3網絡爬蟲實戰---16、Web網頁基礎...

codeGoogle 2019-07-31 10:34 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
Python3網絡爬蟲實戰---6、Web庫的安裝：Flask、Tornado

摘要：在本書中用到的一些服務程序主要有。本節來分別介紹它們的安裝方法。的安裝是一個輕量級的服務程序，簡單易用靈活，在本書中我們主要用它來做一些服務，本節我們來了解下它的安裝方式。相關鏈接官方文檔安裝執行完畢之后即可完成安裝。上一篇文章：Python3網絡爬蟲實戰---5、存儲庫的安裝:PyMySQL、PyMongo、RedisPy、RedisDump下一篇文章：Python3網絡爬蟲實戰-...

yeyan1996 2019-07-31 10:34 評論0 收藏0
Python3網絡爬蟲實戰---19、代理基本原理

摘要：所以使用代理隱藏真實的，讓服務器誤以為是代理服務器的在請求自己。參考來源由于涉及到一些專業名詞知識，本節的部分內容參考來源如下代理服務器維基百科代理百度百科上一篇文章網絡爬蟲實戰和下一篇文章網絡爬蟲實戰使用發送請求上一篇文章：Python3網絡爬蟲實戰---18、Session和Cookies下一篇文章：Python3網絡爬蟲實戰---20、使用Urllib：發送請求我們在做爬蟲...

gougoujiang 2019-07-31 10:34 評論0 收藏0