国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

BeautifulSoup 解析中文網(wǎng)頁亂碼問題

Miracle_lihb / 2385人閱讀

摘要:如果中文頁面編碼是,,在構(gòu)造器中傳入?yún)?shù)即可解決亂碼問題,即使分析的頁面是的頁面使用也不會(huì)出現(xiàn)亂碼問題轉(zhuǎn)自

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.leeon.me");
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()

如果中文頁面編碼是gb2312,gbk,在BeautifulSoup構(gòu)造器中傳入fromEncoding="gb18030"參數(shù)即可解決亂碼問題,即使分析的頁面是utf8的頁面使用gb18030也不會(huì)出現(xiàn)亂碼問題!

轉(zhuǎn)自:http://leeon.me/a/beautifulsoup-chinese-page-resolve

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37410.html

相關(guān)文章

  • BeautifulSoup網(wǎng)頁解析利器上手簡介

    摘要:文檔寫得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代碼中派上用場了。 關(guān)于爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關(guān)注在 如何把網(wǎng)頁上的內(nèi)容抓取下來 。今天我們來分享下,當(dāng)你已經(jīng)把內(nèi)容爬下來之后, 如何提取出其中你需要的具體信息 。 網(wǎng)頁被抓取下來,通常就是 str 字符串類型的對象 ,要從里面尋找信息,最直接的想法就是直接通過字符串的 find 方法 ...

    Carl 評論0 收藏0
  • 爬蟲問題總結(jié)

    摘要:編碼我們發(fā)現(xiàn),中有時(shí)候存在中文,這是就需要對進(jìn)行編碼。可以先將中文轉(zhuǎn)換成編碼,然后使用方法對參數(shù)進(jìn)行編碼后傳遞。 本文檔對日常學(xué)習(xí)中用 python 做數(shù)據(jù)爬取時(shí)所遇到的一些問題做簡要記錄,以便日后查閱,部分問題可能因?yàn)檎J(rèn)識不到位會(huì)存在一些誤解,敬請告知,萬分感謝,共同進(jìn)步。 估算網(wǎng)站規(guī)模 該小節(jié)主要針對于整站爬取的情況。爬取整站之前,肯定是要先對一個(gè)網(wǎng)站的規(guī)模進(jìn)行估計(jì)。這是可以使用g...

    nanfeiyan 評論0 收藏0
  • 新聞爬蟲倒騰筆記

    摘要:新聞爬蟲在列表頁獲取列表和時(shí)間材料,開發(fā)人員工具,插件,,安裝包使用開發(fā)人員工具分析網(wǎng)站右鍵或打開,刷新載入打開頁簽,點(diǎn)選第二排的小漏斗,點(diǎn)入頁面,因?yàn)樾侣劧加斜粰z索到的需要,所以一般情況下都可以在第一個(gè)文檔中找到需要的信息。 新聞爬蟲1.0 在列表頁獲取列表和時(shí)間 材料:Pycharm,Chrome開發(fā)人員工具,infoLite插件,bs4,request 安裝包 pip insta...

    April 評論0 收藏0
  • 爬蟲初級操作(一)

    摘要:一個(gè)對應(yīng)相應(yīng)的狀態(tài)碼,狀態(tài)碼表示協(xié)議所返回的響應(yīng)的狀態(tài)。下面將狀態(tài)碼歸結(jié)如下繼續(xù)客戶端應(yīng)當(dāng)繼續(xù)發(fā)送請求。繼續(xù)處理由擴(kuò)展的狀態(tài)碼,代表處理將被繼續(xù)執(zhí)行。處理方式丟棄該狀態(tài)碼不被的應(yīng)用程序直接使用,只是作為類型回應(yīng)的默認(rèn)解釋。 本篇內(nèi)容為 python 網(wǎng)絡(luò)爬蟲初級操作,內(nèi)容主要有以下 3 部分: python 關(guān)于爬蟲的一些基本操作和知識 靜態(tài)網(wǎng)頁抓取 動(dòng)態(tài)網(wǎng)頁抓取 基本操作和知識...

    Ocean 評論0 收藏0
  • Python爬蟲之自制英漢字典

    摘要:筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個(gè)玩玩首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個(gè)網(wǎng)站幫助我們做這件事情。 ??最近在微信公眾號中看到有人用Python做了一個(gè)爬蟲,可以將輸入的英語單詞翻譯成中文,或者把中文詞語翻譯成英語單詞。筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個(gè)玩玩~~??首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個(gè)網(wǎng)...

    graf 評論0 收藏0

發(fā)表評論

0條評論

Miracle_lihb

|高級講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<