摘要:課程的第單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把中的改為就會出錯,原因年各校排名數字的格式為而年各校排名數字的格式為,針對這個問題,我對嵩天老師的代碼做了一點修改,可能不是很漂亮,但是實現了功能我很開心。
本文是學習http://www.icourse163.org/lea... 課程的代碼實現和反思。
課程的第6單元中嵩天老師給出的“中國大學排名爬蟲”優化代碼如果把url中的2016改為2017就會出錯,原因:2016年各校排名數字的html格式為
import requests, bs4, re from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find("tbody").children: if isinstance(tr, bs4.element.Tag): yield tr #用到了生成器 def peidui(ulist, html): xlt = re.findall(r"d{1,4}? ",html) #用到了最小匹配 for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環2個變量用到了zip tds = tr("td") ulist.append([i.replace(" ",""), tds[1].string, tds[3].string]) def printUnivList(ulist, num): tplt = "{0:^10} {1:{3}^10} {2:^10}" print(tplt.format("排名","學校名稱","總分",chr(12288))) for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288))) def main(): uinfo = [] url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html" html = getHTMLText(url) peidui(uinfo, html) printUnivList(uinfo, 20) main() 運行結果如下:
排名來自最好大學網,只是作為爬蟲練習使用,覺得排名不合適的網友勿噴。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/51658.html
相關文章
2017中國大學排名爬蟲代碼修改
摘要:課程的第單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把中的改為就會出錯,原因年各校排名數字的格式為而年各校排名數字的格式為,針對這個問題,我對嵩天老師的代碼做了一點修改,可能不是很漂亮,但是實現了功能我很開心。 本文是學習http://www.icourse163.org/lea... 課程的代碼實現和反思。 課程的第6單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把url中的2...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學排名表格爬取出來,并存入到中。本次分享將用的來實現相同的功能,并將爬取到的數據存入到數據庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學排名表格爬取出來,并存入到My...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學排名表格爬取出來,并存入到中。本次分享將用的來實現相同的功能,并將爬取到的數據存入到數據庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學排名表格爬取出來,并存入到My...
中國公有云廠商2018年收入利潤綜合排名詳細解讀
摘要:可見,實際公布的中國公有云供應商年收入利潤排名榜單是按照綜合業務收入來計算,并非只是純粹的公有云業務。數據顯示,年至年中國公有云市場年均復合增長率將達。這些中國公有云廠商名單,據阿明不完全統計,總計為家。他們說:看過排名更懂云了……做這個排名之前,首先需要說明一下這次估算和統計的公有云供應商的業務范圍,包括了這些云供應商的公有云、CDN、IDC、私有云、混合云、與云相關的集成項目,共計六項主...
發表評論
0條評論
Cruise_Chan
男|高級講師
TA的文章
閱讀更多
如何選擇云虛擬主機-該怎么選擇合適自己的云虛擬主機?
閱讀 1148·2021-09-22 15:43
華為如何上傳文件到windows云主機-云主機怎么上傳程序呢?
閱讀 2345·2021-09-22 15:32
主機指的是什么-通常所說的主機是指什么?
閱讀 4455·2021-09-22 15:11
CSS居中總結大全
閱讀 2188·2019-08-30 15:55
CSS+DIV自適應布局
閱讀 2564·2019-08-30 15:54
浮動定位之三列布局問題與發現(下)
閱讀 984·2019-08-30 15:44
前端面試總結——持續更新
閱讀 1095·2019-08-29 13:26
CSS 公共樣式分享
閱讀 794·2019-08-29 12:54
閱讀需要支付1元查看