摘要:課程的第單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把中的改為就會出錯,原因年各校排名數字的格式為而年各校排名數字的格式為,針對這個問題,我對嵩天老師的代碼做了一點修改,可能不是很漂亮,但是實現了功能我很開心。
本文是學習http://www.icourse163.org/lea... 課程的代碼實現和反思。
課程的第6單元中嵩天老師給出的“中國大學排名爬蟲”優化代碼如果把url中的2016改為2017就會出錯,原因:2016年各校排名數字的html格式為
import requests, bs4, re from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find("tbody").children: if isinstance(tr, bs4.element.Tag): yield tr #用到了生成器 def peidui(ulist, html): xlt = re.findall(r"d{1,4}? ",html) #用到了最小匹配 for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環2個變量用到了zip tds = tr("td") ulist.append([i.replace(" ",""), tds[1].string, tds[3].string]) def printUnivList(ulist, num): tplt = "{0:^10} {1:{3}^10} {2:^10}" print(tplt.format("排名","學校名稱","總分",chr(12288))) for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288))) def main(): uinfo = [] url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html" html = getHTMLText(url) peidui(uinfo, html) printUnivList(uinfo, 20) main() 運行結果如下:
排名來自最好大學網,只是作為爬蟲練習使用,覺得排名不合適的網友勿噴。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41127.html
相關文章
2017中國大學排名爬蟲代碼修改
摘要:課程的第單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把中的改為就會出錯,原因年各校排名數字的格式為而年各校排名數字的格式為,針對這個問題,我對嵩天老師的代碼做了一點修改,可能不是很漂亮,但是實現了功能我很開心。 本文是學習http://www.icourse163.org/lea... 課程的代碼實現和反思。 課程的第6單元中嵩天老師給出的中國大學排名爬蟲優化代碼如果把url中的2...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學排名表格爬取出來,并存入到中。本次分享將用的來實現相同的功能,并將爬取到的數據存入到數據庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學排名表格爬取出來,并存入到My...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學排名表格爬取出來,并存入到中。本次分享將用的來實現相同的功能,并將爬取到的數據存入到數據庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學排名表格爬取出來,并存入到My...
中國公有云廠商2018年收入利潤綜合排名詳細解讀
摘要:可見,實際公布的中國公有云供應商年收入利潤排名榜單是按照綜合業務收入來計算,并非只是純粹的公有云業務。數據顯示,年至年中國公有云市場年均復合增長率將達。這些中國公有云廠商名單,據阿明不完全統計,總計為家。他們說:看過排名更懂云了……做這個排名之前,首先需要說明一下這次估算和統計的公有云供應商的業務范圍,包括了這些云供應商的公有云、CDN、IDC、私有云、混合云、與云相關的集成項目,共計六項主...
發表評論
0條評論
figofuture
男|高級講師
TA的文章
閱讀更多
國內云主機為什么那么貴?主要從4個方面來決定!
閱讀 2568·2021-11-22 13:53
寶塔面板搭建uptime-kuma – 自建一個TCP/HTTP網站監控程序
閱讀 4069·2021-09-28 09:47
商城用什么主機-買什么游戲主機好?
閱讀 858·2021-09-22 15:33
UCloud快杰云主機 提升糖豆App運營與質量實戰
閱讀 809·2020-12-03 17:17
CSS結構與布局
閱讀 3315·2019-08-30 13:13
前端每日實戰:90# 視頻演示如何用 CSS 和 D3 創作一個無盡的六邊形空間
閱讀 2121·2019-08-29 16:09
VUE,關于導航列表樣式切換(VUE Router:router-link-active)
閱讀 1176·2019-08-29 12:24
CSS實現元素水平居中
閱讀 2452·2019-08-28 18:14
閱讀需要支付1元查看