摘要:四級報名網站為了公平公正,將每個報名學生的基本信息姓名學號大頭照報考等級放在了網上,這樣同學院同年級的同學就可以進行監督。正則表達式爬取的信息文件靠你了接下來就是用搭一個搜索引擎了。
首先:
中秋節快樂然后:
沒有了...回寢室之前在304的晚上
轉眼間就大二了,于是就要考四級,考四級就要報名,于是去了報名網站http://cet.tinyin.net/accuse.asp, 上傳了照片,報了名,理論上就結束了。但是,中秋要來了,我要做點什么。
四級報名網站為了公平公正,將每個報名學生的基本信息(姓名、學號、大頭照、報考等級)放在了網上,這樣同學院、同年級的同學就可以進行監督。不得不說,證件照是很吸引人的部分,于是我審查了頁面元素,希望可以發現更多a。
CET4網站為了防我這種好奇心很強的人還是做了一些處理,登錄url/login.asp實際上是一個refer,真正的登錄url是http://cet.tinyin.net/reginfo.asp|573597a1f9200a18be60068dca9ced0f7|,我要做的,就是利用我的用戶名和密碼登入網站,獲取cookie,然后利用cookie進行后續登錄。當然,首先需要把我自己變成瀏覽器啦def __init__(self): self.user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0" self.headers = { "User-Agent":self.user_agent, "Referer":"http://cet.tinyin.net/login.asp", "Accept-encoding":"gzip" } self.postdata = urllib.urlencode({ "stype":"#", "stuno":"2014214761", "stupwd":"密碼就不說了" })然后就是登錄獲取cookie
def analog_login(self): """ 登錄cet4網站,獲取cookie,并將 cookie保存至文件 """ filename = "cet4_cookie.txt" cookie = cookielib.MozillaCookieJar(filename) opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) login_url = "http://cet.tinyin.net/reginfo.asp" request = urllib2.Request(login_url, self.postdata, self.headers) opener.open(request) cookie.save(ignore_discard=True, ignore_expires=True)cookie get!!!
# Netscape HTTP Cookie File # http://www.netscape.com/newsref/std/cookie_spec.html # This is a generated file! Do not edit. cet.tinyin.net FALSE / FALSE ASPSESSlllllDAQBASRAC LKNFEMDCDOLABMFPLLLLL該正則表達式上場了!首先實驗一下,cookie能否正常使用, 嘗試訪問 http://cet.tinyin.net/accuse.asp 頁面, cookie是沒問題,但是html卻是中文亂碼,沒關系,改成utf-8,就行
html = response.read().decode("gbk").encode("utf-8’)
現在,一切都豁然開朗了,我只需要爬取標簽,將獲取的學號和姓名寫入文件就行了。 正則表達式 parttern = re.compile("(.*?)
(.*?)
", re.S)爬取的信息文件
flask 靠你了接下來就是用flask搭一個搜索引擎了。在文字編碼這一塊用了很長時間,因為表單的輸入數據編碼和文件的編碼是不匹配的,經過幾次實驗,我發現需要將表單輸入數據decode為漢字編碼
name = form.name.data.decode("utf-8")編碼真頭痛!!看一下這篇吧http://dengshuan.me/misc/xi-shuo-bian-ma...
ok了備注 實際的過程沒有上面說的這么的一氣呵成,中間還睡了一覺? 兩瓶啤酒沒有喝完 信息都是公開的,應該沒有侵犯隱私吧? 開心就好?
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37869.html
相關文章
Python爬蟲神器pyppeteer,對 js 加密降維打擊
摘要:爬蟲神器,對加密降維打擊是對無頭瀏覽器的封裝。使用等其他無頭瀏覽器的最大優勢當然是對加密實行降維打擊,完全無視加密手段,對于一些需要登錄的應用,也可以模擬點擊然后保存。請求過濾你的那一段頁面自動下拉腳本 爬蟲神器pyppeteer,對 js 加密降維打擊 pyppeteer?是對無頭瀏覽器?puppeteer的 Python 封裝。無頭瀏覽器廣泛用于自動化測試,同時也是一種很好地爬蟲思...
Python 詞云分析周杰倫《晴天》
摘要:詞云可以通過網站紐扣詞云來制作,然而可以通過代碼來實現,下面開始吧。 詞云可以通過網站 https://wordart.com/ 紐扣詞云http://cloud.niucodata.com/ 來制作,然而 Python 可以通過代碼來實現,下面開始吧。 showImg(https://segmentfault.com/img/bVQzIx?w=874&h=416); pip inst...
發表評論
0條評論
huayeluoliuhen
男|高級講師
TA的文章
閱讀更多
DediPath秋季促銷:洛杉磯VPS/Hybrid Servers全部4折,美國vps主機最低每月
閱讀 2555·2021-09-30 10:00
Megalayer:雙節大促,美國/香港/菲律賓VPS全場5折起;特價vps套餐年付低至159元
閱讀 3491·2021-09-22 10:54
2020年-2021年9月跑路IDC商家名單及黑名單IDC榜單!
閱讀 6212·2021-09-07 10:28
iconfont 介紹
閱讀 2943·2019-08-29 13:53
移動端響應式
閱讀 742·2019-08-29 12:42
babel在提升前端效率的實踐
閱讀 958·2019-08-26 13:51
每日 30 秒 ? 對數組項目進行統計
閱讀 1258·2019-08-26 13:32
可以加一些復雜樣式的數字動畫
閱讀 3021·2019-08-26 10:39
閱讀需要支付1元查看