記爬取CET4級網站的那一夜

huayeluoliuhen 發布于2019-07-24 18:38 / 2285人閱讀

摘要：四級報名網站為了公平公正，將每個報名學生的基本信息姓名學號大頭照報考等級放在了網上，這樣同學院同年級的同學就可以進行監督。正則表達式爬取的信息文件靠你了接下來就是用搭一個搜索引擎了。

首先:

中秋節快樂

然后:

沒有了...

回寢室之前在304的晚上

轉眼間就大二了，于是就要考四級，考四級就要報名，于是去了報名網站http://cet.tinyin.net/accuse.asp, 上傳了照片，報了名,理論上就結束了。但是，中秋要來了，我要做點什么。

四級報名網站為了公平公正，將每個報名學生的基本信息(姓名、學號、大頭照、報考等級)放在了網上，這樣同學院、同年級的同學就可以進行監督。不得不說，證件照是很吸引人的部分，于是我審查了頁面元素，希望可以發現更多a。

CET4網站為了防我這種好奇心很強的人還是做了一些處理，登錄url/login.asp實際上是一個refer，真正的登錄url是http://cet.tinyin.net/reginfo.asp|573597a1f9200a18be60068dca9ced0f7|，我要做的，就是利用我的用戶名和密碼登入網站，獲取cookie，然后利用cookie進行后續登錄。當然，首先需要把我自己變成瀏覽器啦

def __init__(self):
    self.user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0"
    self.headers = {
            "User-Agent":self.user_agent,
            "Referer":"http://cet.tinyin.net/login.asp",
            "Accept-encoding":"gzip"
    }
    self.postdata = urllib.urlencode({
            "stype":"#",
            "stuno":"2014214761",
            "stupwd":"密碼就不說了"
    })

然后就是登錄獲取cookie

def analog_login(self):
    """
    登錄cet4網站，獲取cookie，并將
    cookie保存至文件
    """
    filename = "cet4_cookie.txt"
    cookie = cookielib.MozillaCookieJar(filename)
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

    login_url = "http://cet.tinyin.net/reginfo.asp"
    request = urllib2.Request(login_url, self.postdata, self.headers)
    opener.open(request)
    cookie.save(ignore_discard=True, ignore_expires=True)

cookie get!!!

# Netscape HTTP Cookie File
# http://www.netscape.com/newsref/std/cookie_spec.html
# This is a generated file!  Do not edit.

cet.tinyin.net    FALSE    /    FALSE        ASPSESSlllllDAQBASRAC    LKNFEMDCDOLABMFPLLLLL

該正則表達式上場了!

首先實驗一下，cookie能否正常使用, 嘗試訪問 http://cet.tinyin.net/accuse.asp 頁面, cookie是沒問題，但是html卻是中文亂碼，沒關系，改成utf-8，就行

html = response.read().decode("gbk").encode("utf-8’)

現在，一切都豁然開朗了，我只需要爬取標簽，將獲取的學號和姓名寫入文件就行了。

正則表達式 parttern = re.compile("(.*?)

(.*?)

", re.S)

爬取的信息文件

flask 靠你了

接下來就是用flask搭一個搜索引擎了。在文字編碼這一塊用了很長時間，因為表單的輸入數據編碼和文件的編碼是不匹配的，經過幾次實驗，我發現需要將表單輸入數據decode為漢字編碼

name = form.name.data.decode("utf-8")

編碼真頭痛！！看一下這篇吧http://dengshuan.me/misc/xi-shuo-bian-ma...

ok了

備注 實際的過程沒有上面說的這么的一氣呵成，中間還睡了一覺? 兩瓶啤酒沒有喝完 信息都是公開的，應該沒有侵犯隱私吧? 開心就好?

GPU云服務器云服務器記爬取爬取網站數據倉庫一般在那一層阿里云服務器買那一款比較好

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37869.html

Python爬蟲神器pyppeteer，對 js 加密降維打擊

摘要：爬蟲神器，對加密降維打擊是對無頭瀏覽器的封裝。使用等其他無頭瀏覽器的最大優勢當然是對加密實行降維打擊，完全無視加密手段，對于一些需要登錄的應用，也可以模擬點擊然后保存。請求過濾你的那一段頁面自動下拉腳本爬蟲神器pyppeteer，對 js 加密降維打擊 pyppeteer?是對無頭瀏覽器?puppeteer的 Python 封裝。無頭瀏覽器廣泛用于自動化測試，同時也是一種很好地爬蟲思...

Karuru 2019-07-31 10:31 評論0 收藏0
Python 詞云分析周杰倫《晴天》

摘要：詞云可以通過網站紐扣詞云來制作，然而可以通過代碼來實現，下面開始吧。詞云可以通過網站 https://wordart.com/ 紐扣詞云http://cloud.niucodata.com/ 來制作，然而 Python 可以通過代碼來實現，下面開始吧。 showImg(https://segmentfault.com/img/bVQzIx?w=874&h=416); pip inst...

DoINsiSt 2019-07-25 12:07 評論0 收藏0
爬蟲初級操作（一）

摘要：一個對應相應的狀態碼，狀態碼表示協議所返回的響應的狀態。下面將狀態碼歸結如下繼續客戶端應當繼續發送請求。繼續處理由擴展的狀態碼，代表處理將被繼續執行。處理方式丟棄該狀態碼不被的應用程序直接使用，只是作為類型回應的默認解釋。本篇內容為 python 網絡爬蟲初級操作，內容主要有以下 3 部分： python 關于爬蟲的一些基本操作和知識靜態網頁抓取動態網頁抓取基本操作和知識...

Ocean 2019-07-30 16:57 評論0 收藏0