摘要:爬蟲簡介這是一個在未登錄的情況下,根據企業名稱搜索,爬取企業頁面數據的采集程序注意這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術,不過由于爬取的數據比較多,適合刷解析技能的熟練度,所以高手勿進代碼已經上傳到上,有用還請
爬蟲簡介
這是一個在未登錄的情況下,根據企業名稱搜索,爬取企業頁面數據的采集程序
注意: 這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術,不過由于爬取的數據比較多,適合刷解析技能的熟練度,所以高手勿進
代碼已經上傳到GitHub上,有用還請給個星
python版本:python2.7
編碼工具:pycharm
數據存儲:mysql
爬蟲結構:廣度爬蟲
爬蟲思路:
先獲取需要采集信息的公司:
從數據庫中獲取
獲取字段:etid,etname
將獲取的數據存儲的狀態表中
從狀態表中獲取數據,并更新狀態表
拼接初始URL:
將etname和初始url進行拼接,獲得初始網址
將初始url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環獲取
請求解析初始一級頁面:
驗證查詢的公司是否正確(??)
獲取二級頁面url
將二級url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環獲取
請求解析二級頁面:
獲取的信息待定
將公司的信息存儲到數據庫中:
建表
存儲信息
所建的表:企業主要信息: et_host_info
工商信息: et_busi_info
分支機構信息: et_branch_office
軟件著作權信息: et_container_copyright_info
網站備案信息: et_conrainer_icp_info
對外投資信息: et_foreign_investment_info
融資信息: et_rongzi_info
股東信息: et_stareholder_info
商標信息: et_trademark_info
微信公眾號信息:et_wechat_list_info
狀態表: et_name_status
看一下部分的結果圖:文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43220.html
摘要:爬蟲簡介這是一個在未登錄的情況下,根據企業名稱搜索,爬取企業頁面數據的采集程序注意這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術,不過由于爬取的數據比較多,適合刷解析技能的熟練度,所以高手勿進代碼已經上傳到上,有用還請 爬蟲簡介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...
摘要:爬蟲數據寫入文件中文亂碼,用在中打開文件沒有問題,但是用打開卻出現了問題,以下為解決方法。 python爬蟲數據寫入csv文件中文亂碼,用’utf-8‘在pycharm中打開文件沒有問題,但是用excel打開卻出現了問題,以下為解決方法。 (最近在練習爬蟲,這個博文是對自己學習的記錄和分享,...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯招聘由此蒙受損失近日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。到底發生了什么? ?一 、為什么公司全員被抓? 3月14日團隊被警方帶走,有HR等非核心成員回家,但核心高管依然失聯中。3月25日,一位巧達科技前員工告訴燃財經。 在天眼查中北京...
摘要:日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。買賣簡歷,直接違法。三人累計販賣個人簡歷萬余份,智聯招聘由此蒙受損失近 日前,簡歷大數據公司巧達科技被警方一鍋端,高管和員工全部被帶走。到底發生了什么??一 、為什么公司全員被抓?3月14日團隊被警方帶走,有HR等非核心成員回家,但核心高管依然失...
閱讀 2100·2021-11-11 16:55
閱讀 3171·2021-10-11 10:58
閱讀 3038·2021-09-13 10:28
閱讀 3967·2021-07-26 23:57
閱讀 1005·2019-08-30 15:56
閱讀 1331·2019-08-29 13:15
閱讀 1258·2019-08-26 18:18
閱讀 1266·2019-08-26 13:44