摘要:爬蟲簡介這是一個在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁面數(shù)據(jù)的采集程序注意這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術(shù),不過由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進代碼已經(jīng)上傳到上,有用還請
爬蟲簡介
這是一個在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁面數(shù)據(jù)的采集程序
注意: 這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術(shù),不過由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進
代碼已經(jīng)上傳到GitHub上,有用還請給個星
python版本:python2.7
編碼工具:pycharm
數(shù)據(jù)存儲:mysql
爬蟲結(jié)構(gòu):廣度爬蟲
爬蟲思路:
先獲取需要采集信息的公司:
從數(shù)據(jù)庫中獲取
獲取字段:etid,etname
將獲取的數(shù)據(jù)存儲的狀態(tài)表中
從狀態(tài)表中獲取數(shù)據(jù),并更新狀態(tài)表
拼接初始URL:
將etname和初始url進行拼接,獲得初始網(wǎng)址
將初始url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環(huán)獲取
請求解析初始一級頁面:
驗證查詢的公司是否正確(??)
獲取二級頁面url
將二級url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環(huán)獲取
請求解析二級頁面:
獲取的信息待定
將公司的信息存儲到數(shù)據(jù)庫中:
建表
存儲信息
所建的表:企業(yè)主要信息: et_host_info
工商信息: et_busi_info
分支機構(gòu)信息: et_branch_office
軟件著作權(quán)信息: et_container_copyright_info
網(wǎng)站備案信息: et_conrainer_icp_info
對外投資信息: et_foreign_investment_info
融資信息: et_rongzi_info
股東信息: et_stareholder_info
商標(biāo)信息: et_trademark_info
微信公眾號信息:et_wechat_list_info
狀態(tài)表: et_name_status
看一下部分的結(jié)果圖:文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/43471.html
摘要:爬蟲簡介這是一個在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁面數(shù)據(jù)的采集程序注意這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術(shù),不過由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進代碼已經(jīng)上傳到上,有用還請 爬蟲簡介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...
摘要:爬蟲數(shù)據(jù)寫入文件中文亂碼,用在中打開文件沒有問題,但是用打開卻出現(xiàn)了問題,以下為解決方法。 python爬蟲數(shù)據(jù)寫入csv文件中文亂碼,用’utf-8‘在pycharm中打開文件沒有問題,但是用excel打開卻出現(xiàn)了問題,以下為解決方法。 (最近在練習(xí)爬蟲,這個博文是對自己學(xué)習(xí)的記錄和分享,...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:知識圖譜經(jīng)過幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過對行業(yè)和客戶的知識圖譜進行分析,可以及時發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險的客戶。 知識圖譜經(jīng)過幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。當(dāng)知識圖譜遇上人工智能,更加突顯出了它的優(yōu)勢和價值。 最先應(yīng)用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面應(yīng)用。谷歌是在2012年率先提出來知識圖...
閱讀 1714·2021-11-22 15:33
閱讀 2085·2021-10-08 10:04
閱讀 3543·2021-08-27 13:12
閱讀 3419·2019-08-30 13:06
閱讀 1467·2019-08-29 16:43
閱讀 1392·2019-08-29 16:40
閱讀 786·2019-08-29 16:15
閱讀 2746·2019-08-29 14:13