摘要:一個簡單的爬蟲代碼已托管這里有一個簡單的例子根據提供的種子爬取數據指定對應的抓取規則自己定義抓取的鏈接簡單的控制臺打印結果建筑工地上的青年如何自我成長知乎國內專做進口行業的公司多不不包括貨代公司知乎如何有效地進行后天
Web Spider
一個簡單的爬蟲
代碼已托管
這里有一個簡單的例子
public class SpiderZhiHuDemo { private Logger logger = LoggerFactory.getLogger(SpiderZhiHuDemo.class); /** * 根據提供的種子爬取數據 */ public void initSeedDemo() { String seed = "https://www.zhihu.com/question/28629300"; new Spider() { { downloader = new ProxyDownloader(new JSoupDownloader()); extractPattern = "https://www.zhihu.com/question/.*"; // 指定對應的抓取規則 } }.init(seed).start(); } /** * 自己定義 抓取的url鏈接 (簡單的) */ public void easyStreamDemo(){ String url = "https://www.zhihu.com/question/"; new Spider() { { downloader = new ProxyDownloader(new JSoupDownloader()); pipeline = (title, page) -> { logger.info("url: {} , title : {} ", page.getRequest(), title); }; } }.init(Stream.iterate(28629300, i -> i + 1).limit(60).map(i -> url + i).parallel()).start(); } }
控制臺打印結果
18:35:54.278 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629326 , title : 建筑工地上的青年如何自我成長? - 知乎 18:35:54.525 [ForkJoinPool.commonPool-worker-1] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629319 , title : 國內專做進口行業的公司多不?(不包括貨代公司) - 知乎 18:35:54.553 [main] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629338 , title : 如何有效地進行后天性豐胸? - 知乎 18:35:54.881 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629328 , title : Android開發中list和適配器是怎樣關聯的?適配器具體作用是什么?list可以做什么? - 知乎 18:35:55.168 [ForkJoinPool.commonPool-worker-1] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629321 , title : 互聯網公司,粉絲運營如何做? - 知乎 18:35:55.317 [ForkJoinPool.commonPool-worker-2] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629311 , title : 為什么一些大公司的特喜歡裝X? - 知乎 18:35:55.506 [ForkJoinPool.commonPool-worker-1] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629315 , title : 大二中 剛開學 一閑下來卻總想給家里打電話 無法控制 這是為什么? - 知乎 18:35:55.664 [main] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629342 , title : 中國雷達哪家強? - 知乎 18:35:56.113 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629325 , title : 美麗加芬蝸牛系列怎么樣? - 知乎 18:35:56.472 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629300 , title : "截石位"的說法是從哪里來的或者怎么翻譯來的? - 知乎 18:35:56.713 [ForkJoinPool.commonPool-worker-1] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629304 , title : 我想考南京大學的歷史系中國史的其中一組 就是01~09方向 請問 是按組命題的么? - 知乎 18:35:56.803 [ForkJoinPool.commonPool-worker-2] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629353 , title : K線的精髓在哪里? - 知乎 18:35:57.022 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629301 , title : 華為加班到底有多恐怖? - 知乎 18:35:57.143 [main] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629335 , title : 人體的哪些疾?。òY狀)可以自行診斷? - 知乎 18:35:57.167 [ForkJoinPool.commonPool-worker-2] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629354 , title : 既然ISIS這么罪大惡極,那么聯合國為什么還不派兵剿滅? - 知乎 18:35:57.333 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629302 , title : 誰能幫我起個專門針對聲樂培訓,演出,小明星,小歌手教學工作室名字?能讓人很快記住大氣的名字?謝謝?。?- 知乎 18:35:58.014 [ForkJoinPool.commonPool-worker-2] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629357 , title : 大學畢業后留有一大堆書不舍得丟掉,每到搬家時就會發愁了,請問如何處理不會覺得可惜而且便捷? - 知乎 18:35:58.022 [ForkJoinPool.commonPool-worker-3] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629349 , title : 華為研發員工的發展,待遇,福利?和互聯網公司比呢? - 知乎 18:35:58.209 [ForkJoinPool.commonPool-worker-1] INFO c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629332 , title : 朋友圈瘋傳: 求擴散!一個小孩的生命結束了就是因為她把手機充電接口放到嘴里,而另一頭還在插線板上。 求解? - 知乎
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/71216.html
摘要:前言新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。 0.前言 新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。所以找了很多實例和文...
摘要:進入正題第三部分,采集入庫。內容如下加上這個可以記住問題在的位置,方便以后更新或者其他操作都很直白,關于各個可以看看的文檔。代碼如下添加方法采集當前分頁正在抓取分頁這個地方寫得很笨,之前該在加上這個屬性。 上回,我已經大概把爬蟲寫出來了。 我寫了一個內容爬蟲,一個爬取tag里面內容鏈接的爬蟲 其實還差一個,就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題,因為我上次忘了 這次又不...
摘要:下載器負責獲取頁面,然后將它們交給引擎來處理。內置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個字典來配置。 前段時間我寫了一篇《scrapy快速入門》,簡單介紹了一點scrapy的知識。最近我的搬瓦工讓墻了,而且我又學了一點mongodb的知識,所以這次就來介紹一些scr...
閱讀 1551·2021-11-25 09:43
閱讀 2332·2019-08-30 15:55
閱讀 1465·2019-08-30 13:08
閱讀 2666·2019-08-29 10:59
閱讀 810·2019-08-29 10:54
閱讀 1551·2019-08-26 18:26
閱讀 2545·2019-08-26 13:44
閱讀 2653·2019-08-23 18:36