摘要:是用編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架,具有良好的開放性高可擴(kuò)展性。它要天然支持分布式,支持多進(jìn)程或線程,利用,可以方便的建立起一個功能強(qiáng)大的爬蟲。
Beanbun
Beanbun 是用 PHP 編寫的多進(jìn)程網(wǎng)絡(luò)爬蟲框架,具有良好的開放性、高可擴(kuò)展性。
項目地址:https://github.com/kiddyuchin...
文檔地址:http://beanbun.org
我希望有這樣一個爬蟲框架:在簡單需求的情況下,可以用最少的代碼快速建立一個功能完善的爬蟲;而且如果你愿意,你可以對爬蟲進(jìn)行你想要的任何修改。它要天然支持分布式,支持多進(jìn)程(或線程),利用 composer,可以方便的建立起一個功能強(qiáng)大的爬蟲。
在對之前寫過的一個爬蟲的功能不斷的刪減調(diào)整后,就有了目前的 Beanbun,這個名字來自于作者家的貓,此貓名叫門丁,“門丁”是北方的一種面點。門丁 -> 豆包 -> bean bun。
我希望在這里能夠拋磚引玉,和大家一起繼續(xù)完善 Beanbun。
支持守護(hù)進(jìn)程與普通兩種模式(守護(hù)進(jìn)程模式只支持 Linux 服務(wù)器)
默認(rèn)使用 Guzzle 進(jìn)行爬取
支持分布式
支持內(nèi)存、Redis 等多種隊列方式
支持自定義URI過濾
支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式
遵循 PSR-4 標(biāo)準(zhǔn)
爬取網(wǎng)頁分為多步,每步均支持自定義動作(如添加代理、修改 user-agent 等)
靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊列、自定義爬取方式...
安裝Beanbun 可以通過 composer 進(jìn)行安裝。
$ composer require kiddyu/beanbun一個簡單的例子
創(chuàng)建一個文件 start.php,包含以下內(nèi)容
seed = [ "http://www.950d.com/", "http://www.950d.com/list-1.html", "http://www.950d.com/list-2.html", ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . "/" . md5($beanbun->url), $beanbun->page); }; $beanbun->start();
在命令行中執(zhí)行
$ php start.php
接下來就可以看到抓取的日志了。
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success. 2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success. 2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.最后
后邊我會針對一些不同類型的網(wǎng)站,寫一些用 Beanbun 實現(xiàn)爬蟲的小例子,歡迎大家持續(xù)關(guān)注。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/22806.html
摘要:最近看了很多關(guān)于爬蟲入門的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標(biāo)來進(jìn)行爬取的演示,用到的爬蟲框架為編寫的。項目地址這次寫的內(nèi)容為爬取知乎的用戶,下面就是詳細(xì)說一下寫爬蟲的過程了。 最近看了很多關(guān)于爬蟲入門的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對象,所以這次我也以知乎為目標(biāo)來進(jìn)行爬取的演示,用到的爬蟲框架為 PHP 編寫的 Beanbun。 項目地址:http...
摘要:的機(jī)器學(xué)習(xí)庫的機(jī)器學(xué)習(xí)庫,包括算法交叉驗證神經(jīng)網(wǎng)絡(luò)等內(nèi)容。在即將到來的大會上,她將和大家分享在機(jī)器學(xué)習(xí)領(lǐng)域的全新可能。入門總結(jié)入門相關(guān),如安裝配置基本使用等。 基于 Swoole 開發(fā) PHP 擴(kuò)展 Swoole-1.9.7 增加了一個新特性,可以基于 Swoole 使用 C++ 語言開發(fā)擴(kuò)展模塊,在擴(kuò)展模塊中可以注冊 PHP 內(nèi)置函數(shù)和類。現(xiàn)在可以基于 Swoole 來編寫 PHP ...
摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個相對優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實習(xí)找正式工作,都是在這兩個上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...
摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個相對優(yōu)秀的專業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實習(xí)找正式工作,都是在這兩個上找的,其他的網(wǎng)站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續(xù)...
摘要:從最大的同性社交平臺獲取數(shù)據(jù)好了,言歸正傳,回到題目。烏云密布的爬蟲百度網(wǎng)盤這件事,是我不想看到的,這類安全問題的一個共同特點用戶自身確實存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網(wǎng)盤上看到上萬條車主個人信息,企業(yè)、政府高官信息、各種數(shù)據(jù)庫和無窮無盡的盜版》,一時間,這篇文章就火了,火爆程度另百度猝不及防。 其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...
閱讀 2577·2021-10-25 09:45
閱讀 1239·2021-10-14 09:43
閱讀 2297·2021-09-22 15:23
閱讀 1519·2021-09-22 14:58
閱讀 1934·2019-08-30 15:54
閱讀 3539·2019-08-30 13:00
閱讀 1354·2019-08-29 18:44
閱讀 1571·2019-08-29 16:59