国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

實用的開源百度云分享爬蟲項目yunshare - 安裝篇

lei___ / 3559人閱讀

摘要:今天開源了一個百度云網盤爬蟲項目,地址是。推薦使用命令安裝依賴,最簡單的安裝方式更多安裝的命令可以去上面找。啟動項目使用進行進程管理,運行啟動所有的后臺任務,檢查任務是否正常運行可以用命令,正常運行的應該有個任務。

今天開源了一個百度云網盤爬蟲項目,地址是https://github.com/callmelanmao/yunshare。

百度云分享爬蟲項目

github上有好幾個這樣的開源項目,但是都只提供了爬蟲部分,這個項目在爬蟲的基礎上還增加了保存數據,建立elasticsearch索引的模塊,可以用在實際生產環境中,不過web模塊還是需要自己開發

安裝

安裝node.js和pm2,node用來運行爬蟲程序和索引程序,pm2用來管理node任務

安裝mysql和mongodb,mysql用來保存爬蟲數據,mongodb用來保存最終的百度云分享數據,這些數據是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare
cnpm i

推薦使用cnpm命令安裝npm依賴,最簡單的安裝方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安裝cnpm的命令可以去npm.taobao.org上面找。

初始化

爬蟲數據(主要是url列表)都是保存在mysql數據庫的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默認的mysql用戶名和密碼都是root,數據看是yun,你需要手動創建yun數據庫

create database yun default charset utf8

密碼根據自己需要進行修改,完成mysql配置之后就可以運行下面的命令

gulp babel
node dist/init.js

注意必須先運行gulp babel把es6代碼編譯成es5,然后運行初始化腳本導入初始數據,數據文件在data/hot.json,里面,是從頁面 http://yun.baidu.com/pcloud/f... 保存下來的。

啟動項目

yunshare使用pm2進行nodejs進程管理,運行pm2 start process.json啟動所有的后臺任務,檢查任務是否正常運行可以用命令pm2 list,正常運行的應該有4個任務。

啟動elasticsearch索引

elasticsearch索引程序也已經寫好了,mapping文件在data/mapping.json,請確保你已經安裝elasticsearch 5.0的版本之后才運行索引程序,命令pm2 start dist/elastic.js

默認的elasticsearch地址是http://localhost:9200,如果你需要修改這個地址,可以在src/ElasticWorker.js里面修改,修改任何js源碼之后記得運行gulp babel,在重啟pm2任務,不然修改是不會生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一項elastic任務,這樣就不需要多帶帶啟動索引程序了。

DEMO

網盤搜索

下一篇接著介紹整個項目的整體設計思路和開發過程中遇到的問題。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/80973.html

相關文章

  • PHP相關

    摘要:的機器學習庫的機器學習庫,包括算法交叉驗證神經網絡等內容。在即將到來的大會上,她將和大家分享在機器學習領域的全新可能。入門總結入門相關,如安裝配置基本使用等。 基于 Swoole 開發 PHP 擴展 Swoole-1.9.7 增加了一個新特性,可以基于 Swoole 使用 C++ 語言開發擴展模塊,在擴展模塊中可以注冊 PHP 內置函數和類。現在可以基于 Swoole 來編寫 PHP ...

    lewinlee 評論0 收藏0
  • SegmentFault 助力 PyCon2014 China

    摘要:月日,助力在北京舉辦全球最盛大的年度聚會,國內外頂尖的工程師做了很精彩的分享和互動,現場多名愛好者參與了此次技術主題盛宴。后續會有更多現場照片持續更新 11月15日,SegmentFault 助力PyCon China 在北京舉辦全球 Pythoneer 最盛大的年度聚會,國內外頂尖的Python 工程師做了很精彩的分享和互動,現場300多名python愛好者參與了此次技術主題盛宴。 ...

    junbaor 評論0 收藏0
  • 我在全球最大同性社交平臺那點事

    摘要:從最大的同性社交平臺獲取數據好了,言歸正傳,回到題目。烏云密布的爬蟲百度網盤這件事,是我不想看到的,這類安全問題的一個共同特點用戶自身確實存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網盤上看到上萬條車主個人信息,企業、政府高官信息、各種數據庫和無窮無盡的盜版》,一時間,這篇文章就火了,火爆程度另百度猝不及防。 其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...

    AlphaWatch 評論0 收藏0
  • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<