摘要:項目簡介前端站點項目效果預覽使用實現磁力鏈接爬蟲磁力鏈接解析成種子信息,保存到數據庫,利用實現中文檢索。搭建磁力鏈接搜索引擎源碼地址后端腳本磁力鏈接獲取磁力鏈接解析入庫定時同步源碼地址此項目僅用學習交流技術使用不做商業用途。
項目簡介
前端站點 項目效果預覽 http://findcl.com
使用 nodejs 實現磁力鏈接爬蟲 磁力鏈接解析成 torrent種子信息,保存到數據庫,利用 Elasticsearch 實現中文檢索。koa2 搭建磁力鏈接搜索引擎
源碼地址 https://github.com/ssstk/findcl
后端腳本 磁力鏈接獲取 磁力鏈接解析 入庫 Mongodb 定時同步 Elasticsearch
源碼地址 https://github.com/ssstk/mang...
此項目僅用學習交流技術使用 不做商業用途。
上線2018-06-01 網站正式上線。暫時想不到什么名字 各位大大可以推薦下哦。域名是 http://findcl.com ,
兩臺 VPS (都是某些云做活動買的 配置低)
第一臺部署了 FindCl 站點本身( koa2、nginx )和單個節點的 Elasticsearch
第二臺部署了磁力鏈接爬蟲 hashinfo 解析 入庫 Mongodb
Mongodb 數據庫在套路云(目前有 300W 數據庫,每日新收錄 3W+的數據)
項目依賴Mongodb
mongoose
Elasticsearch
nginx
koa2
vue
DHT BT 資源爬蟲 磁力鏈接解析 manget2torrent
crontab 定時執行 Mongodb 與 Elasticsearch 的數據同步
...
存在的問題 manget2torrent依賴的 dhtspider 爬蟲 長時間使用一個端口的時,由于 P2P 網絡的特性,越來越多的節點來訪問 會導致帶寬跑滿(其主要是活動買的云主機 1M 的),如果活力全開不做閑置 大概穩定在 10M 左右。解決方案就是 每次采集 5000 條不重復的磁力 hashindo 就暫停爬蟲,取解析獲取信息。等小于 1000 條時候,再隨機端口開啟服務。
解析磁力鏈接緩慢且成功率很低, 失敗的大概在 3 成左右且需要好幾秒
其他有其他問題請新建issue交流。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19302.html
摘要:閑話不多說了,接下來談談網絡爬蟲吧。根據中的到指定端口使用擴展協議進行數據的交換即下載下載成功,解析出種子文件列表信息入庫。具體實現請參考我的開源項目代碼如有問題,歡迎指正,僅供技術交流,切勿用作非法商業用途。 演示地址: https://dodder.cc 三年前,照著 Python 版的 DHT 網絡爬蟲用 Java 重寫了一遍,當時大學還未畢業,寫出來的代碼比較雜亂,數據跑到 1...
摘要:本人建立個群作為去轉盤網的官方群,人數現在也不多,如果有興趣的話來逛逛吧,多個粉絲去轉盤多一份熱鬧,群號 之前我在寫百度網盤爬蟲,百度圖片爬蟲的時候答應網友說,抽時間要把ok搜搜的的源碼公開,如今是時候兌現諾言了,下面就是爬蟲的所有代碼,完全,徹底的公開,你會不會寫程序都可以使用,不過請先裝個linux系統,具備公網條件,然后運行: python startCrawler.py 有必要...
摘要:后來在爬取不到讓我一度懷疑人生的時候巧合下,發現磁力鏈接有小寫字母,有長度的,有長度的。。 原文博客: 羞羞的node爬蟲 前言 學了一陣子node,除了用 express 寫東西,就沒怎么做過東西突然就想寫個 爬蟲 來玩一玩,而且還是爬一些羞羞的東西 使用模塊 SuperAgent 是個 http 方面的庫,可以發起 get 或 post 請求。 cheerio 大家可以理解成一個 ...
閱讀 2024·2021-09-30 09:47
閱讀 703·2021-09-22 15:43
閱讀 1981·2019-08-30 15:52
閱讀 2431·2019-08-30 15:52
閱讀 2540·2019-08-30 15:44
閱讀 903·2019-08-30 11:10
閱讀 3372·2019-08-29 16:21
閱讀 3296·2019-08-29 12:19