摘要:主要特性前一陣重新組織了一下代碼加了命令行信息用起來更方便了一些初步實(shí)現(xiàn)了豆瓣小組及用戶相關(guān)的爬蟲和請求基于和沒有用高階的諸如之類的爬蟲工具所有的命令行輸出都是標(biāo)準(zhǔn)的格式可以使用操作安裝僅支持使用兩種命令模式客戶端接口調(diào)用和豆瓣模塊接口
主要特性
前一陣重新組織了一下代碼, 加了命令行help信息, 用起來更方便了一些
初步實(shí)現(xiàn)了豆瓣小組及用戶相關(guān)的API爬蟲和請求
基于requests和lxml, 沒有用高階的諸如scrapy之類的爬蟲工具
所有的命令行輸出都是標(biāo)準(zhǔn)的json格式, 可以使用jq操作
安裝僅支持python3
pip3 install --upgrade dbapi使用
兩種命令模式: 客戶端接口調(diào)用和豆瓣模塊接口調(diào)用
# 調(diào)用客戶端自身API, 比如 dbapi usedbapi [options...] # 調(diào)用豆瓣模塊API, 比如 dbapi group list_user_topics dbapi [options...]
查看幫助信息: 可以列出所有的命令及參數(shù)
dbapi --help
用戶登錄: 有兩種形式, 一種是直接用用戶名和密碼登錄, 另一種是直接使用cookie, 因?yàn)闆]有做驗(yàn)證碼破解, 所以在頻繁登錄遇到驗(yàn)證碼之后可以通過Chrome控制臺(tái)拿到cookie之后直接丟給客戶端登錄
# 用戶名和密碼登錄, 注意密碼是在命令行里的, 有可能會(huì)在你的歷史記錄里面留下密碼 # 雖然這是用戶模塊的命令, 但是因?yàn)槭侨忠蕾? 所以就放到客戶端里面了 dbapi login# 使用cookie登錄, 注意cookie里面關(guān)鍵的session id被設(shè)置了http only, 需要到network tab下面獲取 dbapi use
刷新會(huì)話信息: 檢查本地保存的會(huì)話信息是否已經(jīng)過期, 會(huì)話信息會(huì)默認(rèn)保存到$HOME/.__cache__dbapi.json中
dbapi flush
命令列表: 目前有用戶(people)模塊和小組(group)模塊的命令, 具體如下:
# -------- 小組部分 --------# # 創(chuàng)建評論 dbapi group add_comment源代碼# 創(chuàng)建小組 dbapi group add_group # 創(chuàng)建討論 dbapi group add_topic # 獲取討論信息 dbapi group get_topic # 申請加入小組 dbapi group join_group # 退出小組 dbapi group leave_group # 話題點(diǎn)贊 dbapi group like_topic # 獲取評論過的話題列表 dbapi group list_commented_topics # 獲取評論列表 dbapi group list_comments # 獲取加入的小組列表 dbapi group list_joined_groups # 已加入的所有小組的話題列表 dbapi group list_joined_topics # 獲取點(diǎn)贊的話題列表 dbapi group list_liked_topics # 獲取推薦的話題列表 dbapi group list_reced_topics # 獲取小組話題列表 dbapi group list_topics <_type> # 列出用戶在話題下的所有回復(fù) dbapi group list_user_comments # 發(fā)表的話題 dbapi group list_user_topics # 推薦話題 dbapi group rec_topic # 刪除評論 dbapi group remove_comment # 刪除話題下所有自己的評論 dbapi group remove_commented_topic # 刪除小組 dbapi group remove_group # 刪除話題 dbapi group remove_topic # 搜索小組 dbapi group search_groups # 搜索話題 dbapi group search_topics # 喜歡話題 dbapi group undo_like_topic # 取消推薦話題 dbapi group undo_rec_topic # 更新話題 dbapi group update_topic # -------- 用戶部分 --------# # 添加相冊 dbapi people add_album # 添加相冊評論 dbapi people add_album_comment # 添加照片 dbapi people add_photo # 添加照片評論 dbapi people add_photo_comment # 添加說說 dbapi people add_status # 獲取相冊 dbapi people get_album # 獲取用戶信息 dbapi people get_people # 獲取照片 dbapi people get_photo # 喜歡照片 dbapi people like_photo # 喜歡說說 dbapi people like_status # 獲取相冊列表 dbapi people list_albums # 獲取關(guān)注用戶列表 dbapi people list_contacts # 獲取照片評論列表 dbapi people list_photo_comments # 獲取照片喜歡列表 dbapi people list_photo_likes # 獲取照片推薦列表 dbapi people list_photo_recs # 獲取照片列表 dbapi people list_photos # 獲取粉絲列表 dbapi people list_rev_contacts # 獲取說說評論列表 dbapi people list_status_comments # 獲取說說列表 dbapi people list_statuses # 推薦照片 dbapi people rec_photo # 刪除相冊 dbapi people remove_album # 刪除相冊評論 dbapi people remove_album_comment # 刪除照片 dbapi people remove_photo # 刪除照片評論 dbapi people remove_photo_comment # 刪除說說 dbapi people remove_status # 取消喜歡照片 dbapi people undo_like_photo # 取消喜歡說說 dbapi people undo_like_status # 取消推薦照片 dbapi people undo_rec_photo # 更新相冊 dbapi people update_album
GitHub: https://github.com/acrazing/d...
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/42176.html
摘要:,引言注釋上一篇爬蟲實(shí)戰(zhàn)安居客房產(chǎn)經(jīng)紀(jì)人信息采集,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個(gè)實(shí)戰(zhàn)來采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋:上一篇《Python爬蟲實(shí)戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀(jì)人信息采集》,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個(gè)實(shí)戰(zhàn)來采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功...
摘要:今天為大家整理了個(gè)爬蟲項(xiàng)目。地址新浪微博爬蟲主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:這里推薦一本書源碼剖析源碼剖析豆瓣這本書把源碼中最核心的部分,給出了詳細(xì)的闡釋,不過閱讀此書需要對語言內(nèi)存模型和指針有著很好的理解。 是否非常想學(xué)好 Python,一方面被瑣事糾纏,一直沒能動(dòng)手,另一方面,擔(dān)心學(xué)習(xí)成本太高,心里默默敲著退堂鼓? 幸運(yùn)的是,Python 是一門初學(xué)者友好的編程語言,想要完全掌握它,你不必花上太多的時(shí)間和精力。 Python 的設(shè)計(jì)哲學(xué)之一就是...
摘要:數(shù)目限制應(yīng)該省略的條數(shù)數(shù)目限制排序方式函數(shù)的參數(shù)個(gè)數(shù),必須是個(gè),或者個(gè)。 基本思路 1.通過node中的 superagent 模擬http請求,去讀取豆瓣小組的信息,對讀取到的信息通過cheerio插件進(jìn)行解析格式化以便于獲取body中的信息存儲(chǔ)到mongodb中 2.因?yàn)槎拱陼?huì)ban掉一寫爬蟲ip,所以爬取過程中會(huì)使用ip池挑選沒有使用過的ip進(jìn)行代理去爬取,并且會(huì)避免并發(fā) 使用m...
摘要:然而,和是有區(qū)別的,即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目內(nèi)容提取器的定義一文的源碼無法在下使用,本文將發(fā)布一個(gè)的內(nèi)容提取器。 1. 項(xiàng)目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目啟動(dòng)說明中我們討論一個(gè)數(shù)字:程序員浪費(fèi)在調(diào)測內(nèi)容提取規(guī)則上的時(shí)間太多了(見上圖),從而我們發(fā)起了這個(gè)項(xiàng)目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投...
閱讀 1856·2023-04-25 14:28
閱讀 1890·2021-11-19 09:40
閱讀 2795·2021-11-17 09:33
閱讀 1384·2021-11-02 14:48
閱讀 1710·2019-08-29 16:36
閱讀 3332·2019-08-29 16:09
閱讀 2916·2019-08-29 14:17
閱讀 2377·2019-08-29 14:07