使用Scrapy抓取新浪微博用戶信息

dingding199389 發布于2019-07-30 18:44 / 3564人閱讀

摘要：詳細代碼可查看數據的來源是新浪微博的手機端頁面個人資料用戶發出的微博用戶頁數從開始

詳細代碼可查看Knowsmore

數據的來源是新浪微博的手機端H5頁面

個人資料API：https://m.weibo.cn/profile/in...【用戶ID】

發出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數從1開始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    "BASE_URL" : "https://m.weibo.cn",
    "USER_IDS" : ["6883966016"]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG["USER_IDS"]:
            url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data["data"]["fans"],
            follow_url = user_data["data"]["follow"],
            more_url = user_data["data"]["more"],
            user = user_data["data"]["user"]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data["data"]["cards"]
        )

GPU云服務器云服務器 python抓取微博新浪微博仿新浪微博新浪微博分享

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/42957.html

使用Scrapy抓取新浪微博用戶信息

摘要：詳細代碼可查看數據的來源是新浪微博的手機端頁面個人資料用戶發出的微博用戶頁數從開始詳細代碼可查看Knowsmore 數據的來源是新浪微博的手機端H5頁面個人資料API：https://m.weibo.cn/profile/in...【用戶ID】發出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE...

Cruise_Chan 2019-06-26 17:57 評論0 收藏0
23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

摘要：今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄，可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

jlanglang 2019-07-31 10:09 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
利用新浪API實現數據的抓取微博數據爬取微博爬蟲

摘要：本人長期出售超大量微博數據旅游網站評論數據，并提供各種指定數據爬取服務，。如果用戶傳入偽造的，則新浪微博會返回一個錯誤。 PS:(本人長期出售超大量微博數據、旅游網站評論數據，并提供各種指定數據爬取服務，Message to YuboonaZhang@Yahoo.com。由于微博接口更新后限制增大，這個代碼已經不能用來爬數據了。如果只是為了收集數據可以咨詢我的郵箱，如果是為了學習爬蟲，...

liuyix 2019-07-30 15:12 評論0 收藏0

發表評論

登陸后可評論

0條評論

dingding199389

男|高級講師

我要關注我要私信

TA的文章

搬瓦工只能年付嗎?能不能按月付款?能不能一次性多買幾年?

閱讀 2128·2021-09-27 14:04
基于vue的驗證碼組件

閱讀 1873·2019-08-30 15:55
CSS居中那些事

閱讀 1698·2019-08-30 13:13
提升你的CSS姿勢

閱讀 1065·2019-08-30 13:07
Node.js究竟是什么？

閱讀 2742·2019-08-29 15:20
垂直居中

閱讀 3240·2019-08-29 12:42
圖解利用CSS實現三角形

閱讀 3324·2019-08-28 17:58
嘿，咱不能老靠著css

閱讀 3593·2019-08-28 17:56

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關文章

**使用Scrapy抓取新浪微博用戶信息**

23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎如何學爬蟲技術

利用新浪API實現數據的抓取微博數據爬取微博爬蟲

發表評論

0條評論

dingding199389

男|高級講師

TA的文章

搬瓦工只能年付嗎?能不能按月付款?能不能一次性多買幾年?

基于vue的驗證碼組件

CSS居中那些事

提升你的CSS姿勢

Node.js究竟是什么？

垂直居中

圖解利用CSS實現三角形

嘿，咱不能老靠著css

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

使用Scrapy抓取新浪微博用戶信息

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！