使用Scrapy抓取新浪微博用戶信息

Cruise_Chan 發(fā)布于2019-06-26 17:57 / 2415人閱讀

摘要：詳細(xì)代碼可查看數(shù)據(jù)的來(lái)源是新浪微博的手機(jī)端頁(yè)面?zhèn)€人資料用戶發(fā)出的微博用戶頁(yè)數(shù)從開(kāi)始

詳細(xì)代碼可查看Knowsmore

數(shù)據(jù)的來(lái)源是新浪微博的手機(jī)端H5頁(yè)面

個(gè)人資料API：https://m.weibo.cn/profile/in...【用戶ID】發(fā)出的微博API：https://m.weibo.cn/api/contai...【用戶ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁(yè)數(shù)從1開(kāi)始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    "BASE_URL" : "https://m.weibo.cn",
    "USER_IDS" : ["6883966016"]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG["USER_IDS"]:
            url = "%s/profile/info?uid=%s" % (WEIBO_USER_CONFIG["BASE_URL"], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = "%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d" % (WEIBO_USER_CONFIG["BASE_URL"], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data["data"]["fans"],
            follow_url = user_data["data"]["follow"],
            more_url = user_data["data"]["more"],
            user = user_data["data"]["user"]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data["data"]["cards"]
        )

云服務(wù)器 GPU云服務(wù)器 python抓取微博新浪微博仿新浪微博新浪微博分享

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/19465.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Cruise_Chan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

如何選擇云虛擬主機(jī)-該怎么選擇合適自己的云虛擬主機(jī)？

閱讀 1148·2021-09-22 15:43
華為如何上傳文件到windows云主機(jī)-云主機(jī)怎么上傳程序呢？

閱讀 2345·2021-09-22 15:32
主機(jī)指的是什么-通常所說(shuō)的主機(jī)是指什么？

閱讀 4455·2021-09-22 15:11
CSS居中總結(jié)大全

閱讀 2188·2019-08-30 15:55
CSS+DIV自適應(yīng)布局

閱讀 2564·2019-08-30 15:54
浮動(dòng)定位之三列布局問(wèn)題與發(fā)現(xiàn)（下）

閱讀 984·2019-08-30 15:44
前端面試總結(jié)——持續(xù)更新

閱讀 1095·2019-08-29 13:26
CSS 公共樣式分享

閱讀 794·2019-08-29 12:54

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用Scrapy抓取新浪微博用戶信息

相關(guān)文章

**使用Scrapy抓取新浪微博用戶信息**

23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

利用新浪API實(shí)現(xiàn)數(shù)據(jù)的抓取微博數(shù)據(jù)爬取微博爬蟲(chóng)

發(fā)表評(píng)論

0條評(píng)論

Cruise_Chan

男|高級(jí)講師

TA的文章

如何選擇云虛擬主機(jī)-該怎么選擇合適自己的云虛擬主機(jī)？

華為如何上傳文件到windows云主機(jī)-云主機(jī)怎么上傳程序呢？

主機(jī)指的是什么-通常所說(shuō)的主機(jī)是指什么？

CSS居中總結(jié)大全

CSS+DIV自適應(yīng)布局

浮動(dòng)定位之三列布局問(wèn)題與發(fā)現(xiàn)（下）

前端面試總結(jié)——持續(xù)更新

CSS 公共樣式分享

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用Scrapy抓取新浪微博用戶信息

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！