摘要:背景本文是大數(shù)據(jù)分析成都二手房平均價(jià)格的續(xù)集,前一篇文章中我們學(xué)習(xí)了如何使用爬蟲獲取數(shù)據(jù),以及查看各個(gè)區(qū)域的平均價(jià)格做個(gè)大概的了解。
背景
本文是《大數(shù)據(jù)分析01——成都二手房(平均價(jià)格)》的續(xù)集,前一篇文章中我們學(xué)習(xí)了如何使用爬蟲獲取數(shù)據(jù),以及查看各個(gè)區(qū)域的平均價(jià)格做個(gè)大概的了解。
但是存在2個(gè)問題:
(1)爬蟲爬取了大量重復(fù)的數(shù)據(jù),影響了分析結(jié)果
(2)沒有幫助用戶定位到自己滿意的房源
本文將詳細(xì)講解如何解決這2個(gè)問題。
數(shù)據(jù)去重
解決的思路來子我自己提的問題爬蟲如何去重,感興趣的朋友可以過去看看。根據(jù)大家的建議我去重新學(xué)習(xí)scrapy的框架:
Scrapy運(yùn)行流程大概如下:
首先,引擎(engine)從調(diào)度器(Scheduler)中取出一個(gè)鏈接(URL)用于接下來的抓取
引擎把URL封裝成一個(gè)請求傳給下載器(Donwloader),下載器把資源下載下來,并封裝成應(yīng)答包(Response)
然后,爬蟲解析Response
若是解析出實(shí)體(Item),則交給實(shí)體管道(Pipeline)進(jìn)行進(jìn)一步的處理。
若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取。
這個(gè)Scheduler的中間件不就負(fù)責(zé)URL的去重嗎,然后我去掉request這個(gè)模塊,讓所有的請求都使用Scrapy.requset去發(fā)送,果然數(shù)據(jù)不會再重復(fù)了。最終我拿到了2萬多條不重復(fù)的數(shù)據(jù),與鏈家官方提示的只相差幾百條數(shù)據(jù),不清除是鏈家自己有重復(fù)的數(shù)據(jù),還是我在輸入驗(yàn)證碼的時(shí)候丟失了這部分?jǐn)?shù)據(jù)。后期再跟蹤吧。但是現(xiàn)在的數(shù)據(jù)已經(jīng)可以反應(yīng)真實(shí)情況了。
定位房源
首先,我重新做了一張各個(gè)區(qū)平均房價(jià)的透視圖,大家可以和前一篇文章的比較一下,看看重復(fù)數(shù)據(jù)vs完整數(shù)據(jù)的差別:
然后,我們想知道現(xiàn)在大家都更關(guān)注那個(gè)區(qū)域的房源,于是我把樓盤“看房數(shù)”和"關(guān)注數(shù)"堆疊起來作為關(guān)注度,得到下圖:
看來天府新區(qū)和高新區(qū)限購后,大家都開始看周邊的房子,比如龍泉驛,溫江,雙流。
那么究竟有哪些比較火的樓盤了,繼續(xù)把“看房數(shù)”和"關(guān)注數(shù)"加起來,然后對“看房數(shù)”和"關(guān)注數(shù)"大于200的做個(gè)過濾(這里的price是總價(jià)):
剛好公司一位同事也準(zhǔn)備買房子,他想在雙流買一套二的,價(jià)格在60-90w,我們利用他給的條件加上“熱度”,我過濾出下面數(shù)據(jù):
最后,看看我們的數(shù)據(jù)都集中在哪些地區(qū)吧,這里度量我們用的平均價(jià)格,對應(yīng)圖標(biāo),越紅表示價(jià)格越高,樓盤越多:
謝謝觀看,覺得不錯的朋友點(diǎn)個(gè)贊唄。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/40814.html
摘要:分布式任務(wù)調(diào)度平臺一簡介概述是一個(gè)輕量級分布式任務(wù)調(diào)度框架,其核心設(shè)計(jì)目標(biāo)是開發(fā)迅速學(xué)習(xí)簡單輕量級易擴(kuò)展。 《分布式任務(wù)調(diào)度平臺XXL-JOB》 showImg(https://segmentfault.com/img/remote/1460000010402214);showImg(https://segmentfault.com/img/remote/146000001040221...
摘要:原文地址爬取汽車之家二手車產(chǎn)品庫項(xiàng)目地址目標(biāo)最近經(jīng)常有人在耳邊提起汽車之家,也好奇二手車在國內(nèi)的價(jià)格是怎么樣的,因此本次的目標(biāo)站點(diǎn)是汽車之家的二手車產(chǎn)品庫分析目標(biāo)源一頁共條含分頁,但這個(gè)老產(chǎn)品庫,在頁后會存在問題,因此我們爬取頁可以獲取全 原文地址:爬取汽車之家 二手車產(chǎn)品庫項(xiàng)目地址:https://github.com/go-crawler... 目標(biāo) 最近經(jīng)常有人在耳邊提起汽車之家...
閱讀 3110·2021-11-10 11:36
閱讀 3312·2021-10-13 09:40
閱讀 6051·2021-09-26 09:46
閱讀 662·2019-08-30 15:55
閱讀 1409·2019-08-30 15:53
閱讀 1580·2019-08-29 13:55
閱讀 2997·2019-08-29 12:46
閱讀 3204·2019-08-29 12:34