摘要:前幾天利用爬取了我愛我家的租房的一些數據,就想著能不能對房租進行一波分析,于是通過書籍和博客等查閱了相關資料,進行了房租的區間分析。
前幾天利用python爬取了我愛我家的租房的一些數據,就想著能不能對房租進行一波分析,于是通過書籍和博客等查閱了相關資料,進行了房租的區間分析。不得不說,用python做區間分析比我之前用sql關鍵字統計區間簡單多了,話不多說,上代碼
# coding=utf-8 import pandas as pd import pymysql import matplotlib.pyplot as plt db = pymysql.connect(host="127.0.0.1", port=3306, user="root", passwd="root", db="woaiwojia", charset="utf8") cursor = db.cursor() df = pd.read_sql("select * from zufang ", db) #以下注釋為對pandas讀取數據之后的數據處理讀取的嘗試 #前三行 #rows = df[0:3] #price和lxrphone兩列 #cols = df[["price", "lxrphone"]] #aa = pd.DataFrame(df) #前三行和lxrphone和price列 # print(df.ix[0:3,["price","lxrphone"]]) #讀取數據的信息 # print(df.info()) #查看表的描述性信息 # print(df.describe()) #以下為獲取price列的最大最小值并分組 xse = df["price"] # print(xse.max()) # print(xse.min()) fanwei = list(range(1500, xse.max(), 1500)) fenzu = pd.cut(xse.values, fanwei, right=False) # 分組區間,長度91 # print(fenzu.codes)#標簽 # print(fenzu.categories)#分組區間,長度8 pinshu = fenzu.value_counts() # series,區間-個數 #print(pinshu) # print(pinshu.index) #設置plot的展示格式 pinshu.plot(kind="bar") qujian = pd.cut(xse, fanwei, right=False) df["區間"] = qujian.values df.groupby("區間").median() df.groupby("區間").mean() pinshu_df = pd.DataFrame(pinshu, columns=["頻數"]) pinshu_df["頻率f"] = pinshu_df / pinshu_df["頻數"].sum() pinshu_df["頻率%"] = pinshu_df["頻率f"].map(lambda x: "%.2f%%" % (x * 100)) pinshu_df["累計頻率f"] = pinshu_df["頻率f"].cumsum() pinshu_df["累計頻率%"] = pinshu_df["累計頻率f"].map(lambda x: "%.4f%%" % (x * 100)) print(pinshu_df) plt.show()
打印的結果
使用matplotlib.pyplot的show方法展示的數據
參考博客 pandas分區間,算頻率
參考書籍《Python3爬蟲、數據清洗與可視化實戰》
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/42046.html
摘要:使用實現以上是使用純來完成的簡單直方圖,但是從數學意義上來看,直方圖是分箱到頻數的一種映射,它可以用來估計變量的概率密度函數的。第一種情況你是在估計一個未知的概率密度函數,而第二種情況是你是知道分布的,并想知道哪些參數可以更好的描述數據。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 直方圖是一個可以快速展示數據概率分布的工具,直觀易于理解,并深...
摘要:有一些表示常見圖形的對象稱為塊,完整的集合位于。中的繪圖函數在中,有行標簽列標簽分組信息。密度圖通過計算可能會產生觀測數據的連續概率分布的估計而產生的。在探索式數據分析工作中,同時觀察一組變量的散布圖是很有意義的。 我們在上一篇介紹了 pandas,本篇介紹 matplotlib。 繪圖和可視化 一個用于創建出版質量圖表的桌面繪圖包。 Matplotlib API入門 Figure ...
前言: 先感受一下數據科學的魅力,上圖是在Smart Dubai 2017 GITEX科技周展臺上推出Smart Decision-Making Platform(智能決策平臺),于10月8日至12日在迪拜世界貿易中心舉行。游客可以通過一個沉浸式的空間將數據可視化,讓他們了解迪拜的未來。讓參觀者可以在現場查閱觀看全市數據,這意味著迪拜將成為了世界上第一個與公眾分享實時實時數據的城市,同時還可以預...
摘要:當數據發生變化時,這種演變過程隨之發生。是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。 showImg(https://segmentfault.com/img/bVbnkP1?w=751&h=558); python相關 基礎概念 數據:離散的,客觀事實的數字表示 信息:處理后的數據,為實際問題提供答案 - 為數據提供一種關系或一個關聯后,數據就成了信...
摘要:數據分析的發展方向一般有商業方向,行業分析業務方向,和機器學習數據挖掘方向。機器學習的書籍推薦統計學習方法,機器學習,機器學習實戰三本書。 作者:xiaoyu 微信公眾號:Python數據科學 知乎:python數據分析師 上一篇主要分享了博主親身轉行數據分析的經歷: 【從零學起到成功轉行數據分析,我是怎么做的?】 本篇繼上一篇將分享轉行數據分析的一些經驗和學習方法,看完這篇你將會解...
閱讀 2555·2021-09-30 10:00
閱讀 3491·2021-09-22 10:54
閱讀 6212·2021-09-07 10:28
閱讀 2943·2019-08-29 13:53
閱讀 742·2019-08-29 12:42
閱讀 958·2019-08-26 13:51
閱讀 1258·2019-08-26 13:32
閱讀 3021·2019-08-26 10:39