今天開始學(xué)習(xí)《數(shù)據(jù)科學(xué)手冊》,主要學(xué)習(xí)3-5章,其他的選修。
-- 先連接數(shù)據(jù)庫加載數(shù)據(jù):用sqlalchemy 的create_engine連接:
注意:代碼里mysql+pymysql: 這部分不能加空格,否則會報錯
import pymysql import pandas as pd from sqlalchemy import create_engine sql = "select * from sougou" engine = create_engine("mysql+pymysql://root:123456@192.168.200.200/xiaom") df = pd.read_sql(sql,engine,)
查看每列的格式:
RangeIndex: 2324 entries, 0 to 2323
Data columns (total 6 columns):
date 2324 non-null object
id 2324 non-null object
word 2324 non-null object
rank1 2324 non-null object
number1 2324 non-null object
url 2324 non-null object
dtypes: object(6)
memory usage: 109.0+ KB
str轉(zhuǎn)int轉(zhuǎn)換為數(shù)字:https://vimsky.com/article/36...
data =df data[["rank1","number1"]] = data[["rank1","number1"]].apply(pd.to_numeric,errors="coerce") data第3章4-6節(jié):索引 -- loc、iloc、ix的運用 1、多重索引 兩個條件
data[(data["rank1"] > 10) & (data["number1"] > 10)]
2、loc與iloc的區(qū)別:loc[1:3]包含2-4條,iloc為2-3條 ,不含第4條數(shù)據(jù) 3、行列轉(zhuǎn)換:data.T 4、用iloc取指定行列數(shù)據(jù):data.iloc[1:3,3:4] data.iloc[:,2:4] data.iloc[:,:"rank1"] #從前面取到rank1列5、沒怎么懂的pd.MultiIndex.from_tuples(),直接跳過 6、設(shè)置索引、索引排序:
set_index(inplace = True) 會在原數(shù)據(jù)集上修改
sort_index()
reset_index(drop= True) # 重設(shè)索引為默認(rèn)索引
indexdata = data indexdata.set_index(data["rank1"], inplace = True) indexdata.sort_index() indexdata.reset_index(drop= True) #重設(shè)索引為默認(rèn)索引
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/44963.html
摘要:第章合并連接數(shù)據(jù)集包含三個函數(shù)省略,在頁。沒有對默認(rèn)合并兩個表的所有列,如果有列,有列,則結(jié)果為列多對保留多條記錄多對多會交叉每一條記錄通過參數(shù)設(shè)定連接方式兩個表都有兩個字段,則通過連接兩個表。 第3章 7-8:合并、連接數(shù)據(jù)集 包含三個函數(shù):numpy:concatenate 省略,在126頁。pandas:concat/ append(略過) /merge 主要是講merge函數(shù)...
摘要:聚合后沒有用函數(shù),會返回一個用函數(shù)后會顯示計算結(jié)果組合之后,切片,查看的和。可以設(shè)定計算方法對列進(jìn)行了切片,如果的均值小于,則不顯示二部的均值低于,所以結(jié)果中沒有二部數(shù)據(jù)。 本節(jié)學(xué)習(xí)groupby 引用激勵數(shù)據(jù),連接數(shù)據(jù)庫jili表(代碼省略)數(shù)字簡單計算本節(jié)內(nèi)容前面是運用sum/mean等函數(shù)對數(shù)字簡單計算 jili.mean() #求均值 jili.mean(axis = col...
摘要:官方文檔連接像其他函數(shù)一樣,官方文檔中的參數(shù)有很多,具體如下寫在前面,如果要對透視表中的字段進(jìn)行計數(shù),有時候用會報錯,可以用實例運用簡單版透視表上面以部門為索引,下面有二級索引,部門小組。 本節(jié)學(xué)習(xí)數(shù)據(jù)透視表 引用激勵數(shù)據(jù),連接數(shù)據(jù)庫jili表,jili這幾個太難打了,下文用df代表激勵數(shù)據(jù)(代碼省略)之前在excel中用爛了的透視表,終于用python來實現(xiàn)了,其實主要是講pivot...
摘要:主鍵唯一標(biāo)識表中每行的這個列稱為主鍵。不為空,每行數(shù)據(jù)必須具有一個主鍵值。主要負(fù)責(zé)與用戶進(jìn)行交互,接受用戶的指令,然后發(fā)出請求給,負(fù)責(zé)數(shù)據(jù)訪問和處理,然后將結(jié)果返回給。注意雖然似乎通配符可以匹配任何東西,但有一個例外,即。 為什么寫這篇文章 因為我最近的一些工作內(nèi)容跟數(shù)據(jù)分析比較密切,所以需要對SQL使用得比較熟練,所以便閱讀了《MySQL 必知必會》這本書,為了檢驗自己的閱讀效果及幫...
閱讀 2624·2021-11-18 10:07
閱讀 1083·2021-08-03 14:04
閱讀 726·2019-08-30 13:08
閱讀 2579·2019-08-29 15:33
閱讀 1087·2019-08-29 14:07
閱讀 2985·2019-08-29 14:04
閱讀 1435·2019-08-29 11:19
閱讀 1144·2019-08-29 10:59