【譯】技能測試解決方案：Python中的數據科學（三）

i_garfileo 發布于2019-07-25 11:46 / 3207人閱讀

摘要：在關聯該數據集時，重復行會帶來一定的困擾，為了避免這個困擾，我們只保留重復數據第一個出現的樣本。

本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。
本系列博文包含四篇文章：
【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30
【譯】技能測試解決方案：Python中的數據科學（三）——Q31-Q45
【譯】技能測試解決方案：Python中的數據科學（四）——A1-A45及其解釋

Q31

下列哪行代碼可以把 “Date_time_of_event” 變量中的日期替換為當月第一天的日期？

A - train["Date_time_of_event"] = train.Date_time_of_event.apply(lambda x: x.replace(day=1))
B - >>> train["month"] = train.Date_time_of_event.dt.month; train["year"] = train.Date_time_of_event.dt.year
    >>> train["day"] = 1
    >>> train["Date_time_of_event"] = train.apply(lambda x:pd.datetime.strptime("{0} {1} {2}".format(x["year"],x["month"], x["day"]), "%Y %m %d"),axis=1)
C - A和B均可以
D - 以上選項都不能

Q32

上述數據集提供每日必需品費用，下列哪行代碼可以匯總出每天的累計成本？

A - a.sumcum(axis=0)
B - a.cumsum(axis=1)
C - a.sumcum(axis=1)
D - a.cumsum(axis=0)

Q33

給定訓練集，學生集和實習集3個數據集，我們需要合并這些數據集，使得合并后的訓練數據必須具有來自學生集的學生信息和來自實習集的實習信息。

train=pd.merge(train,internship,on=’_____’,how=’____’)
train=pd.merge(train,student,on=’_____’,how=’____’)

為了實現上述需求，需要補充如下代碼：

A - Student_ID, outer, Internship_ID, inner
B - Internship_ID, right, Student_ID, inner
C - Internship_ID, inner, Student_ID, under
D - Internship_ID, inner, Student_ID, inner

Q34

上述數據集中，存在重復行。在關聯該數據集時，重復行會帶來一定的困擾，為了避免這個困擾，我們只保留重復數據第一個出現的樣本。

student.______(subset=[‘Student_ID’],keep=_____,inplace=____)

為了實現上述需求，需要補充哪些代碼？

A - drop_same, first, True
B - drop_duplicates, first, False
C - drop_same, last, True
D - drop_duplicates, first, True

Q35

下列哪行代碼可以提取上述字符串中的郵箱地址？

A - match=re.search(r"w+@w+",string)
B - match=re.findall(r"[w._]+@[w.]+",string)
C - match=re.purge(r"[w._]+@[w.__]+",string)
D - match=re.compile(r"[w._]@[w.]",string)

Q36

下列哪行代碼可以刪除“sleep”行的數據？

A - train.drop("sleep", axis=1)
B - train.dropna("sleep", axis=1)
C - train.drop("sleep", axis=0)
D - 以上選項都不能

Q37

train=train.drop(["Preferred_location","Minimum_Duration"],___________)

上述代碼需要添加哪些代碼才能實現把"Preferred_location"變量和"Minimum_Duration"變量從測試集中刪除？

A - axis=0
B - axis=1
C - inplace=True
D - inplace=False

Q38

上述數據集是San Fransisco地區不同犯罪類型的訓練數據集。
下列哪行代碼可以繪制不同類型犯罪總數的直方圖？

A - train.Category.plot(kind="bar")
B - train.Category.hist()
C - train.Category.value_counts().plot(kind="bar")
D - 以上選項都不能

Q39

下列哪行代碼可以繪制出上述數據集中“Credit_History”變量和“Loan_Status”變量的堆疊條形圖？

A - train.unstack().plot(kind="bar",stacked=True, color=["red","blue"], grid=False)
B - train.restack().plot(kind="bar",stacked=True, color=["red","blue"], grid=False)
C - train.restack().plot(kind="bar",stacked=False, color=["red","blue"], grid=False)
D - 以上選項都不能

Q40

下列代碼可以繪制出“temp”變量和“atemp”變量之間的散點圖：

plt.scatter(train.temp,train.atemp,alpha=1,c="b",s=20)

如何修改上述代碼，以實現總數越多，顏色則越深？

A - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count.value_counts,s=20)
B - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count,s=20)
C - plt.scatter(train.temp,train.atemp,alpha=1,s=20,color=train.Count)
D - plt.scatter(train.temp,train.atemp,alpha=1,s=20,c=w)

Q41

上述數據集中，我們假設“temp”變量的季節性變化可能會影響“Count”變量，繪制兩者的箱型圖可以檢驗這個假設。
下列哪行代碼可以實現這個需求？

A - train.boxplot(column="season", by="temp")
B - train.boxplot(ax="temp", by="season")
C - train.boxplot(ax="temp", column="season")
D - train.boxplot(column="temp", by="season")

Q42

繪制直方圖是觀察變量頻率的一種可視化方法，下列哪行代碼可以實現繪制‘temp’ 變量分箱為50的直方圖？

A - train.hist(column="temp")
B - train.hist(column="temp", bin_size=50)
C - train.hist(column="temp", bins=50)
D - 以上選項都不能

Q43

繪制自相關圖，可以讓你看到uf時間序列是非隨機的，則一個或多個自相關將顯著非零。
下列哪行代碼可以繪制“temp” 變量的自相關圖？

A - pd.tools.plotting.autocorr(train.temp)
B - pd.tools.plot.autocorr(train.temp)
C - pd.tools.plotting.autocorrelation_plot(train.temp)
D - 以上選項都不能

Q44

上述圖形展示了周一到周日每天每個小時房屋出租的數量。

>>> fig=plt.figure()
>>> for i in range(0,7):
>>>     fig.add_subplot(3,3,____)
>>>     t1=train[train["______"]==i] 
>>>     t1.________(["hour"])["count"].sum().plot(kind="bar")

根據已知的數據集，上述代碼需要添加哪些代碼才能繪制出如上的圖形？

A - i+1, day, groupby
B - i, day, groupby
C - i, Count, groupby
D - i, day, value_counts

Q45

>>> train.________(["Year","Gender"]).size()._____[1880]

如果需要匯總出1880年男孩和女孩的數量，上述代碼需要添加哪些代碼？

A - groupby, idx
B - groupby, loc
C - groupby, iloc
D - value_counts, iloc

友情鏈接：
【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30
【譯】技能測試解決方案：Python中的數據科學（四）——A1-A45及其解釋

GPU云服務器云服務器數據科學在生活中的應用軟件測試技能數據遷移測試方案 python科學計算

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38598.html

【譯】技能測試解決方案：Python中的數據科學（四）

摘要：友情鏈接譯技能測試解決方案中的數據科學一譯技能測試解決方案中的數據科學二譯技能測試解決方案中的數據科學三本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。本系列博文包含四篇文章：【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30【譯】技能測試解決方案：Python中的數據科學（...

sourcenode 2019-07-31 10:55 評論0 收藏0
【譯】技能測試解決方案：Python中的數據科學（二）

摘要：比較折中的解決方案是，另外建立二分類變量，當變量為缺失值時，該變量取值，否則取值。一種方案是創建變量變量的數據透視表，并求變量的值。一種解決辦法是加載指定數目的行數到內存中。本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。本系列博文包含四篇文章：【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15 【譯】技能測試解決方案：Python中的數據...

zhoutao 2019-07-25 11:46 評論0 收藏0
深度 : 數據科學，來自業界的誘惑（譯）

摘要：所以克拉姆卡創辦了洞察力數據科學公司來為博士們提供面向業界數據科學的職業培訓。舊金山公司的數據實驗室主管伊萊巴塞特建議，學習更符合業界胃口的編程工具如和語言。伊萊·巴塞特（Eli Bressert）計劃把自己的學術生涯都放在針對恒星形成的研究上。他在英國埃克塞特大學（University of Exeter）獲得博士學位，又在澳洲悉尼附近完成了針對射電天文學的博士后研究。他發表論文的引用量...

Acceml 2019-04-25 17:59 評論0 收藏0
SegmentFault 技術周刊 Vol.30 - 學習 Python 來做一些神奇好玩的事情吧

摘要：學習筆記七數學形態學關注的是圖像中的形狀，它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換，簡稱是圖像局部特征提取的現代方法基于區域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制，并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言開始之前，我們先來看這樣一個提問： pyth...

lifesimple 2019-07-30 14:22 評論0 收藏0