【譯】技能測試解決方案：Python中的數據科學（二）

zhoutao 發布于2019-07-25 11:46 / 3524人閱讀

摘要：比較折中的解決方案是，另外建立二分類變量，當變量為缺失值時，該變量取值，否則取值。一種方案是創建變量變量的數據透視表，并求變量的值。一種解決辦法是加載指定數目的行數到內存中。

本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。
本系列博文包含四篇文章：
【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30
【譯】技能測試解決方案：Python中的數據科學（三）——Q31-Q45
【譯】技能測試解決方案：Python中的數據科學（四）——A1-A45及其解釋

Q16

在上述數據集中， “Cabin”變量5個樣本中就有3個是缺失值，如果某個變量含有較高比例的缺失值，我們可以刪除該類變量，但這樣做又會損失一定的信息量。
比較折中的解決方案是，另外建立二分類變量 “Missing_Cabin”，當“Cabin”變量為缺失值時，該變量取值1，否則取值0。
下列哪行代碼可以實現這個需求？

A - train["Missing_Cabin"] = train.Cabin.apply(lambda x: x == "")
B - train["Missing_Cabin"] = train.Cabin.isnull() == False
C - train["Missing_Cabin"] = train.Cabin.isnull().astype(int)
D - 以上選項都不能

Q17

上述數據集是出口產品的屬性數據，但是在原始數據中，沒有列名。我們怎樣讀入包含指定列名的數據框的數據集？

A - pd.read_csv("train.csv", header=None, columns=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility" ])
B - pd.read_csv("train.csv", header=None, usecols=["Item_Identifier", "Item_Weight", "Item_Fat_Content", "Item_Visibility"])
C - pd.read_csv("train.csv", header=None, names=["Item_Identifier" ,"Item_Weight" ,"Item_Fat_Content", "Item_Visibility"])
D - 以上選項都不能

Q18

當我們使用pandas讀入數據集時，變量的類型可能解析得不對。為此，我們需要在讀入數據集時，指定每個變量的數據類型，或者讀入數據集后，轉換指定變量的數據類型。
下列哪行代碼可以把“Item_Fat_Content” 變量由“object”類型改變成“category”類型？

A - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("categorical")
B - train["Item_Fat_Content"] = train["Item_Fat_Content"].astype("category")
C - train["Item_Fat_Content"] = train["Item_Fat_Content"].asdtype("category")
D - 以上選項都不能

Q19

上述數據集中， “Item_Identifier”變量似乎和“Item_Type”變量存在一些關系：當“Item_Identifier”變量首字母發生變化時， “Item_Type” 變量隨即也發生變化。當“Item_Identifier”變量以字母“F”開頭時，對應的“Item_Type” 變量取值都是可以吃的物品，而“D”則對應的是飲料。
為了檢驗這個假設，下列哪行代碼可以查詢出所有“Item_Identifier” 變量以“F”開頭的樣本？

A - train.Item_Identifier.str.starts_with("F")
B - train.Item_Identifier.str.startswith("F")
C - train.Item_Identifier.str.is_start("F")
D - 以上選項都不能

Q20

下列哪行代碼可以把 “Item_MRP”變量由“浮點型”改變成“整型”？

A - train["Item_MRP"] = train.Item_MRP.astype(real)
B - train["Item_MRP"] = train.Item_MRP.astype(int)
C - train["Item_MRP"] = train.Item_MRP.astype(float)
D - 以上選項都不能

Q21

我們現在還有另外一個假設：在超市里，對于新顧客而言，一個物品越容易看到，它的銷量就會越好。
下列哪行代碼可以計算 “Item_Outlet_Sales”變量和 “Item_Visibility”變量之間的皮爾遜相關系數？

A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method="pearson")
B - train.Item_Visibility.corr(train.Item_Outlet_Sales)
C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method="pearson")
D - A和B都可以

Q22

我們想查看“Hours.Per.Week”變量相對于用戶的“Marital.Status”變量和“Occupation”變量的分布。一種方案是創建“Marital.Status”變量vs“Occupation”變量的數據透視表，并求“Hours.Per.Week”變量的值。
下列哪行代碼可以實現這個需求？（聚合函數設定為“Sum”）

A - train.pivot(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
B - train.pivot_table(index="Marital.Status", columns="Occupation", values="Hours.Per.Week", aggfunc="sum")
C - train.pivot_table(index="Marital.Status", columns="Hours.Per.Week", values="Occupation", aggfunc="sum")
D - 以上選項都不能

Q23

上述數據集中，假設前兩行都不是我們想要的，我們想從第三行開始讀入數據，在pandas 中如何操作？

A - train = pd.read_csv("train.csv", startrow=2)
B - train = pd.csvReader("train.csv", startrow=2)
C - train = pd.read_csv("train.csv", skiprows=2)
D - 以上選項都不能

Q24

假設數據集太大而不能加載到本地機器中，但是我們仍然想把它加載到內存中。一種解決辦法是加載指定數目的行數到內存中。
下列哪行代碼可以只讀取前500行數據到內存中？

A - train = pd.read_csv("train.csv", nrows=500)
B - train = pd.read_csv("train.csv", numrows=500)
C - train = pd.read_csv("train.csv", rows=500)
D - 以上選項都不能

Q25

我們現在想要知道“Relationship”變量在數據集中的分布。為此，我們可以發現用戶數與“Relationship”變量的百分比分布。
要做到這一點，需要找到“Relationship”變量所有取值的樣本量，然后將其除以總樣本數，得到百分比并將其映射到每一列即可。
下列哪行代碼可以實現這個需求？

A - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_count/train.shape[0])
B - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0])
C - train["Relationship_Percentage"] = train.Relationship.map(train.Relationship.value_counts/train.shape[0])
D - 以上選項都不能

Q26

上述數據集中，“Date_time_of_event”變量被解析成“分類型”變量，因此，一些有關日期的操作不能作用于該變量。
下列哪行代碼可以把 “Date_time_of_event”變量由“分類型”變量轉換成“時間型”變量？

A - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y")
B - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M")
C - train["Date_time_of_event"] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m")
D - 以上選項都不能

Q27

上述數據集中，我們想根據“Date_time_of_event” 變量衍生出 “Date”變量，下列哪行代碼可以提取出“Date_time_of_event” 變量中的日期？

A - train.Date_time_of_event.dt.days
B - train.Date_time_of_event.dt.day
C - train.Date_time_of_event.dt.Day
D - 以上選項都不能

Q28

下列哪行代碼可以提取“Date_time_of_event” 變量中的工作日？

A - train.Date_time_of_event.dt.weekdayname
B - train.Date_time_of_event.dt.weekday_name
C - train.Date_time_of_event.dt.Weekday_name
D - 以上選項都不能

Q29

“時間型”變量可能被解析成unix格式，在抽取有用信息之前，我們必須把它轉換成可用的格式，下列哪行代碼可以實現？

A - pd.to_datetime(train["TIMESTAMP"],unit="s")
B - pd.to_datetime(train["TIMESTAMP"],unit="second")
C - pd.to_datetime(train["TIMESTAMP"],unit="unix")
D - 以上選項都不能

Q30

下列哪行代碼可以找出“現在”與 ‘Date_time_of_event’變量之間的時間差？

A - pd.datetime.now - train.Date_time_of_event.dt
B - pd.datetime.now() - train.Date_time_of_event.dt
C - pd.datetime.now() - train.Date_time_of_event
D - 以上選項都不能

友情鏈接：
【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15
【譯】技能測試解決方案：Python中的數據科學（三）——Q31-Q45
【譯】技能測試解決方案：Python中的數據科學（四）——A1-A45及其解釋

云服務器 GPU云服務器數據科學在生活中的應用軟件測試技能 java第二階段測試數據遷移測試方案

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38599.html

【譯】技能測試解決方案：Python中的數據科學（四）

摘要：友情鏈接譯技能測試解決方案中的數據科學一譯技能測試解決方案中的數據科學二譯技能測試解決方案中的數據科學三本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。本系列博文包含四篇文章：【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30【譯】技能測試解決方案：Python中的數據科學（...

sourcenode 2019-07-31 10:55 評論0 收藏0
【譯】技能測試解決方案：Python中的數據科學（三）

摘要：在關聯該數據集時，重復行會帶來一定的困擾，為了避免這個困擾，我們只保留重復數據第一個出現的樣本。本文是譯文，可以轉載，但需注明出處，點擊這里可以獲取原文，有刪減。本系列博文包含四篇文章：【譯】技能測試解決方案：Python中的數據科學（一）——Q1-Q15【譯】技能測試解決方案：Python中的數據科學（二）——Q16-Q30 【譯】技能測試解決方案：Python中的數據科學（三）...

i_garfileo 2019-07-25 11:46 評論0 收藏0
SegmentFault 技術周刊 Vol.30 - 學習 Python 來做一些神奇好玩的事情吧

摘要：學習筆記七數學形態學關注的是圖像中的形狀，它提供了一些方法用于檢測形狀和改變形狀。學習筆記十一尺度不變特征變換，簡稱是圖像局部特征提取的現代方法基于區域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機制，并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言開始之前，我們先來看這樣一個提問： pyth...

lifesimple 2019-07-30 14:22 評論0 收藏0
深度 : 數據科學，來自業界的誘惑（譯）

摘要：所以克拉姆卡創辦了洞察力數據科學公司來為博士們提供面向業界數據科學的職業培訓。舊金山公司的數據實驗室主管伊萊巴塞特建議，學習更符合業界胃口的編程工具如和語言。伊萊·巴塞特（Eli Bressert）計劃把自己的學術生涯都放在針對恒星形成的研究上。他在英國埃克塞特大學（University of Exeter）獲得博士學位，又在澳洲悉尼附近完成了針對射電天文學的博士后研究。他發表論文的引用量...

Acceml 2019-04-25 17:59 評論0 收藏0