摘要:一個(gè)簡(jiǎn)單的方法將類別變量轉(zhuǎn)換成數(shù)值向量是一個(gè)獨(dú)熱編碼。在中一個(gè)獨(dú)熱編碼非常簡(jiǎn)單。在線性回歸模式中,在每個(gè)節(jié)點(diǎn)最少所需實(shí)例數(shù)量將簡(jiǎn)單的同時(shí)部署。
介紹
你知道 XGBoost 算法是一種現(xiàn)在在數(shù)據(jù)科學(xué)競(jìng)賽的獲勝方案很流行的算法嗎?
那么,他比傳統(tǒng)的隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)算法強(qiáng)在哪里呢?廣義上來(lái)說(shuō),它在效率,準(zhǔn)確性,可行性都更有優(yōu)勢(shì)(接下來(lái)我們將會(huì)詳細(xì)討論)。
在最近的幾年中,模型預(yù)測(cè)已經(jīng)變得越來(lái)越快速和準(zhǔn)確了。我記得我曾花費(fèi)數(shù)個(gè)小時(shí)在為某個(gè)模型構(gòu)建特征工程上,模型卻僅僅提升了幾個(gè)百分點(diǎn)。
現(xiàn)在,這些大量困難的問(wèn)題都被更好的算法所解決。
從技術(shù)上說(shuō),XGBoost 是 Extreme Gradient Boosting 的縮寫(xiě)。它的流行源于在著名的Kaggle數(shù)據(jù)科學(xué)競(jìng)賽上被稱為"奧托分類"的挑戰(zhàn)。
2015年8月,Xgboost的R包發(fā)布,我們將在本文引用0.4-2版本的xgboost包。
在這篇文章中,我講解釋一個(gè)簡(jiǎn)單的方式來(lái)使用xgboost在R中。 因此,下次當(dāng)你建立一個(gè)模型時(shí)可以考慮一下這個(gè)算法。我確信這是一個(gè)令人驚艷和幸福的時(shí)刻。
什么是 XGBoost?xgboost 是"極端梯度上升"(Extreme Gradient Boosting)的簡(jiǎn)稱, 它類似于梯度上升框架,但是更加高效。它兼具線性模型求解器和樹(shù)學(xué)習(xí)算法。因此,它快速的秘訣在于算法在單機(jī)上也可以并行計(jì)算的能力。
這使得xgboost至少比現(xiàn)有的梯度上升實(shí)現(xiàn)有至少10倍的提升。它提供多種目標(biāo)函數(shù),包括回歸,分類和排序。
由于它在預(yù)測(cè)性能上的強(qiáng)大但是相對(duì)緩慢的實(shí)現(xiàn),"xgboost" 成為很多比賽的理想選擇。
它還有做交叉驗(yàn)證和發(fā)現(xiàn)關(guān)鍵變量的額外功能。在優(yōu)化模型時(shí),這個(gè)算法還有非常多的參數(shù)需要調(diào)整。我們將在下一個(gè)章節(jié)討論這些因素。
XGBoost僅適用于數(shù)值型向量。是的!你需要使用中區(qū)分?jǐn)?shù)據(jù)類型。
因此,您需要將所有其他形式的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型向量。一個(gè)簡(jiǎn)單的方法將類別變量轉(zhuǎn)換成數(shù)值向量是一個(gè)"獨(dú)熱編碼"。這個(gè)詞源于數(shù)字電路語(yǔ)言,這意味著一個(gè)數(shù)組的二進(jìn)制信號(hào),只有合法的值是0和1。
在R中,一個(gè)獨(dú)熱編碼非常簡(jiǎn)單。這一步(如下所示)會(huì)在每一個(gè)可能值的變量使用標(biāo)志建立一個(gè)稀疏矩陣。稀疏矩陣是一個(gè)矩陣的零的值。稀疏矩陣是一個(gè)大多數(shù)值為零的矩陣。相反,一個(gè)稠密矩陣是大多數(shù)值非零的矩陣。
假設(shè),你有一個(gè)叫“競(jìng)選”的數(shù)據(jù)集,除了反應(yīng)變量,想將所有分類變量轉(zhuǎn)換成一些標(biāo)志。如下所示:
sparse_matrix <- Matrix::sparse.model.matrix(response ~ .-1, data = campaign)
現(xiàn)在讓我們分解這個(gè)代碼如下:
sparse.model.matrix這條命令的圓括號(hào)里面包含了所有其他輸入?yún)?shù)。
參數(shù)“反應(yīng)”說(shuō)這句話應(yīng)該忽略“響應(yīng)”變量。
“-1”意味著該命令會(huì)刪除矩陣的第一列。
最后你需要指定數(shù)據(jù)集名稱。
想要轉(zhuǎn)化目標(biāo)變量,你可以使用下面的代碼:
output_vector = df[,response] == "Responder"
代碼解釋:
設(shè) output_vector 初值為0。
在 output_vector 中,將響應(yīng)變量的值為 "Responder" 的數(shù)值設(shè)為1;
返回 output_vector。
在R中運(yùn)用Xgboost建立模型可以使用xgboost破解任何數(shù)據(jù)問(wèn)題,下面是簡(jiǎn)單的步驟:
第一步:加載的所有庫(kù)library(xgboost) library(readr) library(stringr) library(caret) library(car)第二步:加載數(shù)據(jù)集
(這里我用一個(gè)銀行的數(shù)據(jù),我們需要找到一個(gè)客戶是否有資格獲得貸款)。
set.seed(100) setwd("C:Users s93856Desktopdatasource") # 加載數(shù)據(jù) df_train = read_csv("train_users_2.csv") df_test = read_csv("test_users.csv")
# 加載標(biāo)簽的訓(xùn)練數(shù)據(jù)
labels = df_train["labels"] df_train = df_train[-grep("labels", colnames(df_train))]
# combine train and test data df_all = rbind(df_train,df_test)第三步:數(shù)據(jù)清洗和特征工程
# 清洗變量 : 這里我篩選出年齡不到14歲或超過(guò)100的人
df_all[df_all$age < 14 | df_all$age > 100,"age"] <- -1 df_all$age[df_all$age < 0] <- mean(df_all$age[df_all$age > 0])
# 獨(dú)熱編碼分類特征 ohe_feats = c("gender", "education", "employer")
dummies <- dummyVars(~ gender + education + employer, data = df_all) df_all_ohe <- as.data.frame(predict(dummies, newdata = df_all)) df_all_combined <- cbind(df_all[,-c(which(colnames(df_all) %in% ohe_feats))],df_all_ohe)df_all_combined$agena <- as.factor(ifelse(df_all_combined$age < 0,1,0))
我在 “feature_selected” 中為模型提供一組變量可供使用。本文后面會(huì)分享我在選擇變量中一個(gè)快速又巧妙的方法。
df_all_combined <- df_all_combined[,c("id",features_selected)] # split train and test X = df_all_combined[df_all_combined$id %in% df_train$id,] y <- recode(labels$labels,""True"=1; "False"=0) X_test = df_all_combined[df_all_combined$id %in% df_test$id,]第四步:調(diào)整和運(yùn)行模式
xgb <- xgboost(data = data.matrix(X[,-1]), label = y, eta = 0.1, max_depth = 15, nround=25, subsample = 0.5, colsample_bytree = 0.5, seed = 1, eval_metric = "merror", objective = "multi:softprob", num_class = 12, nthread = 3 )第五步:測(cè)試分?jǐn)?shù)
您現(xiàn)在有了一個(gè)對(duì)象“xgb”,這是一個(gè)xgboost模型。下面是是如何評(píng)分測(cè)試數(shù)量:
# 在測(cè)試集預(yù)測(cè)的值 y_pred <- predict(xgb, data.matrix(X_test[,-1]))在 Xgboost 中使用參數(shù)
我明白,現(xiàn)在,你會(huì)非常好奇地想知道用于xgboost模型的各種參數(shù)。它有三種類型的參數(shù):通用參數(shù)、輔助參數(shù)和任務(wù)參數(shù)。
通用參數(shù)為我們提供在上升過(guò)程中選擇哪種上升模型。常用的是樹(shù)或線性模型。
輔助參數(shù)取決于你選擇的上升模型。
任務(wù)參數(shù),決定學(xué)習(xí)場(chǎng)景,例如,回歸任務(wù)在排序任務(wù)中可能使用不同的參數(shù)。
讓我們?cè)敿?xì)了解這些參數(shù)。我需要你注意,這是實(shí)現(xiàn)xgboost算法最關(guān)鍵的部分:
一般參數(shù)silent : 默認(rèn)值是0。您需要指定0連續(xù)打印消息,靜默模式1。
booster : 默認(rèn)值是gbtree。你需要指定要使用的上升模型:gbtree(樹(shù))或gblinear(線性函數(shù))。
num_pbuffer : 這是由xgboost自動(dòng)設(shè)置,不需要由用戶設(shè)定。閱讀xgboost文檔的更多細(xì)節(jié)。
num_feature : 這是由xgboost自動(dòng)設(shè)置,不需要由用戶設(shè)定。
輔助參數(shù)具體參數(shù)樹(shù)狀圖:
eta:默認(rèn)值設(shè)置為0.3。您需要指定用于更新步長(zhǎng)收縮來(lái)防止過(guò)度擬合。每個(gè)提升步驟后,我們可以直接獲得新特性的權(quán)重。實(shí)際上 eta 收縮特征權(quán)重的提高過(guò)程更為保守。范圍是0到1。低η值意味著模型過(guò)度擬合更健壯。
gamma:默認(rèn)值設(shè)置為0。您需要指定最小損失減少應(yīng)進(jìn)一步劃分樹(shù)的葉節(jié)點(diǎn)。
更大,更保守的算法。范圍是0到∞。γ越大算法越保守。
max_depth:默認(rèn)值設(shè)置為6。您需要指定一個(gè)樹(shù)的最大深度。參數(shù)范圍是1到∞。
min_child_weight:默認(rèn)值設(shè)置為1。您需要在子樹(shù)中指定最小的(海塞)實(shí)例權(quán)重的和,然后這個(gè)構(gòu)建過(guò)程將放棄進(jìn)一步的分割。在線性回歸模式中,在每個(gè)節(jié)點(diǎn)最少所需實(shí)例數(shù)量將簡(jiǎn)單的同時(shí)部署。更大,更保守的算法。參數(shù)范圍是0到∞。
max_delta_step:默認(rèn)值設(shè)置為0。max_delta_step 允許我們估計(jì)每棵樹(shù)的權(quán)重。如果該值設(shè)置為0,這意味著沒(méi)有約束。
如果它被設(shè)置為一個(gè)正值,它可以幫助更新步驟更為保守。通常不需要此參數(shù),但是在邏輯回歸中當(dāng)分類是極為不均衡時(shí)需要用到。將其設(shè)置為1 - 10的價(jià)值可能有助于控制更新。參數(shù)范圍是0到∞。
subsample: 默認(rèn)值設(shè)置為1。您需要指定訓(xùn)練實(shí)例的子樣品比。
設(shè)置為0.5意味著XGBoost隨機(jī)收集一半的數(shù)據(jù)實(shí)例來(lái)生成樹(shù)來(lái)防止過(guò)度擬合。參數(shù)范圍是0到1。
colsample_bytree : 默認(rèn)值設(shè)置為1。在構(gòu)建每棵樹(shù)時(shí),您需要指定列的子樣品比。范圍是0到1。
線性上升具體參數(shù)lambda and alpha : 這些都是正則化項(xiàng)權(quán)重。λ默認(rèn)值假設(shè)是1和α= 0。
lambda_bias : L2正則化項(xiàng)在偏差上的默認(rèn)值為0。
任務(wù)參數(shù)base_score : 默認(rèn)值設(shè)置為0.5。您需要指定初始預(yù)測(cè)分?jǐn)?shù)作為全局偏差。
objective : 默認(rèn)值設(shè)置為reg:linear。您需要指定你想要的類型的學(xué)習(xí)者,包括線性回歸、邏輯回歸、泊松回歸等。
eval_metric : 您需要指定驗(yàn)證數(shù)據(jù)的評(píng)估指標(biāo),一個(gè)默認(rèn)的指標(biāo)分配根據(jù)客觀(rmse回歸,錯(cuò)誤分類,意味著平均精度等級(jí)
seed : 隨機(jī)數(shù)種子,確保重現(xiàn)數(shù)據(jù)相同的輸出。
xgboost的高級(jí)函數(shù)性與其他機(jī)器學(xué)習(xí)技術(shù)相比,我發(fā)現(xiàn)xgboost很簡(jiǎn)單的實(shí)現(xiàn)。如果你做了所有我們所做的,直到現(xiàn)在,你已經(jīng)有了一個(gè)模型。
讓我們進(jìn)一步嘗試找出模型中重要的變量并且縮小我們變量列表。
#讓我們開(kāi)始尋找實(shí)際的樹(shù)是什么樣子吧
model <- xgb.dump(xgb, with.stats = T) model[1:10] #This statement prints top 10 nodes of the model
# 獲得特征的真實(shí)名稱 names <- dimnames(data.matrix(X[,-1]))[[2]]
# 計(jì)算特征重要性矩陣 importance_matrix <- xgb.importance(names, model = xgb) # 制圖 xgb.plot.importance(importance_matrix[1:10,])
# 在最后一步如果失效可能是因?yàn)榘姹締?wèn)題,你可以嘗試: barplot(importance_matrix[,1])
可以觀察到,許多變量是不值得使用到我們的模型中。您可以方便地刪除這些變量并再次運(yùn)行模型。這一次你可以期待一個(gè)更好的精度。
測(cè)試結(jié)果是否有意義假設(shè)年齡為從上面的分析是最重要的變量,這是一個(gè)簡(jiǎn)單的卡方檢驗(yàn),來(lái)檢驗(yàn)它是否是真正重要的變量。
test <- chisq.test(train$Age, output_vector) print(test)
我們可以對(duì)所有重要變量做相同的處理。這將顯示出模型是否準(zhǔn)確地識(shí)別所有可能的重要變量。
尾注通過(guò)本文,您可以構(gòu)建一個(gè)簡(jiǎn)單的xgboost模型。對(duì)比其他類似的模型這個(gè)算法的速度將會(huì)令你感到驚奇。本文已經(jīng)討論了在R中使用xgboost算法各個(gè)方面的情況, 最重要的是你必須將你的數(shù)據(jù)類型轉(zhuǎn)換成數(shù)值型,否則該算法不能工作。
我建議你注意這些參數(shù),它們會(huì)決定任何模型的成敗。如果你仍然發(fā)現(xiàn)這些參數(shù)很難理解,可以在評(píng)論區(qū)留言討論。
參考資料xgboost: 速度快效果好的boosting模型
xgboost文檔
英文原文地址
作為分享主義者(sharism),本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán),轉(zhuǎn)載請(qǐng)保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...,如果涉及源代碼請(qǐng)注明GitHub地址:https://github.com/harryprince。微信號(hào): harryzhustudio
商業(yè)使用請(qǐng)聯(lián)系作者。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19587.html
摘要:算法速度系統(tǒng)性能以及易用性的瓶頸,制約著目前機(jī)器學(xué)習(xí)的普及應(yīng)用,分布式深度機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目中文名深盟的誕生,正是要降低分布式機(jī)器學(xué)習(xí)的門(mén)檻。因此我們聯(lián)合數(shù)個(gè)已有且被廣泛使用的分布式機(jī)器學(xué)習(xí)系統(tǒng)的開(kāi)發(fā)者,希望通過(guò)一個(gè)統(tǒng)一的組織來(lái)推動(dòng)開(kāi)源項(xiàng)目。 算法速度、系統(tǒng)性能以及易用性的瓶頸,制約著目前機(jī)器學(xué)習(xí)的普及應(yīng)用,DMLC分布式深度機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目(中文名深盟)的誕生,正是要降低分布式機(jī)器學(xué)習(xí)的門(mén)檻...
摘要:系列安裝報(bào)錯(cuò)結(jié)果一樣的錯(cuò)解決方法成功了過(guò)擬合當(dāng)你觀察訓(xùn)練精度高但檢測(cè)精度低很可能你遇到過(guò)度擬合問(wèn)題。正如其名,它是的一個(gè)實(shí)現(xiàn),作者為正在華盛頓大學(xué)研究機(jī)器學(xué)習(xí)的大牛陳天奇。為了方便大家使用,陳天奇將封裝成了庫(kù)。 xgboost系列 ubuntu14.04 安裝 pip install xgboost 報(bào)錯(cuò) sudo apt-get update 結(jié)果一樣的錯(cuò) 解決方法: sudo -...
閱讀 2849·2021-08-20 09:37
閱讀 1607·2019-08-30 12:47
閱讀 1090·2019-08-29 13:27
閱讀 1685·2019-08-28 18:02
閱讀 749·2019-08-23 18:15
閱讀 3084·2019-08-23 16:51
閱讀 931·2019-08-23 14:13
閱讀 2125·2019-08-23 13:05