摘要:還提供了,將多項式特征數據歸一化和線性回歸組合在了一起,大大方便的編程的過程。在機器學習算法中,主要的挑戰來自方差,解決的方法主要有降低模型復雜度降維增加樣本數使用驗證集模型正則化。
多項式回歸 多項式回歸使用線性回歸的基本思路
非線性曲線如圖:
假設曲線表達式為:$y=ax^2+bx+c$,如果將 $x^2$ 看作為 $x_1$,即 $y_1=ax_1+bx+c$,此時就有了兩個特征,則可以看作是線性曲線表達式。
首先生成一組樣本數據:
import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 * x**2 + x + 2 + np.random.normal(0, 1, size=100)
(x, y) 如圖所示(橫軸為 x,縱軸為 y):
接著在 $X$ 的基礎上增加一個新的特征 $x1(x^2)$ 形成一個新的 $X2$:
X2 = np.hstack([X, X**2])
再使用線性回歸算法:
from sklearn.linear_model import LinearRegression lin_reg = LinearRegression() lin_reg.fit(X2, y) y_predict = lin_reg.predict(X2)
此時對 $X2$ 的預測值反映到圖中就是第一張圖里的曲線。
PolynomialFeatures 和 Pipeline對于增加新的特征(如:$x^2$),Scikit Learn 提供了 PolynomialFeatures,使用方式如下:
from sklearn.preprocessing import PolynomialFeatures poly = PolynomialFeatures(degree=2) poly.fit(X) X2 = poly.transform(X)
參數 degree 表示最高次冪;得到的新的 $X2$ 前5行數據如下:
# X2[:5,:] array([[ 1. , 1.16207716, 1.35042333], [ 1. , -2.62969804, 6.91531181], [ 1. , 0.99966958, 0.99933928], [ 1. , 0.35525362, 0.12620514], [ 1. , -2.48933626, 6.19679503]])
第一列為 $x^0$,第二列為 $x$,第三列為 $x^2$。
Scikit Learn 還提供了 Pipeline,將多項式特征、數據歸一化和線性回歸組合在了一起,大大方便的編程的過程。使用方式如下:
from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LinearRegression poly_regression = Pipeline([ ("poly", PolynomialFeatures(degree=2)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ])
Pipeline() 傳入的是一個列表,包含了執行每一個步驟的實例,每一個步驟又是一個元組類型,其中第二個表示實例,第一個表示給實例取的名稱。接著就可以進行 fit()、predict() 等內容了:
poly_regression.fit(X, y) y_predict = poly_regression.predict(X)欠擬合和過擬合 欠擬合和過擬合的理解
在使用多項式回歸的過程中需要考慮一個問題,即欠擬合和過擬合。
如果對前面的樣本單單使用線性回歸,得到的模型如圖(這里省略的代碼實現):
訓練出來的模型很簡單,但它并不能完整的表述數據之間的關系,這就是欠擬合(underfitting)。
如果使用多項式回歸,代碼如下:
def PolynomialRegression(degree): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ]) poly100_reg = PolynomialRegression(degree=100) poly100_reg.fit(X, y) y_predict100 = poly100_reg.predict(X)
將 degree 設置為100,即最高次冪為 100,訓練出來的模型對訓練數據 X 的預測結果如圖:
可見該模型對訓練數據解釋的很好,但是如果用測試數據來預測一下:
X_plot = np.linspace(-3, 3, 100).reshape(-1, 1) y_plot = poly100_reg.predict(X_plot)
可以看出對預測數據預測的非常糟糕,這是因為訓練的模型過多的表達了訓練數據中的噪音,從而造成了對預測數據的結果也含有了尋多噪音,這就是過擬合(overfitting)。
模型復雜度曲線上面的過擬合出來的模型對訓練數據解釋的很好,但對測試數據(新的數據)解釋的非常差,也就是模型的泛化能力差。
所以為了防止模型過擬合,通常將數據分為訓練數據和測試數據,通過測試數據來檢驗是否過擬合。一般模型準確率與訓練數據和測試數據的關系為:
圖形中左邊屬于欠擬合,右邊屬于過擬合,而中間對于測試數據模型準確率高的地方就是模型泛化能力好的地方。
學習曲線除了模型復雜度曲線,還可以使用學習曲線來可視化欠擬合和過擬合。
所謂學習曲線,就是隨著訓練樣本的逐漸增多,訓練出的模型的能力的變化。
首先將數據分為訓練數據和測試數據:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y)
learning_curve() 函數中使用均方誤差來表示模型的優劣,并且訓練數據(75個)從1個慢慢增大為75個,記錄對訓練數據和測試數據預測值的均方誤差,用于畫學習曲線。
from sklearn.metrics import mean_squared_error # 均方誤差 def learning_curve(algo, X_train, X_test, y_train, y_test): train_score = [] test_score = [] for i in range(1, 76): algo.fit(X_train[:i], y_train[:i]) y_train_predict = algo.predict(X_train[:i]) train_score.append(mean_squared_error(y_train[:i], y_train_predict)) y_test_predict = algo.predict(X_test) test_score.append(mean_squared_error(y_test, y_test_predict))
先來看看使用線性回歸的情況(根據前文已經知道是欠擬合):
learning_curve(LinearRegression(), X_train, X_test, y_train, y_test)
作出的學習曲線如圖:
可以看出均方誤差最后趨于穩定。
接著來看看使用多項式回歸并且設定最高次冪為2的情況:
poly2_reg = PolynomialRegression(degree=2) learning_curve(poly2_reg, X_train, X_test, y_train, y_test)
作出的學習曲線如圖:
可以看出均方誤差最后也趨于穩定,但是比過擬合情況下均方誤差的值要小,表示模型更好。
接著來看看使用多項式回歸并且設定最高次冪為20的情況:
poly20_reg = PolynomialRegression(degree=20) learning_curve(poly20_reg, X_train, X_test, y_train, y_test)
作出的學習曲線如圖:
可以看出對訓練數據的軍方誤差最后會趨于穩定,但對測試數據則不然,這種情況就是過擬合的表現。
驗證數據集和交叉驗證雖然將數據集劃分為訓練數據集和測試數據集能夠為判斷模型是否過擬合提供參考,但這樣的劃分方式并不嚴謹,因為模型可能是針對測試數據集過擬合的。
更好的方式是將數據集劃分為訓練數據集、驗證數據集和測試數據集。驗證數據集用于驗證模型的效果,方便調整超參數來改善模型;測試數據集用于衡量最終的模型性能。
但是這種方式也有可能對驗證數據集過擬合,此時可以使用交叉驗證(Cross Validation)。
k-folds 交叉驗證交叉驗證即將數據集劃分為訓練數據集和測試數據集,并將訓練數據集分成 k 份,每次將其中一份作為驗證數據集,剩下的(k-1)份作為訓練數據集,如此可以得到 k 個模型,再將這 k 個模型的均值作為結果調參。以 kNN 手寫數字識別算法舉例說明:
首先準備數據:
from sklearn import datasets from sklearn.model_selection import train_test_split digits = datasets.load_digits() X = digits.data y = digits.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)
Scikit Learn 中提供了用于交叉驗證的 cross_val_score,模型將數據分成三份用于交叉驗證,返回三個模型的估算分數:
from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import cross_val_score knn_clf = KNeighborsClassifier() cross_val_score(knn_clf, X_train, y_train) # 返回 array([0.9640884 , 0.97506925, 0.96901408])
接著進行調參:
best_score, best_p, best_k = 0, 0, 0 for k in range(2, 10): for p in range(1, 5): knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=k, p=p) scores = cross_val_score(knn_clf, X_train, y_train) score = np.mean(scores) if score > best_score: best_score, best_p, best_k = score, p, k print("best score is:", best_score) print("best p is:", best_p) print("best k is:", best_k) # best score is: 0.9795997710242826 # best p is: 3 # best k is: 2
循環中每次比較 cross_val_score 返回數組的均值,最大的對應的 k 和 p 就是最優的超參數。
拿到了想要的超參數就可以進行模型訓練了:
best_knn_clf = KNeighborsClassifier(weights="distance", n_neighbors=2, p=3) best_knn_clf.fit(X_train, y_train) best_knn_clf.score(X_test, y_test) # 結果0.9902642559109874網格搜索
Scikit Learn 提供了網格搜索(GridSearchCV)整合了上面交叉驗證和調參的全過程:
from sklearn.model_selection import GridSearchCV param_grid = [ { "weights": ["distance"], "n_neighbors": [i for i in range(1, 11)], "p": [i for i in range(1, 6)] } ] knn_clf = KNeighborsClassifier() grid_search = GridSearchCV(knn_clf, param_grid=param_grid, verbose=1) grid_search.fit(X_train, y_train)
grid_search.best_params_ 返回得到的最優超參數;best_knn_clf = grid_search.best_estimator_ 返回最優的模型。
在 cross_val_score 和 GridSearchCV 中可以指定參數 cv 來設置將訓練數據集分為幾份(默認為3)。方差處理 偏差和方差
對于一個模型而言,模型誤差=偏差(Bias)+方差(Variance)+不可避免的誤差。偏差和方差表示如圖
導致偏差的主要原因是對問題本身的假設不正確,導致方差的主要原因是使用的模型太復雜。對于欠擬合,就屬于高偏差;而過擬合,就屬于高方差。
在機器學習算法中,主要的挑戰來自方差,解決的方法主要有:
降低模型復雜度;
降維;
增加樣本數;
使用驗證集;
模型正則化。
接下來主要看看模型正則化。
模型正則化對于高方差的模型可以用模型正則化(Regularization)處理,限制參數的大小。
以使用梯度下降法的線性回歸為例,其目標函數為:使 $J( heta) = MSE(y, hat{y}; heta)$ 盡可能小;如果模型過擬合,得到的 $ heta$ 就可能非常大,因此需要對 $J( heta)$ 加入限制是的 $ heta$ 盡可能小。
有兩種主要方式:嶺回歸和 LASSO 回歸。
嶺回歸嶺回歸(Ridge Regression)就是在目標函數中加入了 $alphafrac{1}{2}sum_{i=1}^n heta_i^2$,即使 $J( heta) = MSE(y, hat{y}; heta)+alphafrac{1}{2}sum_{i=1}^n heta_i^2$ 盡可能小。
Scikit Learn 中提供了 Ridge 類表示嶺回歸,參數為 $alpha$。使用過程如下:
from sklearn.linear_model import Ridge x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 * x + 3 + np.random.normal(0, 1, size=100) def PolynomialRegression(degree, alpha): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("ridge_reg", Ridge(alpha=alpha)) ])
設置 degree 為20,alpha 為0.0001 訓練模型:
ridge_reg = PolynomialRegression(20, 0.0001) ridge_reg.fit(X_train, y_train) y_predict = ridge_reg.predict(X_test)
畫出來的圖形為:
設置 degree 為20,alpha 為1 訓練模型:
ridge_reg = PolynomialRegression(20, 1) ridge_reg.fit(X_train, y_train) y_predict = ridge_reg.predict(X_test)
畫出來的圖形為:
相比之下模型好上了不少。
LASSO 回歸LASSO 回歸(Least Absolute Shrinkage and Selection Operator Regression)與嶺回歸不同的是使用 $alphasum_{i=1}^n| heta_i|$ 對 $ heta$ 進行限制,即使 $J( heta) = MSE(y, hat{y}; heta)+alphasum_{i=1}^n| heta_i|$ 盡可能小。
Scikit Learn 中提供了 Lasso 類表示嶺回歸,參數為 $alpha$。使用過程如下:
from sklearn.linear_model import Lasso def LassoRegression(degree, alpha): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lasso_reg", Lasso(alpha=alpha)) ])
設置 degree 為20,alpha 為0.01 訓練模型:
lasso_reg = PolynomialRegression(20, 0.01) lasso_reg.fit(X_train, y_train) y_predict = lasso_reg.predict(X_test)
畫出來的圖形為:
設置 degree 為20,alpha 為0.1 訓練模型:
lasso_reg = PolynomialRegression(20, 0.1) lasso_reg.fit(X_train, y_train) y_predict = lasso_reg.predict(X_test)
畫出來的圖形為:
相比之下模型也好上了不少。
LASSO 回歸相比嶺回歸趨向于使得一部分 $ heta$ 等于0,因此畫出來的曲線也相對更直一些。彈性網
彈性網(Elastic Net)則同時使用了嶺回歸和LASSO 回歸,即使用了 $alphafrac{1-r}{2}sum_{i=1}^n heta_i^2 +r alphasum_{i=1}^n| heta_i|$ 對 $ heta$ 進行限制。
使用上面的例子就是使 $J( heta) = MSE(y, hat{y}; heta)+alphafrac{1-r}{2}sum_{i=1}^n heta_i^2 +r alphasum_{i=1}^n| heta_i|$ 盡可能小。
源碼地址Github | ML-Algorithms-Action
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/42717.html
摘要:進入當前程序的學習系統的所有樣本稱作輸入,并組成輸入空間。結束語注意這篇文章僅僅是我接下來的機器學習系列的第一篇,后續還會有更多的內容。 往期回顧:統計學習方法第...
閱讀 2212·2021-11-22 13:52
閱讀 3846·2021-11-10 11:36
閱讀 1380·2021-09-24 09:47
閱讀 1088·2019-08-29 13:54
閱讀 3360·2019-08-29 13:46
閱讀 1942·2019-08-29 12:16
閱讀 2108·2019-08-26 13:26
閱讀 3471·2019-08-23 17:10