摘要:機器學習線性回歸原理介紹機器學習線性回歸實現機器學習線性回歸實現通常我們學習機器學習都是從線性回歸模型開始的。這就是種使身高回歸于中心的作用。均方誤差作為線性回歸模型的代價函數。為了方便,這里以單變量線性回歸為例。
【機器學習】線性回歸原理介紹
【機器學習】線性回歸python實現
【機器學習】線性回歸sklearn實現
通常我們學習機器學習都是從線性回歸模型開始的。線性回歸模型形式簡單、易于建模,但是我們可以從中學習到機器學習的一些重要的基本思想。
回歸一詞的由來:這個術語是英國生物學家兼統計學家高爾頓在1886年左右提出來的。人們大概都注意到,子代的身高與其父母的身高有關。高爾頓以父母的平均身高X作為自變量,其一成年兒子的身高Y為因變量。他觀察了1074對父母及其一成年兒子的身高,將所得(X, Y)值標在直角坐標系上,發現二者的關系近乎一條直線,總的趨勢是X增加時Y傾向于增加,這是意料中的結果.有意思的是,高爾頓對所得數據做了深入一層的考察,而發現了某種有趣的現象。
高爾頓算出這1074個X值的算術平均為68英寸(1英寸為2.54厘米),而1074個Y值的算術平均為69英寸,子代身高平均增加了1英寸,這個趨勢現今人們也已注意到。以此為據,人們可能會這樣推想:如果父母平均身高為a英寸,則這些父母的子代平均身高應為a+1英寸,即比父代多1英寸。但高爾頓觀察的結果與此不符,他發現:當父母平均身高為72英寸時,他們的子代身高平均只有71英寸,不僅達不到預計的72+1=73英寸,反而比父母平均身高小了。反之,若父母平均身高為64英寸,則觀察數據顯示子代平均身高為67英寸,比預計的64+1=65英寸要多。
高爾頓對此的解釋是:大自然有一種約束機制,使人類身高分布保持某種穩定形態而不作兩極分化。這就是種使身高“回歸于中心“的作用。例如,父母身高平均為72英寸,比他們這一代平均身高68英寸高出許多,“回歸于中心”的力量把他們子代的身高拉回來些:其平均身高只有71英寸,反比父母平均身高小,但仍超過子代全體平均69英寸。反之,當父母平均身高只有64英寸,遠低于他們這代的平均值68英寸時,“回歸于中心”的力量將其子代身高拉回去一些,其平均值達到67英寸,增長了3英寸,但仍低于子代全體平均值69英寸。
正是通過這個例子,高爾頓引人了“回歸”這個名詞。
線性回歸的模型形如:
線性回歸得出的模型不一定是一條直線,在只有一個變量的時候,模型是平面中的一條直線;有兩個變量的時候,模型是空間中的一個平面;有更多變量時,模型將是更高維的。
線性回歸模型有很好的可解釋性,可以從權重W直接看出每個特征對結果的影響程度。
線性回歸適用于X和y之間存在線性關系的數據集,可以使用計算機輔助畫出散點圖來觀察是否存在線性關系。例如我們假設房屋價格和房屋面積之間存在某種線性關系,畫出散點圖如下圖所示。
看起來這些點分布在一條直線附近,我們嘗試使用一條直線來擬合數據,使所有點到直線的距離之和最小。實際上,線性回歸中通常使用殘差平方和,即點到直線的平行于y軸的距離而不用垂線距離,殘差平方和除以樣本量n就是均方誤差。均方誤差作為線性回歸模型的代價函數(cost function)。使所有點到直線的距離之和最小,就是使均方誤差最小化,這個方法叫做最小二乘法。
代價函數:
其中,
下面求使J最小的W和b:
1.偏導數法偏導數法是非常麻煩的,需要一個一個地計算w。為了方便,這里以單變量線性回歸為例。
2.正規方程法正規方程使用矩陣運算,可以一次求出W向量。但是當變量(feature)個數大于數據個數時,會導致xTx不可逆,這時候就不能用此方法了。
使用正規方程法,如果希望得到的模型帶有偏置項b,就要先給數據集X增加全為1的一列,這樣才會把b包含在W中;如果不添加,那么模型是強制過原點的。
3.梯度下降這里的代價函數J的海森矩陣H是半正定的,因此J一定有全局最小值,所以也可以使用梯度下降法來求解。梯度下降法是一種迭代解法,不僅可以求解最小二乘問題,也適用于其它代價函數的問題。但是需要設置學習率α,α設置的過大或過小,都不能很好地訓練出模型,而且梯度下降法需要對數據集進行特征縮放。一般會在數據集特別大的時候或者xTx不可逆的時候使用梯度下降法,后面再做介紹。
4.其他還有一些方法就不一一列舉了。例如奇異值分解,QR分解,喬姆斯基分解等等。
計算出的模型如下圖。
再放一個兩個變量的情況的,如下圖。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19907.html
摘要:機器學習多項式回歸原理介紹機器學習多項式回歸實現機器學習多項式回歸實現在上一節中我們介紹了線性回歸的原理,然后分別用和實現了不同變量個數的線性回歸的幾個例子。可以看出多項式回歸模型的效果綠線要明顯好于線性回歸模型黃線。 【機器學習】多項式回歸原理介紹 【機器學習】多項式回歸python實現 【機器學習】多項式回歸sklearn實現 在上一節中我們介紹了線性回歸的原理,...
摘要:機器學習線性回歸原理介紹機器學習線性回歸實現機器學習線性回歸實現這里使用實現線性回歸,沒有使用等機器學習框架,目的是幫助理解算法的原理。單變量和雙變量的使用的自己模擬的一個簡單的房價數據集,多變量的使用的房價數據集。 【機器學習】線性回歸原理介紹 【機器學習】線性回歸python實現 【機器學習】線性回歸sklearn實現 這里使用python實現線性回歸,沒有使用sklearn等...
閱讀 2680·2019-08-30 15:55
閱讀 1811·2019-08-30 15:53
閱讀 2661·2019-08-29 18:38
閱讀 934·2019-08-26 13:49
閱讀 507·2019-08-23 15:42
閱讀 3133·2019-08-22 16:33
閱讀 1009·2019-08-21 17:59
閱讀 1088·2019-08-21 17:11