正則化&&邏輯回歸

xushaojieaaa 發(fā)布于2019-07-30 16:30 / 736人閱讀

摘要：以用于檢測(cè)垃圾郵件的邏輯回歸模型為例。邏輯回歸的損失函數(shù)線性回歸的損失函數(shù)是平方損失。正則化在邏輯回歸建模中極其重要。

正則化：簡(jiǎn)單性

查看以下泛化曲線，該曲線顯示的是訓(xùn)練集和驗(yàn)證集相對(duì)于訓(xùn)練迭代次數(shù)的損失。

上圖顯示的是某個(gè)模型的訓(xùn)練損失逐漸減少，但驗(yàn)證損失最終增加。換言之，該泛化曲線顯示該模型與訓(xùn)練集中的數(shù)據(jù)過(guò)擬合。根據(jù)奧卡姆剃刀定律，或許我們可以通過(guò)降低復(fù)雜模型的復(fù)雜度來(lái)防止過(guò)擬合，這種原則稱(chēng)為正則化。

一般來(lái)說(shuō)，監(jiān)督學(xué)習(xí)可以看做最小化下面的目標(biāo)函數(shù).其中，第一項(xiàng)L(yi,f(xi;w)) 衡量我們的模型（分類(lèi)或者回歸）對(duì)第i個(gè)樣本的預(yù)測(cè)值f(xi;w)和真實(shí)的標(biāo)簽yi之前的誤差.第二項(xiàng)，也就是對(duì)參數(shù)w的規(guī)則化函數(shù)Ω(w)去約束我們的模型盡量的簡(jiǎn)單

我們不僅要保證訓(xùn)練誤差最小，我們更希望我們的模型測(cè)試誤差小，所以我們需要加上第二項(xiàng)，也就是對(duì)參數(shù)w的規(guī)則化函數(shù)Ω(w)去約束我們的模型盡量的簡(jiǎn)單,機(jī)器學(xué)習(xí)的大部分帶參模型都和這個(gè)不但形似，而且神似。是的，其實(shí)大部分無(wú)非就是變換這兩項(xiàng)而已。對(duì)于第一項(xiàng)Loss函數(shù)，如果是Square loss，那就是最小二乘了；如果是Hinge Loss，那就是著名的SVM了；如果是exp-Loss，那就是牛逼的 Boosting了；如果是log-Loss，那就是Logistic Regression了；還有等等。不同的loss函數(shù)，具有不同的擬合特性，這個(gè)也得就具體問(wèn)題具體分析的

在這之前，我們都是以最小化損失（經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化）為目標(biāo)：

但訓(xùn)練損失小并不是我們的最終目標(biāo)，我們的目標(biāo)是希望模型的測(cè)試損失小，也就是能準(zhǔn)確的預(yù)測(cè)新的樣本。所以，我們需要保證模型“簡(jiǎn)單”的基礎(chǔ)上最小化訓(xùn)練誤差，這樣得到的參數(shù)才具有好的泛化性能。現(xiàn)在是以最小化損失和復(fù)雜度為目標(biāo)，這稱(chēng)為結(jié)構(gòu)風(fēng)險(xiǎn)最小化：

現(xiàn)在，我們的訓(xùn)練優(yōu)化算法是一個(gè)由兩項(xiàng)內(nèi)容組成的函數(shù)：一個(gè)是損失項(xiàng)，用于衡量模型與數(shù)據(jù)的擬合度，另一個(gè)是正則化項(xiàng)，用于衡量模型復(fù)雜度。

詳細(xì)理解正則化
L1范數(shù)和L0范數(shù)可以實(shí)現(xiàn)稀疏，L1因具有比L0更好的優(yōu)化求解特性而被廣泛應(yīng)用。L1會(huì)趨向于產(chǎn)生少量的特征，而其他的特征都是0，而L2會(huì)選擇更多的特征，這些特征都會(huì)接近于0

這里，只考慮 L2 正則化公式來(lái)量化復(fù)雜度，該公式將正則化項(xiàng)定義為所有特征權(quán)重的平方和：

在這個(gè)公式中，接近于 0 的權(quán)重對(duì)模型復(fù)雜度幾乎沒(méi)有影響，而離群值權(quán)重則可能會(huì)產(chǎn)生巨大的影響。
例如，某個(gè)線性模型具有以下權(quán)重：{w1 = 0.2, w2 = 0.5, w3 = 5, w4 = 1, w5 = 0.25, w6 = 0.75}

L2 正則化項(xiàng)為各權(quán)重平方和： 26.915

但是 w3的平方值為 25，幾乎貢獻(xiàn)了全部的復(fù)雜度。所有 5 個(gè)其他權(quán)重的平方和對(duì) L2 正則化項(xiàng)的貢獻(xiàn)僅為 1.915。所以我們讓L2范數(shù)的規(guī)則項(xiàng)||W||2最小，可以使得W的每個(gè)元素都很小，都接近于0。，但與L1范數(shù)不同，它不會(huì)讓它等于0，而是接近于0，這里是有很大的區(qū)別的哦。而越小的參數(shù)說(shuō)明模型越簡(jiǎn)單，越簡(jiǎn)單的模型則越不容易產(chǎn)生過(guò)擬合現(xiàn)象。為什么越小的參數(shù)說(shuō)明模型越簡(jiǎn)單？我也不懂，我的理解是：限制了參數(shù)很小，實(shí)際上就限制了多項(xiàng)式某些分量的影響很小（看上面線性回歸的模型的那個(gè)擬合的圖），這樣就相當(dāng)于減少參數(shù)個(gè)數(shù)。這里也一句話(huà)總結(jié)下：通過(guò)L2范數(shù)，我們可以實(shí)現(xiàn)了對(duì)模型空間的限制，從而在一定程度上避免了過(guò)擬合。

簡(jiǎn)化正則化：lambda

模型開(kāi)發(fā)者通過(guò)以下方式來(lái)調(diào)整正則化項(xiàng)的整體影響：用正則化項(xiàng)的值乘以名為 lambda（又稱(chēng)為正則化率）的標(biāo)量。也就是說(shuō)，模型開(kāi)發(fā)者會(huì)執(zhí)行以下運(yùn)算：

執(zhí)行 L2 正則化對(duì)模型具有以下影響

使權(quán)重值接近于 0（但并非正好為 0）

使權(quán)重的平均值接近于 0，且呈正態(tài)（鐘形曲線或高斯曲線）分布。

增加 lambda 值將增強(qiáng)正則化效果。例如，lambda 值較高的權(quán)重直方圖可能會(huì)如圖所示。

降低 lambda 的值往往會(huì)得出比較平緩的直方圖

在選擇 lambda 值時(shí)，目標(biāo)是在簡(jiǎn)單化和訓(xùn)練數(shù)據(jù)擬合之間達(dá)到適當(dāng)?shù)钠胶猓?/p>

如果您的 lambda 值過(guò)高(注重考慮正則，模型偏向于優(yōu)化復(fù)雜模型)，則模型會(huì)非常簡(jiǎn)單，但是您將面臨數(shù)據(jù)欠擬合的風(fēng)險(xiǎn)。您的模型將無(wú)法從訓(xùn)練數(shù)據(jù)中獲得足夠的信息來(lái)做出有用的預(yù)測(cè)。

如果您的 lambda 值過(guò)低(注重考慮訓(xùn)練損失)，則模型會(huì)比較復(fù)雜，并且您將面臨數(shù)據(jù)過(guò)擬合的風(fēng)險(xiǎn)。您的模型將因獲得過(guò)多訓(xùn)練數(shù)據(jù)特點(diǎn)方面的信息而無(wú)法泛化到新數(shù)據(jù)。

L2 正則化可能會(huì)導(dǎo)致對(duì)于某些信息缺乏的特征，模型會(huì)學(xué)到適中的權(quán)重。L2 正則化降低較大權(quán)重的程度高于降低較小權(quán)重的程度。隨著權(quán)重越來(lái)越接近于 0.0，L2 將權(quán)重“推”向 0.0 的力度越來(lái)越弱。L2 正則化會(huì)使相似度高(存在噪點(diǎn))兩個(gè)特征的權(quán)重幾乎相同

邏輯回歸：Logistic Regression

邏輯回歸會(huì)生成一個(gè)介于 0 到 1 之間（不包括 0 和 1）的概率值，而不是確切地預(yù)測(cè)結(jié)果是 0 還是 1。以用于檢測(cè)垃圾郵件的邏輯回歸模型為例。如果此模型推斷某一特定電子郵件的值為 0.932，則意味著該電子郵件是垃圾郵件的概率為 93.2%。更準(zhǔn)確地說(shuō)，這意味著在無(wú)限訓(xùn)練樣本的極限情況下，模型預(yù)測(cè)其值為 0.932 的這組樣本實(shí)際上有 93.2% 是垃圾郵件，其余的 6.8% 不是垃圾郵件。

邏輯回歸模型如何確保輸出值始終落在 0 和 1 之間。巧合的是，S 型函數(shù)生成的輸出值正好具有這些特性，其定義如下：

S型函數(shù)會(huì)產(chǎn)生以下曲線圖：

如果 z 表示使用邏輯回歸訓(xùn)練的模型的線性層的輸出，則 S 型(z) 函數(shù)會(huì)生成一個(gè)介于 0 和 1 之間的值（概率）。用數(shù)學(xué)方法表示為：

其中：

y" 是邏輯回歸模型針對(duì)特定樣本的輸出。

z 是 b + w1x1 + w2x2 + … wNxN

   - “w”值是該模型學(xué)習(xí)的權(quán)重和偏差。
   - “x”值是特定樣本的特征值。

請(qǐng)注意，z 也稱(chēng)為對(duì)數(shù)幾率，因?yàn)?S 型函數(shù)的反函數(shù)表明，z 可定義為標(biāo)簽“1”（例如“狗叫”）的概率除以標(biāo)簽“0”（例如“狗不叫”）的概率得出的值的對(duì)數(shù)：

假設(shè)我們的樣本是{x, y}，y是0或者1，表示正類(lèi)或者負(fù)類(lèi)，x是我們的m維的樣本特征向量。那么這個(gè)樣本x屬于正類(lèi)，也就是y=1的“概率”可以通過(guò)下面的邏輯函數(shù)來(lái)表示：

這里θ是模型參數(shù)，也就是回歸系數(shù)，σ是sigmoid函數(shù)。實(shí)際上這個(gè)函數(shù)是由下面的對(duì)數(shù)幾率（也就是x屬于正類(lèi)的可能性和負(fù)類(lèi)的可能性的比值的對(duì)數(shù)）變換得到的：

邏輯回歸與線性回歸的不同點(diǎn)在于：為了將線性回歸輸出的很大范圍的數(shù)，例如從負(fù)無(wú)窮到正無(wú)窮，壓縮到0和1之間，這樣的輸出值表達(dá)為“可能性”才能說(shuō)服廣大民眾。。另外，對(duì)于二分類(lèi)來(lái)說(shuō)，可以簡(jiǎn)單的認(rèn)為：如果樣本x屬于正類(lèi)的概率大于0.5，那么就判定它是正類(lèi)，否則就是負(fù)類(lèi)。所以說(shuō)，LogisticRegression 就是一個(gè)被logistic方程歸一化后的線性回歸，僅此而已。

邏輯回歸的損失函數(shù)

線性回歸的損失函數(shù)是平方損失。邏輯回歸的損失函數(shù)是對(duì)數(shù)損失函數(shù)，定義如下：

其中：

(xy)?D 是包含很多有標(biāo)簽樣本 (x,y) 的數(shù)據(jù)集。

“y”是有標(biāo)簽樣本中的標(biāo)簽。由于這是邏輯回歸，因此“y”的每個(gè)值必須是 0 或 1。

“y"”是對(duì)于特征集“x”的預(yù)測(cè)值（介于 0 和 1 之間）。

對(duì)數(shù)損失函數(shù)的方程式與 Shannon 信息論中的熵測(cè)量密切相關(guān)。它也是似然函數(shù)的負(fù)對(duì)數(shù)（假設(shè)“y”屬于伯努利分布）。實(shí)際上，最大限度地降低損失函數(shù)的值會(huì)生成最大的似然估計(jì)值。

上圖中，當(dāng)接近其中一個(gè)條形時(shí)，損失就會(huì)變得越大，而且變化速度非常驚人。這些漸近線的作用是非常重要的。否則，在指定的數(shù)據(jù)集上，模型會(huì)盡可能更緊密地?cái)M合數(shù)據(jù)，讓損失接近于0. 因此，大多數(shù)邏輯回歸模型會(huì)使用以下兩個(gè)策略之一來(lái)降低模型復(fù)雜性：

L2 正則化。

早停法，即，限制訓(xùn)練步數(shù)或?qū)W習(xí)速率。

正則化在邏輯回歸建模中極其重要。如果沒(méi)有正則化，邏輯回歸的漸近性會(huì)不斷促使損失在高維度空間內(nèi)達(dá)到 0.

假設(shè)您向每個(gè)樣本分配一個(gè)唯一 ID，且將每個(gè) ID 映射到其自己的特征。如果您未指定正則化函數(shù)，模型會(huì)變得完全過(guò)擬合。這是因?yàn)?strong>模型會(huì)嘗試促使所有樣本的損失達(dá)到 0 但始終達(dá)不到，從而使每個(gè)指示器特征的權(quán)重接近正無(wú)窮或負(fù)無(wú)窮。當(dāng)有大量罕見(jiàn)的特征組合且每個(gè)樣本中僅一個(gè)時(shí)，包含特征組合的高維度數(shù)據(jù)會(huì)出現(xiàn)這種情況。幸運(yùn)的是，使用 L2 或早停法可以防止出現(xiàn)此類(lèi)問(wèn)題。

邏輯回歸特點(diǎn)：容易擴(kuò)展到龐大的數(shù)據(jù)中；預(yù)測(cè)速度快，可用于延遲時(shí)間極短的預(yù)測(cè)
如果我們需要非線性邏輯回歸，可添加特征交叉乘積來(lái)實(shí)現(xiàn)。

GPU云服務(wù)器云服務(wù)器 asp &amp&amp邏輯邏輯回歸邏輯回歸二分類(lèi) js 2&amp&amp1

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/41706.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xushaojieaaa

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

易探云：新鄉(xiāng)BGP云服務(wù)器低至12元/首月,續(xù)費(fèi)7折;十堰vps/滁州vps,1核/2G/月付36.

閱讀 1101·2021-11-24 10:24
怎么在服務(wù)器上安裝SSL證書(shū)？服務(wù)器證書(shū)安裝配置指南！

閱讀 2589·2021-11-22 13:54
hostarmada：WordPress外貿(mào)虛擬主機(jī)首月3折優(yōu)惠$3.59/月起，vps服務(wù)器首月8

閱讀 997·2021-09-24 09:55
基于Vue實(shí)現(xiàn)關(guān)鍵詞實(shí)時(shí)搜索高亮顯示關(guān)鍵詞

閱讀 3600·2019-08-30 15:54
更快助你弄懂React-高階組件

閱讀 1316·2019-08-30 15:44
TCP/IP基礎(chǔ)總結(jié)性學(xué)習(xí)（3）

閱讀 1094·2019-08-30 14:23
簡(jiǎn)單說(shuō) 正則表達(dá)式——要注意lastIndex屬性

閱讀 3201·2019-08-29 13:45
input寬度自適應(yīng)的問(wèn)題

閱讀 1281·2019-08-29 11:19

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

正則化&&邏輯回歸

相關(guān)文章

Vue編譯器AST抽象語(yǔ)法樹(shù)源碼分析

發(fā)表評(píng)論

0條評(píng)論

xushaojieaaa

男|高級(jí)講師

TA的文章

易探云：新鄉(xiāng)BGP云服務(wù)器低至12元/首月,續(xù)費(fèi)7折;十堰vps/滁州vps,1核/2G/月付36.

怎么在服務(wù)器上安裝SSL證書(shū)？服務(wù)器證書(shū)安裝配置指南！

hostarmada：WordPress外貿(mào)虛擬主機(jī)首月3折優(yōu)惠$3.59/月起，vps服務(wù)器首月8

基于Vue實(shí)現(xiàn)關(guān)鍵詞實(shí)時(shí)搜索高亮顯示關(guān)鍵詞

更快助你弄懂React-高階組件

TCP/IP基礎(chǔ)總結(jié)性學(xué)習(xí)（3）

簡(jiǎn)單說(shuō) 正則表達(dá)式——要注意lastIndex屬性

input寬度自適應(yīng)的問(wèn)題

最新活動(dòng)