Python數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)入門實戰(zhàn)

孫吉亮發(fā)布于2019-07-30 16:14 / 382人閱讀

摘要：在本次課程中，著重講解的是傳統(tǒng)的機器學(xué)習(xí)技術(shù)及各種算法。回歸對連續(xù)型數(shù)據(jù)進行預(yù)測趨勢預(yù)測等除了分類之外，數(shù)據(jù)挖掘技術(shù)和機器學(xué)習(xí)技術(shù)還有一個非常經(jīng)典的場景回歸。

摘要：什么是數(shù)據(jù)挖掘？什么是機器學(xué)習(xí)？又如何進行Python數(shù)據(jù)預(yù)處理？本文將帶領(lǐng)大家一同了解數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)，通過淘寶商品案例進行數(shù)據(jù)預(yù)處理實戰(zhàn)，通過鳶尾花案例介紹各種分類算法。

課程主講簡介：
韋瑋，企業(yè)家，資深I(lǐng)T領(lǐng)域?qū)＜?講師/作家，暢銷書《精通Python網(wǎng)絡(luò)爬蟲》作者，阿里云社區(qū)技術(shù)專家。

以下內(nèi)容根據(jù)主講嘉賓視頻分享以及PPT整理而成。

本次課程包含了五個知識點：
1.數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)簡介
2.Python數(shù)據(jù)預(yù)處理實戰(zhàn)
3.常見分類算法介紹
4.對鳶尾花進行分類案例實戰(zhàn)
5.分類算法的選擇思路與技巧

一、數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)簡介

什么是數(shù)據(jù)挖掘？數(shù)據(jù)挖掘指的是對現(xiàn)有的一些數(shù)據(jù)進行相應(yīng)的處理和分析，最終得到數(shù)據(jù)與數(shù)據(jù)之間深層次關(guān)系的一種技術(shù)。例如在對超市貨品進行擺放時，牛奶到底是和面包擺放在一起銷量更高，還是和其他商品擺在一起銷量更高。數(shù)據(jù)挖掘技術(shù)就可以用于解決這類問題。具體來說，超市的貨品擺放問題可以劃分為關(guān)聯(lián)分析類場景。

在日常生活中，數(shù)據(jù)挖掘技術(shù)應(yīng)用的非常廣泛。例如對于商戶而言，常常需要對其客戶的等級（svip、vip、普通客戶等）進行劃分，這時候可以將一部分客戶數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，另一部分客戶數(shù)據(jù)作為測試數(shù)據(jù)。然后將訓(xùn)練數(shù)據(jù)輸入到模型中進行訓(xùn)練，在訓(xùn)練完成后，輸入另一部分數(shù)據(jù)進行測試，最終實現(xiàn)客戶等級的自動劃分。其他類似的應(yīng)用例子還有驗證碼識別、水果品質(zhì)自動篩選等。

那么機器學(xué)習(xí)技術(shù)又是什么呢？一言以蔽之，凡是讓機器通過我們所建立的模型和算法對數(shù)據(jù)之間的關(guān)系或者規(guī)則進行學(xué)習(xí)，最后供我們利用的技術(shù)都是機器學(xué)習(xí)技術(shù)。其實機器學(xué)習(xí)技術(shù)是一個交叉的學(xué)科，它可以大致分為兩類：傳統(tǒng)的機器學(xué)習(xí)技術(shù)與深度學(xué)習(xí)技術(shù)，其中深度學(xué)習(xí)技術(shù)包含了神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)。在本次課程中，著重講解的是傳統(tǒng)的機器學(xué)習(xí)技術(shù)及各種算法。

由于機器學(xué)習(xí)技術(shù)和數(shù)據(jù)挖掘技術(shù)都是對數(shù)據(jù)之間的規(guī)律進行探索，所以人們通常將兩者放在一起提及。而這兩種技術(shù)在現(xiàn)實生活中也有著非常廣闊的應(yīng)用場景，其中經(jīng)典的幾類應(yīng)用場景如下圖所示：

1、分類：對客戶等級進行劃分、驗證碼識別、水果品質(zhì)自動篩選等

機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)可以用于解決分類問題，如對客戶等級進行劃分、驗證碼識別、水果品質(zhì)自動篩選等。

以驗證碼識別為例，現(xiàn)需要設(shè)計一種方案，用以識別由0到9的手寫體數(shù)字組成的驗證碼。有一種解決思路是，先將一些出現(xiàn)的0到9的手寫體數(shù)字劃分為訓(xùn)練集，然后人工的對這個訓(xùn)練集進行劃分，即將各個手寫體映射到其對應(yīng)的數(shù)字類別下面，在建立了這些映射關(guān)系之后，就可以通過分類算法建立相應(yīng)的模型。這時候如果出現(xiàn)了一個新的數(shù)字手寫體，該模型可以對該手寫體代表的數(shù)字進行預(yù)測，即它到底屬于哪個數(shù)字類別。例如該模型預(yù)測某手寫體屬于數(shù)字1的這個類別，就可以將該手寫體自動識別為數(shù)字1。所以驗證碼識別問題實質(zhì)上就是一個分類問題。

水果品質(zhì)的自動篩選問題也是一個分類問題。水果的大小、顏色等特征也可以映射到對應(yīng)的甜度類別下面，例如1這個類別可以代表甜，0這個類別代表不甜。在獲得一些訓(xùn)練集的數(shù)據(jù)之后，同樣可以通過分類算法建立模型，這時候如果出現(xiàn)一個新的水果，就可以通過它的大小、顏色等特征來自動的判斷它到底是甜的還是不甜的。這樣就實現(xiàn)了水果品質(zhì)的自動篩選。

2、回歸：對連續(xù)型數(shù)據(jù)進行預(yù)測、趨勢預(yù)測等

除了分類之外，數(shù)據(jù)挖掘技術(shù)和機器學(xué)習(xí)技術(shù)還有一個非常經(jīng)典的場景——回歸。在前文提到的分類的場景，其類別的數(shù)量都有一定的限制。比如數(shù)字驗證碼識別場景中，包含了0到9的數(shù)字類別；再比如字母驗證碼識別場景中，包含了a到z的有限的類別。無論是數(shù)字類別還是字母類別，其類別數(shù)量都是有限的。

現(xiàn)在假設(shè)存在一些數(shù)據(jù)，在對其進行映射后，最好的結(jié)果沒有落在某個0、1或者2的點上，而是連續(xù)的落在1.2、1.3、1.4...上面。而分類算法就無法解決這類問題，這時候就可以采用回歸分析算法進行解決。在實際的應(yīng)用中，回歸分析算法可以實現(xiàn)對連續(xù)型數(shù)據(jù)進行預(yù)測和趨勢預(yù)測等。

3、聚類：客戶價值預(yù)測、商圈預(yù)測等

什么是聚類？在上文中提過，要想解決分類問題，必須要有歷史數(shù)據(jù)（即人為建立的正確的訓(xùn)練數(shù)據(jù)）。倘若沒有歷史數(shù)據(jù)，而需要直接將某對象的特征劃分到其對應(yīng)的類別，分類算法和回歸算法無法解決這個問題。這種時候有一種解決辦法——聚類，聚類方法直接根據(jù)對象特征劃分出對應(yīng)的類別，它是不需要經(jīng)過訓(xùn)練的，所以它是一種非監(jiān)督的學(xué)習(xí)方法。

在什么時候能用到聚類？假如數(shù)據(jù)庫中有一群客戶的特征數(shù)據(jù)，現(xiàn)在需要根據(jù)這些客戶的特征直接劃分出客戶的級別（如SVIP客戶、VIP客戶），這時候就可以使用聚類的模型去解決。另外在預(yù)測商圈的時候，也可以使用聚類的算法。

4、關(guān)聯(lián)分析：超市貨品擺放、個性化推薦等

關(guān)聯(lián)分析是指對物品之間的關(guān)聯(lián)性進行分析。例如，某超市內(nèi)存放有大量的貨品，現(xiàn)在需要分析出這些貨品之間的關(guān)聯(lián)性，如面包商品與牛奶商品之間的關(guān)聯(lián)性的強弱程度，這時候可以采用關(guān)聯(lián)分析算法，借助于用戶的購買記錄等信息，直接分析出這些商品之間的關(guān)聯(lián)性。在了解了這些商品的關(guān)聯(lián)性之后，就可以將之應(yīng)用于超市的商品擺放，通過將關(guān)聯(lián)性強的商品放在相近的位置上，可以有效提升該超市的商品銷量。
此外，關(guān)聯(lián)分析還可以用于個性化推薦技術(shù)。比如，借助于用戶的瀏覽記錄，分析各個網(wǎng)頁之間存在的關(guān)聯(lián)性，在用戶瀏覽網(wǎng)頁時，可以向其推送強關(guān)聯(lián)的網(wǎng)頁。例如，在分析了瀏覽記錄數(shù)據(jù)后，發(fā)現(xiàn)網(wǎng)頁A與網(wǎng)頁C之間有很強的關(guān)聯(lián)關(guān)系，那么在某個用戶瀏覽網(wǎng)頁A時，可以向他推送網(wǎng)頁C，這樣就實現(xiàn)了個性化推薦。

5、自然語言處理：文本相似度技術(shù)、聊天機器人等

除了上述的應(yīng)用場景之外，數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)也可以用于自然語言處理和語音處理等等。例如對文本相似度的計算和聊天機器人。

二、Python數(shù)據(jù)預(yù)處理實戰(zhàn)

在進行數(shù)據(jù)挖掘與機器學(xué)習(xí)之前，首先要做的一步是對已有數(shù)據(jù)進行預(yù)處理。倘若連初始數(shù)據(jù)都是不正確的，那么就無法保證最后的結(jié)果的正確性。只有對數(shù)據(jù)進行預(yù)處理，保證其準(zhǔn)確性，才能保證最后結(jié)果的正確性。

數(shù)據(jù)預(yù)處理指的是對數(shù)據(jù)進行初步處理，把臟數(shù)據(jù)（即影響結(jié)果準(zhǔn)確率的數(shù)據(jù)）處理掉，否則很容易影響最終的結(jié)果。常見的數(shù)據(jù)預(yù)處理方法如下圖所示：

1、缺失值處理

缺失值是指在一組數(shù)據(jù)中，某行數(shù)據(jù)缺失的某個特征值。解決缺失值有兩種方法，一是將該缺失值所在的這行數(shù)據(jù)刪除掉，二是將這個缺失值補充一個正確的值。

2、異常值處理

異常值產(chǎn)生的原因往往是數(shù)據(jù)在采集時發(fā)生了錯誤，如在采集數(shù)字68時發(fā)生了錯誤，誤將其采集成680。在處理異常值之前，自然需要先發(fā)現(xiàn)這些異常值數(shù)據(jù)，往往可以借助畫圖的方法來發(fā)現(xiàn)這些異常值數(shù)據(jù)。在對異常值數(shù)據(jù)處理完成之后，原始數(shù)據(jù)才會趨于正確，才能保證最終結(jié)果的準(zhǔn)確性。

3、數(shù)據(jù)集成

相較于上文的缺失值處理和異常值處理，數(shù)據(jù)集成是一種較為簡單的數(shù)據(jù)預(yù)處理方式。那么數(shù)據(jù)集成是什么？假設(shè)存在兩組結(jié)構(gòu)一樣的數(shù)據(jù)A和數(shù)據(jù)B，且兩組數(shù)據(jù)都已加載進入內(nèi)存，這時候如果用戶想將這兩組數(shù)據(jù)合并為一組數(shù)據(jù)，可以直接使用Pandas對其進行合并，而這個合并的過程實際上就是數(shù)據(jù)的集成。

接下來以淘寶商品數(shù)據(jù)為例，介紹一下上文預(yù)處理的實戰(zhàn)。

在進行數(shù)據(jù)預(yù)處理之前，首先需要從MySQL數(shù)據(jù)庫中導(dǎo)入淘寶商品數(shù)據(jù)。在開啟MySQL數(shù)據(jù)庫之后，對其中的taob表進行查詢，得到了如下的輸出：

可以看到，taob表中有四個字段。其中title字段用于存儲淘寶商品的名稱；link字段存儲淘寶商品的鏈接；price存儲淘寶商品的價格；comment存儲淘寶商品的評論數(shù)（一定程度上代表商品的銷量）。

那么接下來如何將這些數(shù)據(jù)導(dǎo)入進來？首先通過pymysql連接數(shù)據(jù)庫（如果出現(xiàn)亂碼，則對pymysql的源碼進行修改），連接成功后，將taob中的數(shù)據(jù)全部檢索出來，然后借助pandas中的read_sql()方法便可以將數(shù)據(jù)導(dǎo)入到內(nèi)存中。read_sql()方法有兩個參數(shù)，第一個參數(shù)是sql語句，第二個參數(shù)是MySQL數(shù)據(jù)庫的連接信息。具體代碼如下圖：

1、缺失值處理實戰(zhàn)

對缺失值進行處理可以采用數(shù)據(jù)清洗的方式。以上面的淘寶商品數(shù)據(jù)為例，某件商品的評論數(shù)可能為0，但是它的價格卻不可能為0。然而實際上在數(shù)據(jù)庫內(nèi)存在一些price值為0的數(shù)據(jù)，之所以會出現(xiàn)這種情況，是因為對部分數(shù)據(jù)的價格屬性沒有爬到。

那么如何才能判斷出這些數(shù)據(jù)出現(xiàn)了缺失值呢？可以通過以下的方法來進行判別：首先對于之前的taob表調(diào)用data.describe()方法，會出現(xiàn)如下圖所示的結(jié)果：

如何看懂這個統(tǒng)計結(jié)果？第一步要注意觀察price和comment字段的count數(shù)據(jù)，如果兩者不相等，說明一定有信息缺失；如果兩者相等，則暫時無法看出是否有缺失情況。例如price的count為9616.0000，而comment的count為9615.0000，說明評論數(shù)據(jù)至少缺失了一條。

其他各個字段的含義分別為：mean代表平均數(shù)；std代表標(biāo)準(zhǔn)差；min代表最小值；max代表最大值。

那么如何對這些缺失數(shù)據(jù)進行處理？一種方法是刪掉這些數(shù)據(jù)，還有一種方法是在缺失值處插入一個新值。第二種方法中的值可以是平均數(shù)或者中位數(shù)，而具體使用平均數(shù)還是中位數(shù)需要根據(jù)實際情況來決定。例如年齡這個數(shù)據(jù)（1到100歲），這類平穩(wěn)、變化的級差不大的數(shù)據(jù)，一般插入平均數(shù)，而變化的間隔比較大的數(shù)據(jù)，一般插入中位數(shù)。

處理價格的缺失值的具體操作如下：

2、異常值處理實戰(zhàn)

跟缺失值的處理過程類似，想要處理異常值，首先要發(fā)現(xiàn)異常值。而異常值的發(fā)現(xiàn)往往是通過畫散點圖的方法，因為相似的數(shù)據(jù)會在散點圖中集中分布到一塊區(qū)域，而異常的數(shù)據(jù)會分布到遠離這塊區(qū)域的地方。根據(jù)這個性質(zhì)，可以很方便的找到數(shù)據(jù)中的異常值。具體操作如下圖：

首先需要從數(shù)據(jù)中抽出價格數(shù)據(jù)和評論數(shù)據(jù)。通常的做法可以借助循環(huán)去抽取，但是這種方法太復(fù)雜，有一種簡單的方法是這個數(shù)據(jù)框進行轉(zhuǎn)置，這時候原先的列數(shù)據(jù)就變成了現(xiàn)在的行數(shù)據(jù)，可以很方便的獲取價格數(shù)據(jù)和評論數(shù)據(jù)。接下來通過plot()方法繪制散點圖，plot()方法第一個參數(shù)代表橫坐標(biāo)，第二個參數(shù)代表縱坐標(biāo)，第三個參數(shù)代表圖的類型，”o”代表散點圖。最后通過show()方法將其展現(xiàn)出來，這樣就可以直觀的觀測到離群點。這些離群點對數(shù)據(jù)的分析沒有幫助，在實際操作中往往需要將這些離群點代表的數(shù)據(jù)刪除或者轉(zhuǎn)成正常的值。下圖是繪制的散點圖：

根據(jù)上圖所示，將評論大于100000，價格大于1000的數(shù)據(jù)都處理掉，就可以達到處理異常值的效果。而具體的兩種處理方法的實現(xiàn)過程如下：

第一種是改值法，將其改為中位數(shù)、平均數(shù)或者其他的值。具體操作如下圖所示：

第二種是刪除處理法，即直接刪除這些異常數(shù)據(jù)，也是推薦使用的一種方法。具體操作如下圖所示：

3、分布分析

分布分析是指對數(shù)據(jù)的分布狀態(tài)進行分析，即觀察其是線性分布還是正態(tài)分布。一般采用畫直方圖的方式來進行分布分析。直方圖的繪制有以下幾個步驟：計算極差、計算組距和繪制直方圖。具體的操作如下圖所示：

其中，借助arrange()方法來制定樣式，arrange()方法第一個參數(shù)代表最小值，第二個參數(shù)代表最大值，第三個參數(shù)代表組距，接下來使用hist()方法來繪制直方圖。
taob表中的淘寶商品價格直方圖如下圖所示，大致上符合正態(tài)分布：

taob表中的淘寶商品評論直方圖如下圖所示，大致上是遞減的曲線：

4、詞云圖的繪制

有的時候常常需要根據(jù)一段文本信息來進行詞云圖的繪制，繪制的具體操作如下圖：

實現(xiàn)的大致流程是：先使用cut()對文檔進行切詞，在切詞完成之后，將這些詞語整理為固定格式，然后根據(jù)所需的詞云圖的展現(xiàn)形式讀取相應(yīng)的圖片（下圖中的詞云圖是貓的形狀），接著使用wc.WordCloud()進行詞云圖的轉(zhuǎn)換，最后通過imshow()展現(xiàn)出相應(yīng)的詞云圖。例如根據(jù)老九門.txt文檔繪制的詞云圖效果如下圖所示：

三、常見分類算法介紹

常見的分類算法有很多，如下圖所示：

其中KNN算法和貝葉斯算法都是較為重要的算法，除此之外還有其他的一些算法，如決策樹算法、邏輯回歸算法和SVM算法。Adaboost算法主要是用于弱分類算法改造成強分類算法。

四、對鳶尾花進行分類案例實戰(zhàn)

假如現(xiàn)有一些鳶尾花的數(shù)據(jù)，這些數(shù)據(jù)包含了鳶尾花的一些特征，如花瓣長度、花瓣寬度、花萼長度和花萼寬度這四個特征。有了這些歷史數(shù)據(jù)之后，可以利用這些數(shù)據(jù)進行分類模型的訓(xùn)練，在模型訓(xùn)練完成后，當(dāng)新出現(xiàn)一朵不知類型的鳶尾花時，便可以借助已訓(xùn)練的模型判斷出這朵鳶尾花的類型。這個案例有著不同的實現(xiàn)方法，但是借助哪種分類算法進行實現(xiàn)會更好呢？

1、KNN算法

（1）、KNN算法簡介

首先考慮這樣一個問題，在上文的淘寶商品中，有三類商品，分別是零食、名牌包包和電器，它們都有兩個特征：price和comment。按照價格來排序，名牌包包最貴，電器次之，零食最便宜；按照評論數(shù)來排序，零食評論數(shù)最多，電器次之，名牌包包最少。然后以price為x軸、comment為y軸建立直角坐標(biāo)系，將這三類商品的分布繪制在坐標(biāo)系中，如下圖所示：

顯然可以發(fā)現(xiàn)，這三類商品都集中分布在不同的區(qū)域。如果現(xiàn)在出現(xiàn)了一個已知其特征的新商品，用？表示這個新商品。根據(jù)其特征，該商品在坐標(biāo)系映射的位置如圖所示，問該商品最有可能是這三類商品中的哪種？

這類問題可以采用KNN算法進行解決，該算法的實現(xiàn)思路是，分別計算未知商品到其他各個商品的歐幾里得距離之和，然后進行排序，距離之和越小，說明該未知商品與這類商品越相似。例如在經(jīng)過計算之后，得出該未知商品與電器類的商品的歐幾里得距離之和最小，那么就可以認為該商品屬于電器類商品。

（2）實現(xiàn)方式

上述過程的具體實現(xiàn)如下：

當(dāng)然也可以直接調(diào)包，這樣更加簡潔和方便，缺點在于使用的人無法理解它的原理：

（3）使用KNN算法解決鳶尾花的分類問題

首先加載鳶尾花數(shù)據(jù)。具體有兩種加載方案，一種是直接從鳶尾花數(shù)據(jù)集中讀取，在設(shè)置好路徑之后，通過read_csv()方法進行讀取，分離數(shù)據(jù)集的特征和結(jié)果，具體操作如下：

還有一種加載方法是借助sklearn來實現(xiàn)加載。sklearn的datasets中自帶有鳶尾花的數(shù)據(jù)集，通過使用datasets的load_iris()方法就可以將數(shù)據(jù)加載出來，隨后同樣獲取特征和類別，然后進行訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分離（一般做交叉驗證），具體是使用train_test_split()方法進行分離，該方法第三個參數(shù)代表測試比例，第四個參數(shù)是隨機種子，具體操作如下：

在加載完成之后，就可以調(diào)用上文中提到的KNN算法進行分類了。

2、貝葉斯算法

（1）、貝葉斯算法的介紹

首先介紹樸素貝葉斯公式：P（B|A）=P（A|B）P（B）/P（A）。假如現(xiàn)在有一些課程的數(shù)據(jù)，如下表所示，價格和課時數(shù)是課程的特征，銷量是課程的結(jié)果，若出現(xiàn)了一門新課，其價格高且課時多，根據(jù)已有的數(shù)據(jù)預(yù)測新課的銷量。

顯然這個問題屬于分類問題。先對表格進行處理，將特征一與特征二轉(zhuǎn)化成數(shù)字，即0代表低，1代表中，2代表高。在進行數(shù)字化之后，[[t1,t2],[t1,t2],[t1,t2]]------[[0,2],[2,1],[0,0]]，然后對這個二維列表進行轉(zhuǎn)置（便于后續(xù)統(tǒng)計），得到[[t1,t1,t1],[t2,t2,t2]]-------[[0,2,0],[2,1,0]]。其中[0,2,0]代表著各個課程價格，[2,1,0]代表各個課程的課時數(shù)。

（2）、實現(xiàn)方式

跟KNN算法一樣，貝葉斯算法也有兩種實現(xiàn)方式，一種是詳細的實現(xiàn)：

另一種是集成的實現(xiàn)方式：

3、決策樹算法

決策樹算法是基于信息熵的理論去實現(xiàn)的，該算法的計算流程分為以下幾個步驟：
（1）先計算總信息熵
（2）計算各個特征的信息熵
（3）計算E以及信息增益，E=總信息熵-信息增益，信息增益=總信息熵-E
（4）E如果越小，信息增益越大，不確定因素越小

決策樹是指對于多特征的數(shù)據(jù)，對于第一個特征，是否考慮這個特征（0代表不考慮，1代表考慮）會形成一顆二叉樹，然后對第二個特征也這么考慮...直到所有特征都考慮完，最終形成一顆決策樹。如下圖就是一顆決策樹：

決策樹算法實現(xiàn)過程為：首先取出數(shù)據(jù)的類別，然后對數(shù)據(jù)轉(zhuǎn)化描述的方式（例如將“是”轉(zhuǎn)化成1，“否”轉(zhuǎn)化成0），借助于sklearn中的DecisionTreeClassifier建立決策樹，使用fit()方法進行數(shù)據(jù)訓(xùn)練，訓(xùn)練完成后直接使用predict()即可得到預(yù)測結(jié)果，最后使用export_graphviz進行決策樹的可視化。具體實現(xiàn)過程如下圖所示：

4、邏輯回歸算法

邏輯回歸算法是借助于線性回歸的原理來實現(xiàn)的。假如存在一個線性回歸函數(shù)：y=a1x1+a2x2+a3x3+…+anxn+b，其中x1到xn代表的是各個特征，雖然可以用這條直線去擬合它，但是由于y范圍太大，導(dǎo)致其魯棒性太差。若想實現(xiàn)分類，需要縮小y的范圍到一定的空間內(nèi)，如[0,1]。這時候通過換元法可以實現(xiàn)y范圍的縮小：
令y=ln（p/（1-p））
那么：e^y=e^(ln（p/（1-p））)
=> e^y=p/(1-p)
=>e^y(1-p)=p => e^y-pe^y=p
=> e^y=p(1+e^y)
=> p=e^y/(1+e^y)
=> p屬于[0,1]

這樣y就降低了范圍，從而實現(xiàn)了精準(zhǔn)分類，進而實現(xiàn)邏輯回歸。

邏輯回歸算法對應(yīng)的實現(xiàn)過程如下圖所示：

5、SVM算法

SVM算法是一種精準(zhǔn)分類的算法，但是其可解釋性并不強。它可以將低維空間線性不可分的問題，變?yōu)楦呶豢臻g上的線性可分。SVM算法的使用十分簡單，直接導(dǎo)入SVC，然后訓(xùn)練模型，并進行預(yù)測。具體操作如下：

盡管實現(xiàn)非常簡單，然而該算法的關(guān)鍵卻在于如何選擇核函數(shù)。核函數(shù)可分為以下幾類，各個核函數(shù)也適用于不同的情況：
（1）線性核函數(shù)
（2）多項式核函數(shù)
（3）徑向基核函數(shù)
（4）Sigmoid核函數(shù)
對于不是特別復(fù)雜的數(shù)據(jù)，可以采用線性核函數(shù)或者多項式核函數(shù)。對于復(fù)雜的數(shù)據(jù)，則采用徑向基核函數(shù)。采用各個核函數(shù)繪制的圖像如下圖所示：

5、Adaboost算法

假如有一個單層決策樹的算法，它是一種弱分類算法（準(zhǔn)確率很低的算法）。如果想對這個弱分類器進行加強，可以使用boost的思想去實現(xiàn)，比如使用Adaboost算法，即進行多次的迭代，每次都賦予不同的權(quán)重，同時進行錯誤率的計算并調(diào)整權(quán)重，最終形成一個綜合的結(jié)果。

Adaboost算法一般不多帶帶使用，而是組合使用，來加強那些弱分類的算法。

五、分類算法的選擇思路與技巧

首先看是二分類還是多分類問題，如果是二分類問題，一般這些算法都可以使用；如果是多分類問題，則可以使用KNN和貝葉斯算法。其次看是否要求高可解釋性，如果要求高可解釋性，則不能使用SVM算法。再看訓(xùn)練樣本數(shù)量、再看訓(xùn)練樣本數(shù)量，如果訓(xùn)練樣本的數(shù)量太大，則不適合使用KNN算法。最后看是否需要進行弱-強算法改造，如果需要則使用Adaboost算法，否則不使用Adaboost算法。如果不確定，可以選擇部分數(shù)據(jù)進行驗證，并進行模型評價（耗時和準(zhǔn)確率）。

綜上所述，可以總結(jié)出各個分類算法的優(yōu)缺點為：
KNN：多分類，惰性調(diào)用，不宜訓(xùn)練數(shù)據(jù)過大
貝葉斯：多分類，計算量較大，特征間不能相關(guān)
決策樹算法：二分類，可解釋性非常好
邏輯回歸算法：二分類，特征之間是否具有關(guān)聯(lián)無所謂
SVM算法：二分類，效果比較不錯，但可解釋性欠缺
Adaboost算法：適用于對弱分類算法進行加強

原文鏈接

閱讀更多干貨好文，請關(guān)注掃描以下二維碼：

云服務(wù)器 GPU云服務(wù)器機器學(xué)習(xí)入門實戰(zhàn) WebRTC實時互動直播技術(shù)入門與實戰(zhàn) 大數(shù)據(jù)與機器學(xué)習(xí)技術(shù) webrtc入門與實戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/41562.html

發(fā)表評論

登陸后可評論

0條評論

孫吉亮

男|高級講師

我要關(guān)注我要私信

TA的文章

華為正式捐贈歐拉：操作系統(tǒng)領(lǐng)域的重量級開源項目

閱讀 1830·2021-11-11 16:54
如何避免無樣式內(nèi)容閃爍(FOUC)？

閱讀 2056·2019-08-30 15:56
flex-grow、flex-shrink、flex-basis和九宮格布局理解

閱讀 2365·2019-08-30 15:44
springboot登陸頁面圖片驗證碼簡單的web項目

閱讀 1282·2019-08-30 15:43
Mac中nginx的安裝、配置、訪問靜態(tài)文件、配置反向代理

閱讀 1856·2019-08-30 11:07
IE 盒模型和W3C盒模型

閱讀 812·2019-08-29 17:11
Codepen 每周精選：不能錯過的23個頁面特效（2018-5-14）

閱讀 1464·2019-08-29 15:23
001-DOM事件

閱讀 3007·2019-08-29 13:01

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python數(shù)據(jù)挖掘與機器學(xué)習(xí)技術(shù)入門實戰(zhàn)

相關(guān)文章

**重磅 | 完備的 AI 學(xué)習(xí)路線，最詳細的資源整理！**

**SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧**

AI開發(fā)書籍分享

發(fā)表評論

0條評論

孫吉亮

男|高級講師

TA的文章

華為正式捐贈歐拉：操作系統(tǒng)領(lǐng)域的重量級開源項目

如何避免無樣式內(nèi)容閃爍(FOUC)？

flex-grow、flex-shrink、flex-basis和九宮格布局理解

springboot登陸頁面圖片驗證碼簡單的web項目

Mac中nginx的安裝、配置、訪問靜態(tài)文件、配置反向代理

IE 盒模型和W3C盒模型

Codepen 每周精選：不能錯過的23個頁面特效（2018-5-14）

001-DOM事件

最新活動