摘要:是一種非參數(shù)的懶惰的監(jiān)督學(xué)習(xí)算法非參數(shù)的意思是,模型不會(huì)對(duì)基礎(chǔ)數(shù)據(jù)分布做出任何假設(shè)。電腦端查看源碼參考資料網(wǎng)址是一個(gè)支持的人工智能建模平臺(tái),能幫助你快速開發(fā)訓(xùn)練并部署應(yīng)用。
KNN 是一種非參數(shù)的懶惰的監(jiān)督學(xué)習(xí)算法.
非參數(shù)的意思是,模型不會(huì)對(duì)基礎(chǔ)數(shù)據(jù)分布做出任何假設(shè)。換句話說,模型的結(jié)構(gòu)是根據(jù)數(shù)據(jù)確定的。懶惰的意思是沒有或者只有很少的訓(xùn)練過程.
KNN 算法既可以處理分類問題,測(cè)試數(shù)據(jù)的類型由所有 K 個(gè)最近鄰點(diǎn)投票決定,也可以處理回歸問題,測(cè)試數(shù)據(jù)的值是所有 K 個(gè)最近鄰點(diǎn)的值的均值或眾數(shù).
KNN 的算法非常簡(jiǎn)單.
例如,對(duì)于分類問題,算法流程如下,
對(duì)需要預(yù)測(cè)的每個(gè)數(shù)據(jù)依次執(zhí)行以下操作:
計(jì)算已知訓(xùn)練數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離;
按照距離遞增次序排序;
選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn);
確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率;
返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類。
需要注意的是,要對(duì)數(shù)據(jù)進(jìn)行特征縮放.下面兩張圖很好的闡釋了縮放的重要性.
那么KNN在實(shí)際使用中有哪些優(yōu)點(diǎn)和缺點(diǎn)呢?
它的優(yōu)點(diǎn)有:
可以處理線性和非線性數(shù)據(jù)
直觀上易于理解
具有較高的準(zhǔn)確率
既可以用作回歸問題,也可以用作分類問題
它的缺點(diǎn)是
計(jì)算代價(jià)大
內(nèi)存要求高
數(shù)據(jù)量大時(shí)預(yù)測(cè)較慢
對(duì)無關(guān)的特征以及特征縮放敏感
在實(shí)際的使用過程中,可能會(huì)遇到如下的問題.
k 近鄰的類別出現(xiàn)了平局的情況. 例如在二分類中,正負(fù)類型的近鄰數(shù)相同,使用奇數(shù)個(gè)近鄰可以解決此問題,但是無法解決多分類的問題.這個(gè)時(shí)候可以
隨機(jī)決定屬于哪個(gè)類別
對(duì)某些類別設(shè)置優(yōu)先級(jí)
使用最近鄰來做最終的決定
2.訓(xùn)練數(shù)據(jù)的缺失值如何處理.如果不處理缺失值,則無法計(jì)算距離.對(duì)于缺失值的處理的核心原則是,盡可能小的影響距離的計(jì)算.一個(gè)合理的解決辦法是,使用訓(xùn)練數(shù)據(jù)的平均值來填充缺失值.
最后附上實(shí)現(xiàn)代碼,登錄之后就能查看了。
電腦端查看源碼
參考資料
https://medium.com/@adi.brons...
https://www.youtube.com/watch...
https://www.datacamp.com/comm...
https://stats.stackexchange.c...
————————————————————————————————————
Mo (網(wǎng)址:momodel.cn )是一個(gè)支持 Python 的人工智能建模平臺(tái),能幫助你快速開發(fā)訓(xùn)練并部署 AI 應(yīng)用。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/20010.html
摘要:算法及工作原理近鄰算法采用測(cè)量不同特征值之間的距離方法進(jìn)行分類。最后選擇個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類作為新數(shù)據(jù)的分類。 1 分類算法引言 眾所周知,電影可以按照題材分類,然而題材本身是如何定義的?由誰來判定某部電影屬于哪個(gè)題材?也就是說同一題材的電影具有哪些公共特征?這些都是在進(jìn)行電影分類時(shí)必須要考慮的問題。 動(dòng)作片中也會(huì)存在接吻鏡頭,愛情片中也會(huì)存在打斗場(chǎng)景,我們不能單純依靠是...
必須要看的前言 本文風(fēng)格:以??簡(jiǎn)單易懂??的語言帶你徹底搞懂KNN,了解什么是有監(jiān)督學(xué)習(xí)算法。 認(rèn)真看完這篇文章,徹底了解KNN、了解監(jiān)督學(xué)習(xí)算法絕對(duì)是一樣很簡(jiǎn)單的事情。 注:本篇文章非常詳細(xì),同時(shí)我也附加了Python代碼,歡迎收藏后慢慢閱讀。 目錄 必須要看的前言監(jiān)督學(xué)習(xí)算法KNN/K近鄰算法1 算法原理1.1 實(shí)現(xiàn)過程1.2 距離的確定 2 算法的優(yōu)缺點(diǎn)3 算法的變種3.1 變...
摘要:項(xiàng)目介紹某用戶一直使用在線約會(huì)軟件尋找適合自己的約會(huì)對(duì)象。盡管約會(huì)網(wǎng)站會(huì)推薦不同的人選但她并不是喜歡每一個(gè)人。 1 項(xiàng)目介紹 某APP用戶一直使用在線約會(huì)軟件尋找適合自己的約會(huì)對(duì)象。盡管約會(huì)網(wǎng)站會(huì)推薦不同的人選,但她并不是喜歡每一個(gè)人。經(jīng)過一番總結(jié),她發(fā)現(xiàn)曾交往過三種類型的人: 不喜歡的人(3) 魅力一般的人(2) 極具魅力的人(1) 某APP用戶希望分類軟件可以更好地幫助她將匹...
閱讀 3315·2021-11-12 10:36
閱讀 2467·2021-11-02 14:43
閱讀 2146·2019-08-30 14:23
閱讀 3462·2019-08-30 13:08
閱讀 919·2019-08-28 18:09
閱讀 3129·2019-08-26 12:22
閱讀 3141·2019-08-23 18:24
閱讀 2016·2019-08-23 18:17