摘要:鄰近算法實例額一改進約會網站的配對效果應用背景某約會網站收集了一些數據放在中,每個樣本數據占據一行,總共有行。在中創建名為的函數,以此來處理輸人格式問題。該函數的輸人為文件名字符串輸出為訓練樣本矩陣和類標簽向量。
k鄰近算法實例額(一)
改進約會網站的配對效果
應用背景:某約會網站收集了一些數據放在datingTestSet.txt中,每個樣本數據占據一行,總共有1000行。樣本主要包含以下3種特征:
□ 每年獲得的飛行常客里程數
□ 玩視頻游戲所耗時間百分比
□ 每周消費的冰淇淋公升數
在將上述特征數據輸人到分類器之前,必須將待處理數據的格式改變為分類器可以接受的格式 。在kNN.py中創建名為file2matrix的函數,以此來處理輸人格式問題。該函數的輸人為文件名字符串輸出為訓練樣本矩陣和類標簽向量。
在kNN.py 中添加下面的函數:
def file2matrix(filename): # 打開文件 fr = open(filename) # 逐行讀取 arrayOLines = fr.readlines() # 獲取總函數 numberOfLines = len(arrayOLines) # 初始化矩陣 returnMat = zeros((numberOfLines,3)) # 初始化標簽數組 classLabelVector = [] index = 0 for line in arrayOLines: # 頭尾部格式化 line = line.strip() # 根據tab切分 listFromLine = line.split(" ") # 矩陣單行賦予元素 returnMat[index, :] = listFromLine[0:3] # 標簽數據賦值 classLabelVector.append(int(listFromLine[-1])) index += 1 return returnMat,classLabelVector
進入終端:
使用Matplotlib創建數據集的散點圖, 進入終端:
得到繪圖:
如上圖散點圖使用矩陣的第二、第三列數據,分別表示特征值“玩視頻游戲所耗時間百分比”(x軸)和 “每周所消費的冰淇淋公升數”(y軸)
由于沒有使用上各組數據等標簽, 所以我們很難從上圖看出有用的信息,Matplotlib庫提供了scatter函數支持個性化標記散點圖上的點, 所以我們重新進入終端:
獲得新的繪圖:
未完待續·····
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/40876.html
摘要:項目介紹某用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選但她并不是喜歡每一個人。 1 項目介紹 某APP用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選,但她并不是喜歡每一個人。經過一番總結,她發現曾交往過三種類型的人: 不喜歡的人(3) 魅力一般的人(2) 極具魅力的人(1) 某APP用戶希望分類軟件可以更好地幫助她將匹...
摘要:項目介紹某用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選但她并不是喜歡每一個人。 1 項目介紹 某APP用戶一直使用在線約會軟件尋找適合自己的約會對象。盡管約會網站會推薦不同的人選,但她并不是喜歡每一個人。經過一番總結,她發現曾交往過三種類型的人: 不喜歡的人(3) 魅力一般的人(2) 極具魅力的人(1) 某APP用戶希望分類軟件可以更好地幫助她將匹...
摘要:電影分析近鄰算法周末,小迪與女朋友小西走出電影院,回味著剛剛看過的電影。近鄰分類電影類型小迪回到家,打開電腦,想實現一個分類電影的案例。分類器并不會得到百分百正確的結果,我們可以使用很多種方法來驗證分類器的準確率。 電影分析——K近鄰算法 周末,小迪與女朋友小西走出電影院,回味著剛剛看過的電影。 小迪:剛剛的電影很精彩,打斗場景非常真實,又是一部優秀的動作片! 小西:是嗎?我怎么感覺這...
閱讀 1824·2021-09-28 09:46
閱讀 3143·2019-08-30 14:22
閱讀 1878·2019-08-26 13:36
閱讀 3343·2019-08-26 11:32
閱讀 2081·2019-08-23 16:56
閱讀 1151·2019-08-23 16:09
閱讀 1303·2019-08-23 12:55
閱讀 2148·2019-08-23 11:44