摘要:滑鐵盧大學(xué)一位叫的華裔小哥哥,在上分享了自己如何用中的邏輯回歸方法幫自己找脫單的神操作。不過,滑鐵盧大學(xué)和所有的理工科學(xué)校一樣,除了男女比例極不協(xié)調(diào)外,缺少社交活動,很難找到對象。不過作為滑鐵盧大學(xué)的一個數(shù)據(jù)科學(xué)家,小哥哥對此持不同意見。
滑鐵盧大學(xué)一位叫 Bai Li 的華裔小哥哥,在 Medium 上分享了自己「如何用 ML 中的邏輯回歸方法幫自己找脫單」的神操作。像這么實用的技術(shù),必須學(xué)習(xí)一個。
滑鐵盧大學(xué)是加拿大一所著名高校,是加拿大最好的大學(xué)之一,尤其數(shù)學(xué)、計算機科學(xué)等工程學(xué)科教學(xué)水平居世界前列,其中優(yōu)勢專業(yè)計算機科學(xué)名列 2017 年 usnews 世界大學(xué)排行榜第 18 位。
不過,滑鐵盧大學(xué)和所有的理工科學(xué)校一樣,除了男女比例極不協(xié)調(diào)外,缺少社交活動,很難找到對象。
有些人覺得愛情這種東西是沒法量化的,你只管「做你自己,順其自然」就好了。
不過作為滑鐵盧大學(xué)的一個數(shù)據(jù)科學(xué)家,小哥哥對此持不同意見。他覺得自己既然是搞計算機的,干嘛不試試借助機器學(xué)習(xí)來幫助自己找女朋友呢?
撩妹方法論:武裝自己心動不如行動,馬上著手研究如何用機器學(xué)習(xí)技術(shù)找女票。
這個研究的核心問題是:具備哪些屬性才能在眾多男生中脫穎而出,受到妹紙們的青睞?
小哥哥就試著列出了男生上的特征屬性,想找出哪些假設(shè)是可以有數(shù)據(jù)支撐。
在上面這些情況中,我按照是否符合標準會賦予 1 或 0 這兩個值。所以,我們是在衡量人們的上述屬性和能找到對象之間的關(guān)系。
上面有些屬性非常主觀,比如怎么證明一個人很有趣?所以,假如你是想看那種超硬核又嚴格統(tǒng)計的研究,那么后面的內(nèi)容可能不是你的菜。
為了收集數(shù)據(jù),我把自己能想到的每個人都列在表格里,在每個屬性里會以 0 或 1 給他們打分。最終,數(shù)據(jù)集有 N=70 行。如果你過去兩年和我同校,和我認識,多半這個表格上有你。
認真分析落單原因首先,我們將精確概率法(Fisher’s Exact Test)對目標約會變量和所有的說明變量進行分析,發(fā)現(xiàn)其中有 3 個變量影響最為顯著:
健身:定期去健身房或運動的人有女朋友的概率會高出兩倍以上(P值=0.02)
眼鏡:不戴眼鏡的人有女朋友的概率比戴眼鏡的人會高出 70%(P值=0.08)
自信:有自信心的人有朋友的概率更高(P 值=0.09)
小哥哥對戴眼鏡與否影響這么大感到很意外,好奇是不是因為戴眼鏡一般會給人產(chǎn)生「書呆子」的印象。
所以小哥哥又查了些資料,發(fā)現(xiàn)還真有這么一回事,有篇研究論文講到大多數(shù)人認為不管男性還是女性,戴眼鏡會降低自身吸引力。
有些變量對于能否成功約會可能比較有預(yù)測力,不過很難確定,因為樣本較?。?/p>
留學(xué)生比加拿大本地學(xué)生的約會成功率要高
亞洲人和其它人種相比約會機會更少
縱覽其它因素,雖然女生很少,計算機專業(yè)的男生似乎并不處于劣勢;剩下的變量(身高/事業(yè)/有趣性/社交性/時尚/居住地)這些和成功約會的關(guān)系不是很大,畢竟約會只是確認關(guān)系的第一步,很少有年輕人想得太遠太復(fù)雜。
本次實驗的完整結(jié)果:
接著我們檢查各變量之間的關(guān)系,這可以幫我們識別出不正確的模型假設(shè)。
紅色表示正相關(guān),藍色表示負相關(guān),只展示統(tǒng)計顯著性 <0.1 的相關(guān)性,因此大部分變量之間的關(guān)系為空白。
從圖中看起來 { 有女朋友,看起來自信,去健身房,不戴眼鏡 } 有相互關(guān)系。用這些數(shù)據(jù)訓(xùn)練后的模型也會反應(yīng)這些偏差,未來我也會擴大調(diào)查范圍,收集更多數(shù)據(jù)。
用邏輯回歸預(yù)測找女票如果有個算法能夠預(yù)測你有多大幾率可以找到女票,豈不美哉?
小哥哥訓(xùn)練了一個邏輯回歸廣義線性模型,根據(jù)我們前文列舉的這些說明變量預(yù)測是否會有女票。
借助 R 語言中的 glmnet 和 caret 包,我用彈性網(wǎng)絡(luò)正則化訓(xùn)練了這個廣義線性模型。然后用標準網(wǎng)格搜索法優(yōu)化了超參數(shù),在每次迭代中使用留一交叉驗證法,并優(yōu)化 kappa 系數(shù)。
最終結(jié)論最終模型的交叉驗證 ROC AUC 分數(shù)為 0.673,也就是說模型在預(yù)測你找到女票的幾率方面,比你憑感覺亂猜還是更靠譜些。
當(dāng)然了,生活中總會有些偶然的不確定因素,人生也會有驚喜嘛。好了不說了,小哥哥要去健身房了,還要努力摘掉眼鏡!
(獻上 Bai Li 小哥哥的真人近照)
原文作者 Bai Li 小哥哥完成這項研究時,是在今年四月,他將文章發(fā)布在 Medium 之后也大受好評,小哥哥的項目可以通過他的 GitHub 了解更多。
關(guān)注公眾號后回復(fù)「單身狗」,即可獲得小哥哥的 GitHub 地址
從文章發(fā)布到今天已經(jīng)快四個月咯,小哥哥怎么樣了呢,我們也是通過一個不存在的網(wǎng)站,也稱臉書,聯(lián)系到了小哥哥本哥,自己體會一下:
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/19777.html
摘要:但周自恒輕描淡寫地說,這是理性分析之后的結(jié)果,談不上多艱難。到今年月,是他做全職爸爸的周年。對此,周自恒建議老爸們雖然無法天天陪孩子學(xué)習(xí),但是得了解自己孩子思維的發(fā)育特點,在哪方面比較敏感,在孩子的培養(yǎng)方向和計劃上更多地參與進來。 showImg(https://segmentfault.com/img/bVbtYNo); 哥哥:爸爸我問你,有一種鯊魚,它的頭像錘子,是海底的雜食動物,...
摘要:老司機開車從不需要理由喜歡我就來點我吧易杭貼吧新鮮出爐的中文社區(qū)前述最近一直在寫一個發(fā)貼子的應(yīng)用,前不久才剛剛完工其實還有很多需要改進的地方。 老司機開車 從不需要理由 喜歡我 就來點我吧 易杭貼吧--新鮮出爐的中文社區(qū) http://tieba.freeedit.cn showImg(https://segmentfault.com/img/remote/146000000982...
摘要:老司機開車從不需要理由喜歡我就來點我吧易杭貼吧新鮮出爐的中文社區(qū)前述最近一直在寫一個發(fā)貼子的應(yīng)用,前不久才剛剛完工其實還有很多需要改進的地方。 老司機開車 從不需要理由 喜歡我 就來點我吧 易杭貼吧--新鮮出爐的中文社區(qū) http://tieba.freeedit.cn showImg(https://segmentfault.com/img/remote/146000000982...
摘要:老司機開車從不需要理由喜歡我就來點我吧易杭貼吧新鮮出爐的中文社區(qū)前述最近一直在寫一個發(fā)貼子的應(yīng)用,前不久才剛剛完工其實還有很多需要改進的地方。 老司機開車 從不需要理由 喜歡我 就來點我吧 易杭貼吧--新鮮出爐的中文社區(qū) http://tieba.freeedit.cn showImg(https://segmentfault.com/img/remote/146000000982...
閱讀 3154·2021-11-22 14:45
閱讀 3300·2019-08-29 13:11
閱讀 2306·2019-08-29 12:31
閱讀 922·2019-08-29 11:21
閱讀 2991·2019-08-29 11:09
閱讀 3616·2019-08-28 18:11
閱讀 1420·2019-08-26 13:58
閱讀 1273·2019-08-26 13:27