摘要:我們的研究表明,結合公共數據和機器學習方法,可以得到社會經濟數據和美國人的政治傾向。
AI科技評論按:最近,一篇名為《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的論文發布到了arxiv.org上,作為這篇論文的聯合作者之一,李飛飛在她的推特上向公眾推薦了這篇論文。這篇論文主要論述了如何將谷歌街景車搜集來的機動車輛數據,結合機器學習算法,從而估算出本地區人口的特征和組成,甚至這一地區居民的政治傾向。
下面是這篇論文的一些節選內容,原文地址為:https://arxiv.org/abs/1702.06683。由AI科技評論編譯。
幾千年來,統治者和政策制定者進行全國人口調查,用來搜集人口數據。在美國,最細致的人口調查工作就是“美國社區調差”(ACS),由美國普查局執行,每年花費10億美元和6500人以上的人力。這是一個勞動密集型數據搜集過程。
最近幾年,計算方法崛起成為解決社會科學領域問題的有效方法。比如用Twitter上的數據預測失業率、使用書里的大量文本分析文化等等。這些例子表明,計算方法可以促進社會經濟領域的研究發展,最終可以詳細、實時地分析人口趨勢,并且成本很便宜。
我們的研究表明,結合公共數據和機器學習方法,可以得到社會經濟數據和美國人的政治傾向。我們的流程里,針對幾個城市耗費少量人力來搜集數據,然后用來預測全美的狀況。
具體而言,我們分析了由谷歌街景汽車在200個城市里搜集來的5000萬張圖片。我們的數據主要是關于機動車輛,因為90%的美國家庭都擁有至少一輛汽車,而且人們對汽車的選擇受到多種人口因素的影響,包括家庭需求、個人偏好和資金等。
基于深度學習的CNN計算機視覺框架,不僅能夠在復雜的街景下識別出汽車,還能鑒定出一系列汽車特征,包括材料、型號和年份。對于一個未經訓練的人來說,汽車之間的不同是難以發覺的。比如,同一型號的汽車,不同年份的在尾燈有微小變化(比如2007產的Honda Accord和2008年產Honda Accord)。然而,我們的系統就能夠將汽車分成2657類,每張圖片的分析時間只需0.2秒。該系統可以在2周時間里對5000萬張圖片分類,而一個專業的人類分類員,假設他每張需要10秒時間,將會花費15年的時間完成這個任務。
利用谷歌街景汽車搜集來5000萬張圖片,我們使用圖像識別算法(Deformable Part Model)來學習自動搜集汽車圖片。搜集每一輛汽車圖片后,我們部署CNN模型,用來進行物體分類,來判定每一輛車的材料、型號、車型和年份。然后,我們根據城鎮名字分類數據庫,劃分到兩個數據庫里。第一個是"訓練庫",包含了所有名字以A、B、 C開頭的地區,這個數據庫包括了35個城市,訓練產生模型;第二個是“測試庫”,包括所有名字以D、Z為開頭的地區,這個數據庫用來提升模型。
我們總共搜集了2200萬輛(占全美汽車總數8%)汽車的數據,用來準確估算這個地區的收入、種族、教育和投票程式(voting pattern)。結果顯示出的關系出人意料的簡單和有力。比如,如果在一個城市里15分鐘的車程中,遇到的轎車數量高于卡車數量,那么這個城市傾向于在下屆大選中投票給民主黨(88%幾率);反之則傾向于投票給共和黨(82%)。我們的結果表明,自動系統監測使用良好的空間分辨率,能夠接近實時地監測人口趨勢,可以有效地輔助勞動密集型的調查方法。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4482.html
摘要:谷歌云在其官方博客上公布,確認來自卡內基梅隆大學的計算機科學院院長教授將在年底接任李飛飛的谷歌云負責人職位,而李飛飛也將正式回歸斯坦福大學當教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負責人與首席科學家。今年7月的谷歌Next大會上,李飛飛宣布了兩年前推進的Contact Center落地、AutoML推出自然語言和翻譯服務、TPU 3.0進入谷歌云,這意味著谷歌云擁抱AI Fir...
摘要:谷歌最近人事變動頗為頻繁,在李佳被爆離開谷歌后,有消息稱谷歌云服務的負責人戴安妮格林也將辭職,其職位將由甲骨文前總裁托馬斯庫里安接任。如今,加飛貓陸續離開百度云,格林也準備辭職,除了個人主觀原因之外,必然和谷歌云服務近兩年的發展相關。谷歌最近人事變動頗為頻繁,在李佳被爆離開谷歌后,有消息稱谷歌云服務的負責人戴安妮·格林也將辭職,其職位將由甲骨文前總裁托馬斯·庫里安(Thomas Kurian...
摘要:年月日,將標志著一個時代的終結。數據集最初由斯坦福大學李飛飛等人在的一篇論文中推出,并被用于替代數據集后者在數據規模和多樣性上都不如和數據集在標準化上不如。從年一個專注于圖像分類的數據集,也是李飛飛開創的。 2017 年 7 月 26 日,將標志著一個時代的終結。那一天,與計算機視覺頂會 CVPR 2017 同期舉行的 Workshop——超越 ILSVRC(Beyond ImageNet ...
閱讀 1303·2021-11-22 09:34
閱讀 2167·2021-10-08 10:18
閱讀 1729·2021-09-29 09:35
閱讀 2460·2019-08-29 17:20
閱讀 2141·2019-08-29 15:36
閱讀 3406·2019-08-29 13:52
閱讀 783·2019-08-29 12:29
閱讀 1187·2019-08-28 18:10