摘要:結果,我們當時非常抱以厚望的就是卷積神經網絡模型,或者說是。單反相機可以讓攝影師調節透鏡類型和光圈大小,更好地控制把相片里的哪個部分作為焦點。更進一步,單反相機的傳感器更大,對光線更敏感,即使在非常昏暗的環境下也可以拍出非常漂亮的相片。
Yelp的數據庫中已經存儲了幾千萬張相片,用戶們現在每天都會上傳大概十萬張,而且速度還在不斷加快。事實上,我們發現相片的上傳增長率大于相片的查看率。這些相片反映著本地商業的內容和質量,提供了非常豐富的信息。
關于這些相片非常重要的一方面,就是展示出來的內容的類型。在2015年8月,我們上線了一套新系統,用于將傳統飯店有關的相片分為食物、飲料、外觀、內景和菜單等幾大類。從那以后,我們又為咖啡店、酒吧等類似的商店上線了類似的系統,以此來幫助用戶們盡快發現他們想要尋找的那些相片。最近的一段時間,我們又在研究如何進一步提高用戶的滿意度,具體方法就是給他們看更多漂亮的圖片,改進我們的相片排名系統。
理解相片的質量
對比相片的質量,看起來很像是一件非常主觀性的工作。喜歡哪張相片或不喜歡哪張相片,有許多因素會影響這樣的決定,而且依正在做搜索的用戶個人不同,結論也會有所不同。為了能為Yelp的用戶提供更好的體驗,相片理解團隊必須擔當起這項非常有挑戰性的工作:確定哪些特點會讓相片更受人喜愛,并研發出一套算法,可以依據這些特點來可靠地對相片做出評判。
首先我們試著為相片構建一個點擊率預測器,數據源就是從日志中挖掘出來的點擊數據。我們的假設是,那些被點擊了更多次數的相片應該很明顯地會比其它相片好。可事實上這個想法的效果卻沒有想象中好,原因有幾點。首先,人們常常會點開那些比較模糊、或者里面有非常多文字的相片,這么來看看里面到底是什么內容。另外,因為Yelp上的相片有許多種展示方法,所以很難有效地對比某些特定相片的指標。
之后,我們試用了好幾種不同的計算機視覺技術,試著發現一些相片的內在特征,希望可以直接用于質量評分。比如,對攝影師來說有個非常重要的特征叫“景深”,它用來測量相片有多少內容是在焦點里面的。用淺景深可以非常有效地將相片中的物體與它的背景區別開來,上傳到Yelp的相片也不例外。很多時候,在關于某間飯店的許多張相片中,那些最美的總是那些非常明確地對焦到某個具體物體上的。
景深
亞歷山大牛排屋
桌面上的藝術
另一個人們判斷相片的非常重要的方法就是對比。對比可以測量出在一張相片中,一個物體和它旁邊的物體在亮度和顏色等方面的不同。有許多種公式可以用于計算對比,但大多數都要對比亮度,或者相片中附近區域的光強度。
對比
安東尼點心
Tac N Roll
最后,相片中不同物體之間的相對位置也是一個非常重要地審美方面的考慮。比如研究表明,人們對藝術的對稱性有著天生的傾向。另外,有些攝影師也非常推崇所謂的“第三法則”,這是一種將相片中的重要元素都按照某個軸排列起來的方法,以此來創建出一種運動或活力的感覺。
對齊
Traif
Augie Chang 攝影室
用深度學習來構建相片評分模型
所有這些考慮都依賴于對相片內不同區域之間的關系的理解。所以當要實現一個相片評分算法時,我們希望算法中也會把這個關系放在非常重要的地位。結果,我們當時非常抱以厚望的就是卷積神經網絡模型,或者說是CNN。
在過去的十年里,卷積神經網絡模型在圖片分類與處理領域內取得了巨大的成功,比如人臉識別和分子疾病檢測等。和普通的神經網絡類似,它們都會對輸入向量做一系列的轉換,并使用輸出的錯誤來動態地改進對未來的預測。可是,CNN還有另外的幾層,用到了上文中我們詳細討論過的幾個特征。尤其是卷積層會對相片加以許多過濾器,匯聚層也會縮減之前各層的輸出規模,以減少計算量。
為了開發這個模型,我們先要收集訓練數據。得到訓練數據的方法之一就是手工地為成千上萬張相片加上標簽,標記成漂亮或不漂亮。可是這樣的方法代價太大,太耗時,而且會非常依賴于我們的評分員的喜好。另外,還有一點可供我們利用的就是,在相片被上傳到Yelp的時候,它們通常都會包含著額外的信息,也就是EXIF數據。
另外,我們發現有個判斷質量的非常好的方法,就是相片是不是由單反相機(Digital Single-Lens Reflex Camera,DSLR)拍攝的。單反相機可以讓攝影師調節透鏡類型和光圈大小,更好地控制把相片里的哪個部分作為焦點。更進一步,單反相機的傳感器更大,對光線更敏感,即使在非常昏暗的環境下也可以拍出非常漂亮的相片。最后,總是使用單反相機的人經驗會更豐富,也可以抓拍到質量更好的相片。
把這樣的相片送給我們的模型去學習,就可以學到這些重要的相片特征,那么即使是在那些不是由單反相機拍出來的相片中,也可以識別出好相片。
即使這張相片是由iPhone拍出來的,我們的模型也還是給了它非常高的評分。
我們嘗試了好多種方法來訓練這個模型。一開始,我們收集了十萬張單反相機和非單反相機拍出來的相片,分別標上好的和差的標簽,然后送給名為AlexNet的模型中去學習,這個模型是由多倫多大學的研究員在2012年提出的。為了提高這個模型的精度,我們還用了幾百萬張相片的數據量去訓練了另一個模型。最后,我們還嘗試過一個名叫GoogLeNet的模型,這是Google的研究員在2014年開發的,藝術水平非常高,比之前較好的模型的層次還明顯深。
同時Yelp的工程師們也手工評判了幾千張相片,里面的相片都是我們可以非常自信地說非常好或者非常差的。在上面的每個測試中,我們還會把每個模型的訓練成果,用于評判這幾千張相片,來進一步看看效果。我們發現每經過一次迭代,我們正確判斷好圖或者差圖的能力都得到了提高。
最后,為了把我們模型的判斷結果轉化為質量評分,我們在模型的最后一層使用了可能性輸出的方法,為每一張輸入的相片都生成一個確定的標簽。換句話說,如果我們的模型認為有80%的機會標簽應該是“高質量”,那我們就給那張相片打分0.8。這種方法可以很直觀地把一個二元分類器的輸出結果轉化成了很容易打分的結果。
更進一步
我們的初步分析表明,我們的算法推薦的圖片都是那些焦點更突出、更明亮和在審美上使人更愉悅的。可是有些時候也不是讓我們非常滿意,這就促使我們去找到辦法對某些相片進行重新評估和排序。最終,我們為大家提供的系統可以把多種不同的信息整合起來,為商戶提供較好的相片,展示給用戶。
相片評分算法
商戶相片評級流水線
在我們現在的流水線中,我們先用上面描述的模型為一家商戶生成所有的品質評分。然后再根據下面的特征對這些得分進行調整:
標志過濾:我們發現商戶標志的相片通常被我們的模型打出很高的分,即使用戶壓根對它們不感興趣,不會看也不會點擊它們。比如說,其中可能會包含一張海報,里面只有飯店的名字。于是,我們就基于相片的亮度直方圖的熵訓練了一個多帶帶的分類模型,用它來降低這類相片的分值。
分辨率:為了對我們的神經網絡的輸入進行標準化,也為了加快計算速度,我們在把每張相片輸入系統之前都進行了轉換,縮小成了227*227像素的大小。可是這意味著模型無法判斷這樣的相片會不會太小,因而無法為用戶提供關于商戶的足夠好的內容。為了處理這樣的情況,我們對達不到某個標準的圖片降低評分。
最后,我們用上了分類算法算出來的標簽,用它們來保證不同種類的相片都可以顯示在一家商戶的相片列表的前面。
應用:封面相片排序
在Yelp上,每家商戶的頁面都會展示一些最漂亮的相片,我們叫做封面相片。在之前的許多年,我們都是根據喜歡、投票、上傳日期和相片標題等來計算、挑選這些相片。可是,這樣的方法有許多弊端。
首先,這樣的系統非常容易產生選擇性偏見。封面相面比別的相片有更多的機會被查看和點擊。結果,一旦某張相片出現在了商戶的封面上,它就有極大的可能性一直留在那里,即使更有吸引力更有用的相片在之后被上傳上來,這一點也很難改變。另外,只是根據喜歡來選定的相片最終有可能會推薦一些“點擊誘餌”,比如某些質量很差、也不怎么相關、但卻由于包含了某些有引誘性的內容而受到了很多支持的相片。
現在有了排名算法,我們相信出現在飯店首頁的封面相片的質量一定會大大提高。大家自己去看看吧!
弗里蒙特,Country Way
舊版本
高質量版本
舊金山,Octavia
舊版本
高質量版本
圣克拉拉,Kunjip
舊版本
高質量版本
舊金山,Gary Danko
舊版本
高質量版本
下一步的計劃
我們收到的關于這個變化的反響非常好,我們也還有許多可以做的工作,來進一步提供相片的可用性和相關性。相片理解團隊正在開發一套更全面的系統,也會把商戶的類型和攝影師的身份、以及上文中討論的用戶反饋和品質因素等考慮進來,進一步為Yelp的用戶提供更好的體驗。請期待我們接下來的更新吧!
鳴謝:相片排名系統由Wei-Hong C.、Alex M.、Colin P.、Prasanna S.、Joel O.和Frances H.設計并實現。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4448.html
摘要:構建一個照片分類器對于理解照片中的模棱兩可的目標,其實有許多不同的方式。如果決定進一步集成依賴于其它信號的新的分類器,這將讓問題變得更加簡單。該架構如下圖所示對于每一個新的分類器,掃描所有的照片,并且將分類結果存儲在一個數據庫中。 Yelp是美國較大點評網站,擁有世界各地的Yelper上傳的成千上萬的照片。各種各樣的照片給進入當地的商業提供了一個豐富的窗口。通過開發一個照片理解系統使Yelp...
摘要:不同平臺的不同表情和雅虎視覺與機器學習團隊測試了三種不同的方法算法,一種快速線性分類器算法,一種循環神經網絡架構算法,一種平衡性能與復雜性的卷積網絡。雅虎不是將機器學習應用于的公司。 周末想在Netflix看場電影?可能,你選擇觀看的電影正受到來自Netflix復雜的AI算法的影響。同理,由深度學習驅動的預測技術,將越來越便捷地決定你喜歡吃什么、穿什么。而作為消費型科技公司,Netflix、...
閱讀 3858·2023-04-26 00:36
閱讀 2667·2021-11-16 11:44
閱讀 1082·2021-11-15 17:58
閱讀 1665·2021-09-30 09:47
閱讀 1208·2019-08-30 13:05
閱讀 1539·2019-08-30 12:55
閱讀 2409·2019-08-30 11:02
閱讀 2718·2019-08-29 17:01