基于深度學習的商品檢索技術

Half 發布于2019-04-25 18:06 / 1322人閱讀

摘要：當前，很多學者和研究機構都嘗試基于深度學習進行服裝檢索技術的探究與創新。下文將回顧三篇基于深度學習來解決跨域服裝檢索問題的文章。總的來說，以上深度學習方法的探索與創新都將為商品檢索技術趨

摘要

商品檢索是一門綜合了物體檢測、圖像分類以及特征學習的技術。近期，很多研究者成功地將深度學習方法應用到這個領域。本文對這些方法進行了總結，然后概括地提出了商品特征學習框架以及垂類數據挖掘方式，最后介紹了商品檢索技術在服裝搭配中的應用。

前言

幾年前，當人們還在感嘆于網頁購物的快速便捷時，各大電商巨頭就“悄悄地”將它們的購物應用推廣到了用戶的手機里。從那一刻起，用戶購買的習慣也在悄悄地發生著改變：人們不再局限于時間與地點，只要擁有一部聯網的手機，就能輕松獲取想要的商品。發展至今，移動設備的安全、高速等特點越來越獲得人們的認可，也使得移動購物行為變得更加普遍。然而目前PC和Mobile終端中，用戶基本都是通過文本關鍵詞獲取目標商品，這種單一的關鍵詞描述有時很難獲取用戶的真實需求。為此，電商們也進行了很多改進。其中最有效的一些做法是構建高度結構化的后臺商品數據庫。其目的是能夠通過分析用戶的查詢來推薦一些更加精細粒度、時效性好、熱度高的商品品類；并提供給用戶一個限定了價格、品牌、風格等等的商品候選集合。這種基于文本的由粗到精的推薦方式，能夠很好的幫助用戶定位到具有精細且具體標簽的商品。然而，當用戶需求的商品的周邊信息不明確時，很難通過抽象出有限的關鍵詞來進行檢索。這類商品包括：未知品牌的化妝品，樣式新穎的家具或者時尚流行的服裝等（如圖1）。

所見即所得

對于上述的問題，可以用一句話歸結為：當需求物品難以用文本量化描述時，給定它的一張圖像，是否有可能推薦給用戶相關的商品？可以想象這樣的場景：當你看到一件喜歡的物品，只通過手機拍照將其圖像上傳購物網站，就能獲取實物購買信息。如果商品檢索能做到這樣的“所見即所得”，必將會給有購物需求的用戶帶來很大的便捷。

“所見”如何才能變成“所得”呢？在回答這個問題之前，首先需要了解商品檢索中的難點問題：

商品細品類繁多

小到柴米油鹽，大到家具電器，都可以稱為商品。而且很多商品都包括多級且細致的分類。例如，家具可分為臥室家具、客廳家具、餐廳家具、書房家具等；服裝的一級品類包括女裝、男裝、內衣、配飾與童裝童鞋等，女裝又可分為連衣裙、T恤、雪紡衫等；母嬰中的童車童床類別可分為安全座椅、嬰兒推車、嬰兒床、嬰兒床、墊餐、椅學步車等。由此可見，好的檢索技術不僅要識別這么多的商品類別，并且需要區分每個類別下的不同商品實例；同時后臺商品數據庫應該具有很高的覆蓋面。圖2給出了一個電商網站對商品品類的劃分。

同款與相似款的混淆

根據多級類目或屬性進行商品劃分的方式，盡管區分了大多數具有精細語義的商品，但在區分同款與相似款上的作用仍然是有限的，即無法確認兩件分為一個類別的商品是相同款。舉例來說，已知兩個人都穿著白色短袖圓領T恤，因為姿態、角度、光照等影響，有可能會使得相似款更像同款，或者同款被誤識別為相似款。這就是計算機視覺中經常碰到的類內差異性與類間相似性問題。圖3的例子可以說明這兩個問題。左側(a)中的上衣是同一款衣服，但由于人體姿態、懸掛方式、手臂遮擋、光線等問題的存在，使得它的顏色以及長度等表觀屬性具有很大的差異性; 三款相似的黑色印花連衣裙如(b)所示，它們擁有相似的不規則的印花圖案，以及黑色的底色和A字裙擺；這些特點都讓他們很相似，但從袖型可看出它們非同款。

其實，計算機視覺的各個領域都在解決這樣的“所見即所得”難題，即如何讓機器能夠自動準確的理解圖像內容。隨著深度學習的興起，包括人臉識別、圖像分類與物體檢測在內的方向都取得了很多重要的進展，也為深度學習在商品檢索中的應用奠定了堅實的基礎。

概括的講，為達到“所見即所得”的目標，商品檢索技術的框架中需要包含以下三個部分：

(1) ?商品主體檢測：用于自動定位用戶感興趣的商品，去除背景、多主體等因素的影響，也有利于抽取的語義特征的對齊。

(2) ?商品品類識別：通過識別商品的主體的品類，使得在檢索時可以在商品子數據子庫進行搜索，提升檢索的效果與效率。

(3) ?商品特征表示：通過學習獲得商品主體的判別性特征，使得同款商品距離更近且非同款商品相距更遠；對光照、姿態、遮擋等變化有一定的魯棒性。

服飾檢索技術回顧

基于拍照的商品檢索問題本質是一個跨域(cross-domain)圖像檢索問題: 需要根據用戶輸入的移動拍照圖像，從電商庫中獲取同款或是非常相似的商品圖片列表。這些特點決定了商品檢索是一項綜合性的圖像處理技術——它涉及圖像識別、檢測、特征學習等各方面的內容。

其中，服裝垂類檢索是商品檢索中一個重要的問題。因為服裝包含非常多的細品類，而且存在非常多的視覺變化，如光照、形變、視角、尺度、背景影響等等。解決服裝檢索的技術能夠很好的被推廣到其他垂類上。當前，很多學者和研究機構都嘗試基于深度學習進行服裝檢索技術的探究與創新。下文將回顧三篇基于深度學習來解決跨域服裝檢索問題的文章。

Where-to-Buy-It (WTBI)

這篇文章發表于ICCV2015，作者是來自北卡羅來納大學教堂山分校的M. Hadi Kiapour。作者把street-to-shop的服裝檢索場景，形式化為cross-domain的商品相似度學習問題，并設計了一種用于特定類別的相似度計算的網絡參數學習方式。整個學習流程如圖4所示。首先，利用裙子、外套、上衣、褲子、裙子等五個主要的商品類別的同款標注圖像，基于cross entropy loss訓練一個通用商品的同款判別模型；然后，對于特定細分類的商品檢索模型學習問題，采用其對應的同款訓練數據進行網絡參數微調，將通用同款模型遷移成特定類別的同款模型。在進行方法驗證時，文中還收集了40萬的電商數據，以及近4萬組的street-to-shop的同款商品數據。實驗表明，通過這種“由粗到細”方式學習到的相似度量網絡，比基于ImageNet訓練的深度特征有更好的檢索性能。但此文只基于離線CNN特征學習相似度，并沒有進行端到端的檢索模型的探索。

Dual Attribute-aware Ranking Network (DARN)

這篇文章發表于ICCV2015，作者是來自新加坡國立大學的 Junshi Huang。此文與WTBI方法相比的不同在于：在處理街拍場景(street scenario)與電商場景(shopping scenario)服裝圖像之間的檢索問題時，提出了一種端到端的雙路神經網絡模型（DARN）來學習深度特征，如圖5所示；其中一路網絡學習街拍場景下的服裝特征；另一路網絡學習電商場景下的服裝特征。為了提升圖像檢索特征的判別能力，作者還采用了多種標注數據來監督網絡的學習過程：多標簽的屬性標注與服裝同款ID標注。為此，在設計網絡損失時，同時采用了基于多標簽屬性數據的cross-entropy loss以及服裝同款ID數據的triplet loss。總的來看，網絡的輸出特征同時隱含了局部語義屬性的判別能力以及全局表觀的區分性，在檢索效果的提升上具有很好的互補性。

DeepFashion

這篇文章發表于CVPR2016，作者是來自香港中文大學的Ziwei Liu。為了使服飾識別相關的研究更加貼近實際應用場景，作者收集了一個規模更大且語義標注更全面的服裝數據集DeepFashion；它在圖像數目、類別與屬性數目、同款對、位置標定與數據開放等方面都占據優勢。其與WTBI和DARN中的數據庫對比如表格1所示。

此文還提出了一種FashionNet，融合了大類、屬性、服裝ID以及關鍵點四種監督信息來進行服裝特征學習。它的創新之處是，設計了分別對全局表觀以及局部部件進行特征學習的網絡；其中的局部網絡結構利用了服裝局部關鍵點對卷積特征響應圖進行對齊，避免了關鍵點所在部件的變化帶來的影響。整個網絡結構如圖6所示。

方法總結

復雜體系下的商品類別識別以及檢索問題的解決，不僅在于網絡結構的設計，而且需要多種類型的標注數據來約束整個網絡的訓練；這些數據包括商品位置、商品類別、商品屬性以及商品同款數據等；由此，檢索結果與查詢圖像才能具有全局表觀相似性與局部語義一致性。當然，對于如何結合這些監督數據進行學習仍有待進一步探索；是否端到端網絡的性能一定優于分段學習網絡也猶未可知。與傳統方法相比，此類深層神經網絡模型在進行商品檢索特征學習時并沒有脫離一般圖像檢索的特征學習框架：不僅需要在前端進行語義對齊，也需要在后端提升特征判別性。總的來說，以上深度學習方法的探索與創新, 都將為商品檢索技術趨于實用化打下扎實的基礎。

特征學習框架

盡管以上的論文主要在探究服裝類商品的檢索技術，但這些方法在其他的商品垂類上也是適用的。如圖7所示, 這些方法可概括成一套特征學習框架，。圖中三個部分的意義分別是：?

(1) ?商品圖像預處理。商品有剛體（如鞋子、箱包、化妝品等）與非剛體（如男裝、女裝、童裝等）之分，姿態、形變、尺寸等差異很大；因此，需要采用一定的語義對齊方式使得模型對這些變化魯棒，常見操作有商品檢測框對齊、旋轉對齊、局部關鍵點對齊等。

(2) ?全局表觀與局部語義特征融合。將一個商品圖像映射為一個特征的方法有很多；為了使得到的特征具有很好的判別性，多種語義監督信息被用于引導模型的學習。以服裝垂類為例，最終的特征不僅需要區分語義（如服裝的袖長、領型、扣型等），也需要能衡量表觀的相似性（如顏色、紋理等）。因此，這類監督數據的收集也是整個特征學習框架的重要組成。

(3) ?特征降維。特征的學習是一個精益求精的過程，維度低且判別性好的特征才能保證檢索的性能與效率。用于降維學習的數據一般是商品同款數據；常用的降維方式有線性判別分析（LDA）、圖像分類與度量學習等。

垂類數據挖掘

基于這套框架，特征學習就可以依靠大量的標注數據來完成。如何來獲取標注數據呢？簡單粗暴的全量數據標注會非常耗時耗力。這里針對同款數據與類別數據分別給出了數據挖掘的方法，如圖8所示。

（a）同款數據挖掘。基于已有的檢索特征模型以及大類屬性分類模型，可以將互聯網數據按照類別預測結果進行劃分，并根據子類進行多帶帶的聚類。對于每個cluster，根據一些準則（如特征數目、平均距離、距離方差等）來判定噪聲并進行篩選；最后通過人工標注的方式進一步切分每一個cluster來獲取同款的商品。

（b）類別數據挖掘。首先，通過爬蟲抓取以及人工構造的方式，可以獲得大量的關鍵詞集合；并將它們進行多詞組合的方式在圖像搜索引擎獲取top-K的檢索結果，放入類別圖像候選集合；之后，基于已有的大類屬性模型，對候選集進行提純，去除低質量以及語義錯誤的圖像。

技術應用

本節介紹一種新商品檢索技術應用方向：服裝搭配。服裝搭配是指根據用戶給定的一件衣服單品，推薦出能夠與之搭配的時尚款式。它的應用場景包括時尚資訊推薦、電商導購等。由于服飾品類繁多、穿著標準各異，如何定義并獲取時尚的款式以及給用戶個性化推薦搭配方案，都面臨很大的挑戰。下文將圍繞這兩個問題，介紹一種基于商品檢索技術的服飾搭配方法。

定義時尚款式

“工欲善其事必先利其器”。在服飾搭配過程中，構建時尚款式的數據庫是非常必要的。然而，時尚是一種比較感性的認識，且人們對于時尚的理解各不相同，“時尚款式”的定義是沒有一個統一的量化標準的。下圖給出了一些時尚圖像的例子，可以看出, 圖像中服裝的時尚取決于很多方面：服裝樣式、發型、鞋子、拍照場景、身材等等。

為了解決這個難題，數據來源選自多個較高級時尚網站。這些網站往往通過時尚達人編輯的方式來推薦出時尚圖片，確保了服裝的時尚性與新穎性；除此之后，從視覺上影響圖像時尚程度的因素還有很多，如背景灰暗、T臺秀、非全身圖、身材差、分辨率低等；基于這類數據訓練低質圖片過濾模型，就能獲取最終的高質時尚庫。

服裝搭配技術

簡單講，服飾搭配就是一種通過用戶上衣（下裝），推薦時尚下裝（上衣）的技術。這里根據優化目標的不同將現有方法分為兩大類：基于上下衣度量學習的方法以及基于相似服飾檢索的方法。前者的實現基于不同服裝部件的度量學習：適合搭配的上下裝距離應該盡量的近，而不適合搭配的則要盡量的遠。后者假定時尚庫的圖像擁有優質的搭配, 將用戶服裝單品輸入時尚服裝數據庫的檢索引擎，獲得語義與表觀相似的時尚推薦結果。目前，時尚搭配App—FOLLOW，采用的就是基于檢索技術的解決方案。圖10中個給出了FOLLOW搭配的效果, 歡迎掃碼試用。

總結與展望

本文回顧了基于深度學習的服裝檢索技術，并且基于這些方法，概括出一套通用的商品特征學習框架。針對不同種類商品圖像的采集，給出了基于圖像搜索引擎的數據挖掘方法。后續仍有待進一步探究的方向包括多品類商品檢索技術、基于大規模同款數據的特征學習以及全自動數據挖掘方法等。

作者簡介：

嚴燦祥, 碩士畢業于中科院計算所VIPL課題組；目前就職于百度深度學習研究院。主要從事商品檢索技術的研發。所在的識圖策略組包括商品搜索、相似搜索、相同搜索與圖像猜詞等方向。歡迎有實習意愿的同學投簡歷至： yancanxiang@baidu.com

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器基于深度學習的深度教學基于深度學習的語音增強基于深度學習的圖像識別基于深度學習的監督語音分離

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4418.html

首次曝光！在線視頻衣物精確檢索技術，開啟刷劇敗明星同款時代

摘要：整個系統采用了目前較先進的衣物檢測和跟蹤技術。然后對這些候選框進行跟蹤，得到明星同款在視頻中的的運動軌跡。《從視頻到電商：視頻衣物較精確檢索》圍繞視頻電商業務場景，提出了一個在線視頻衣物較精確檢索系統。該系統能夠滿足用戶在觀看影視劇時想要同時購買明星同款的需求。整個系統采用了目前較先進的衣物檢測和跟蹤技術。針對明星同款檢索中存在的多角度、多場景、遮擋等問題，提出可變化的深度樹形結構（Rec...

Chiclaim 2019-04-25 18:16 評論0 收藏0
1.2-知識圖譜有什么用？

摘要：知識圖譜經過幾年的發展已經得到廣泛的應用。例如，某地區某行業連續出現了多筆逾期貸款，通過對行業和客戶的知識圖譜進行分析，可以及時發現該地區相關行業存在潛在風險的客戶。知識圖譜經過幾年的發展已經得到廣泛的應用。當知識圖譜遇上人工智能，更加突顯出了它的優勢和價值。最先應用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面應用。谷歌是在2012年率先提出來知識圖...

bergwhite 2019-08-16 17:59 評論0 收藏0