摘要:過審是指最終審核通過的高質量買家秀,加精是指商家認可的買家秀,普通則是上述兩種情況以外的其他買家秀。
阿里妹導讀:提起買家秀和賣家秀,相信大家腦中會立刻浮現出諸多畫面。同一件衣服在不同人、光線、角度下,會呈現完全不同的狀態。運營小二需從大量的買家秀中挑選出高質量的圖片。如果單純靠人工來完成,工作量過于巨大。下面,我們看看如何使用算法,從海量圖片里找出高質量內容。
說到淘寶優質買家秀內容挖掘,必須從買家秀和賣家秀說起。我們總是能在賣家秀和買家秀中找到強烈反差,比如這樣:
這樣:
又或者這樣:
買家秀和賣家秀對比這么一言難盡,那還怎么讓運營小二們愉快地玩耍?出于運營社區的需要,運營的小二們得從當前的買家秀中抽取出一批高質量的內容,作為社區的啟動數據。
找到高質量的買家秀有那么難嗎?就是這么難!這不,運營的小二們碰到了以下幾個問題:
買家秀質量良莠不齊
淘寶海量的買家秀無疑都很難入得了運營小二們的法眼,以業務維度進行篩選的買家秀,審核通過率普遍不足三成。這意味著,在海量的買家秀中,能被運營小二們看對眼的,無疑是鳳毛麟角。
審核標準嚴苛
咨詢了運營小二,他們要求圖片視頻必須要美觀,有調性,背景不凌亂,不得擋臉,光線充足,構圖和諧,不得帶有明顯的廣告意圖,以及等等等等……
這么多要求,難怪挑不著!
審核工作量巨大
由于運營小二們審核的買家秀中優質買家秀很少,不得不將大量的時間和精力花費在了審核低質量買家秀上。
有鑒于此,用機器幫助挖掘優質內容刻不容緩。
優質內容挖掘方案
優質內容挖掘的整體方案如下:
全量UGC(User Generated Content)是指所有含圖或含視頻的買家秀。過審UGC是指最終審核通過的高質量買家秀,加精UGC是指商家認可的買家秀,普通UGC則是上述兩種情況以外的其他買家秀。
我們的核心目標就是要挖掘出豐富而多樣的優質UGC。
UGC質量評估模型
運營人員在審核買家秀時,通過綜合判斷買家秀的圖片質量和文本內容等方面的因素,來決定是否審核通過。這促使我們直觀地將將問題轉化為一個分類問題。
1、特征的選擇
我們首先采用了UGC的用戶特征、商品特征和反饋特征等統計特征(詳見下表),通過GBDT模型來預估UGC的內容質量,并初步驗證了將UGC質量評估任務轉化為分類問題是可行的。
2、分類問題的轉化
一個非常直觀地感受是,將審核通過的數據標記為1,審核未通過的數據標記為0,將問題轉化為二分類問題。但在實際訓練中,我們發現,將審核通過的數據標記為2,將運營審核未通過(商家已加精)的數據標記為1,將商家未加精的數據標記為0,把問題轉為三分類問題比把問題轉化為二分類問題得到了更好的效果。原因在于,審核人員在原來的鏈路中只審核了商家加精的數據,在此基礎上審核通過與否;而為數眾多的商家未加精的數據沒有審核到,因此三分類更貼近于真實場景,因此表現更佳。
通過GBDT模型的訓練,在全量UGC數據中進行預測,挖掘出了約400萬優質UGC。自查后發現,這一批數據能挖掘出部分優質UGC,準確率在50%左右,缺點在于圖片質量往往不夠美觀(即使較為貼近用戶的生活場景)。
3、圖片語義特征的引入
在與業務同學的交流過程中,我們發現,業務同學需要極高質量的UGC內容,以便營造出良好的社區氛圍,讓用戶在洋蔥圈中找到對于美好生活的向往,其核心標準就是寧缺毋濫。在充分理解了業務同學的要求,拿到圖片數據后,對于圖片質量的評估勢在必行。
一個較為直觀的方案就是,通過CNN模型訓練,進行圖片質量的評估。
增加圖像特征后,通過對ImageNet預訓練的ResNet50進行fine-tuning,模型表現有了極大提升,與原有鏈路相比,審核通過率提升了100%以上。
其中含小姐姐的UGC業務同學的認可程度較高(小姐姐們更樂意曬單,更樂意發買家秀,質量也更高),而針對不含小姐姐的長尾類目,業務同學認為主要存在圖片無美感和圖片不相關兩類問題。
圖片無美感的問題主要是由于,CNN更擅長捕捉圖片的語義信息,而對于美學信息不敏感。
4、美學特征的引入
在圖片美感方面,目前有一份較為優秀的數據集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 參見 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。
AVA Database是一個美學相關的數據庫,包含25萬余張圖片,每張圖片包含語義標注(如自然風光、天空等)、圖片風格標注(如互補色、雙色調等)和圖片美感評分(由數十到數百人評出1-10分)。
在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其網絡結構如下:
其核心思想是,通過AVA數據集提供的圖片風格標簽,學習圖片風格的隱藏層特征,將圖片風格的隱藏層特征和圖片經過HSV變換后的特征結合起來,以AVA數據集提供的圖片美感分為監督,學習圖片的美感特征。
在此基礎上,最終在UGC質量審核模型中采用下述結構評判UGC的質量:
以AVA數據集提供的圖片風格標簽和美感評分進行預訓練,通過Brain-inspiredDeep Network提取圖片的美感特征;通過ResNet提取圖片的語義特征;通過深度模型刻畫統計特征;最后將三種特征拼接起來綜合預測UGC的質量。
引入美學特征后,驗證集上模型的準確率、召回率和F1值均得到了提升,ABTest顯示,與原有模型相比,審核通過率提升6%以上。
臟數據處理
除了業務同學提出的問題,在自查過程中,發現目前挖掘出來的UGC內容中仍有以下臟數據:
1、評論傾向判定
針對差評UGC,利用現有的組件進行情感分析,發現并不能很好地挖掘出差評評論,容易誤傷?;诖?,取過審UGC的評論和UGC中的差評進行訓練,在驗證集上F1值高于0.9,但由于實際預測的數據不同(忽視了中評等),導致容易誤判(如將商品名稱等判斷為差評)。在此基礎上取過審UGC的評論、UGC好評、中評、差評分為四檔進行訓練,在驗證集上F1值稍低,但由于訓練數據更貼近于真實場景,在實際預測中效果更好;目前基本解決了差評UGC的問題,實際自查過程中,沒有再看見差評UGC。
在實際的模型選擇上,Attn-BiLSTM(帶attention的雙向LSTM)效果好于TextCNN(F1score約相差3%),分析原因在于:TextCNN的優勢主要在于捕捉局部特征,而很多文本雖然含有吐槽性段落(如批評物流慢等),但整體仍然是對賣家商品的肯定。
2、N-Gram過濾
針對套路評價UGC,通過全局比較UGC的文本內容,將被多名用戶重復使用的模板UGC過濾掉。
針對重復評價UGC,通過判斷UGC文本內容中重復的2-gram、3-gram、4-gram,結合文本長度和文本信息熵進行過濾。
3、OCR及圖像Hash過濾
針對牛皮蘚圖片,一部分采用了OCR識別和牛皮蘚識別進行過濾。
針對盜圖、網圖UGC,將圖片表示為哈希值,通過全局判斷哈希值在不同買家、不同賣家間的重復次數,進行過濾。在過濾此項的過程中,我們也發現,買家秀中盜圖、網絡圖的現象較為普遍,很多肉眼看似原創的內容也涉及盜圖和網圖;此項過濾掉了大多數的UGC。
無關圖識別
解決了上述問題后,仍然較為顯著的問題是無關圖的問題。
無關圖的出現原因較為復雜,表現類型也非常多樣;既有上述提到的盜圖和網絡圖,也有用戶隨手拍的風景圖,還包括動漫截圖等各式各樣和商品無關的圖片。
一方面,無關圖以盜圖、表情包、網絡圖等為主,通過哈希值過濾,能夠過濾掉一批無關圖;另一方面,即使過濾以后,預估仍然存在10%-15%左右的無關圖。這部分無關圖的解決較為復雜。
目前所采用的方案是,將盜圖、表情包、網絡圖等重復圖片作為負樣本,將過審UGC圖片作為正樣本,通過ResNet提取圖片特征,將類目通過embedding作為類目特征,將用戶行為(發表重復圖的數量和比例)作為用戶特征,判斷該UGC的圖片是否是無關圖。
就這樣,大家終于又能愉快地欣賞美美的買家秀了~~
劃重點
在此分享一些心得體會,希望能對大家有幫助:
數據強于特征,特征強于模型;貼近真實場景的數據對提升任務表現貢獻巨大;
如果確實缺乏數據,不妨嘗試快速標注數千條數據,可能取得超出預期的效果;
對ImageNet等數據集預訓練的模型進行fine-tuning可以在小數據集往往能取得更好的問題;
通過圖像翻轉、旋轉、隨機裁剪等方法進行數據增強,可以提升模型泛化能力。
閱讀原文
本文來自云棲社區合作伙伴“?阿里技術”,如需轉載請聯系原作者。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19950.html
摘要:為啥你天天刷抖音一點都不煩,因為你覺得視頻好看你有興趣啊。比如我們說你玩是不是要開始搭建一個自己的網站,是不是可以自己寫一個小的腳本來自動發消息給你的女朋友等等,通過這樣的小例子來慢慢的培養自己的學習的興趣。學習,切勿貪快貪多。 大家好,我是菜鳥哥! 周末啦,跟大家聊一下我們粉絲團的情況...
摘要:好快好便宜,在月日舉辦的英偉達技術大會上,英偉達創始人黃仁勛,用中文一個勁重復夸贊搭載了的百度云。目前,百度云已深入鋼鐵安防金融媒體等領域,助力百度在國民經濟三大產業大行業推進落地應用。 好快、好便宜,在11月21日舉辦的英偉達GPU技術大會(GTC China 2018)上,英偉達創始人黃仁勛,用中文一個勁重復夸贊搭載了T4 GPU的百度云。showImg(https://segme...
摘要:月日,阿里巴巴集團宣布全資收購中國大陸唯一的自主嵌入式公司中天微系統有限公司,月日,在云棲大會南京峰會上阿里云就自信的展示了自主研發的核心技術。大會上,阿里云副總裁李津就表示中國只有兩種云,一種是拿來主義的云,一種是自主可控的飛天云。中興制裁事件后,國產芯片就成為最近高熱詞匯,半導體行業也取代共享經濟,成為今年民間投資的風口。4月20日,阿里巴巴集團宣布全資收購中國大陸唯一的自主嵌入式CPU...
OpenAI昨日發布了全新的小型AI模型GPT-4o mini,這一模型在性能和成本效益方面都取得了重大突破,Sam Altman驚呼:通往智能的成本,已變得如此低廉。性能與成本的完美平衡GPT-4o mini在性能上顯著超越了其前身GPT-3.5 Turbo,同時將成本降低了60%以上。每百萬個輸入token的價格僅為15美分,輸出token為60美分。對比Claude 3和Gemini 成本明...
閱讀 1456·2021-09-02 13:57
閱讀 1869·2019-08-30 15:55
閱讀 2406·2019-08-30 15:54
閱讀 2240·2019-08-30 15:44
閱讀 2732·2019-08-30 13:18
閱讀 479·2019-08-30 13:02
閱讀 625·2019-08-29 18:46
閱讀 1664·2019-08-29 11:25