1. 引言

10月11-17日,萬眾期待的國(guó)際計(jì)算機(jī)視覺大會(huì) ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全球計(jì)算機(jī)視覺領(lǐng)域研究者的廣泛關(guān)注。
今年阿里云多媒體 AI 團(tuán)隊(duì)(由阿里云視頻云和達(dá)摩院視覺團(tuán)隊(duì)組成)參加了 MFR 口罩人物身份鑒別全球挑戰(zhàn)賽,并在總共5個(gè)賽道中,一舉拿下1個(gè)冠軍、1個(gè)亞軍和2個(gè)季軍,展現(xiàn)了我們?cè)谌宋锷矸蓁b別領(lǐng)域深厚的技術(shù)積淀和業(yè)界領(lǐng)先的技術(shù)優(yōu)勢(shì)。

2. 競(jìng)賽介紹

MFR口罩人物身份鑒別全球挑戰(zhàn)賽是由帝國(guó)理工學(xué)院、清華大學(xué)和InsightFace.AI聯(lián)合舉辦的一次全球范圍內(nèi)的挑戰(zhàn)賽,主要為了解決新冠疫情期間佩戴口罩給人物身份鑒別算法帶來的挑戰(zhàn)。競(jìng)賽從6月1日開始至10月11日結(jié)束,歷時(shí)4個(gè)多月,共吸引了來自全球近400支隊(duì)伍參賽,是目前為止人物身份鑒別領(lǐng)域規(guī)模最大、參與人數(shù)最多的權(quán)威賽事。據(jù)官方統(tǒng)計(jì),此次競(jìng)賽收到的總提交次數(shù)超過10000次,各支隊(duì)伍競(jìng)爭(zhēng)異常激烈。

2.1 訓(xùn)練數(shù)據(jù)集

此次競(jìng)賽的訓(xùn)練數(shù)據(jù)集只能使用官方提供的3個(gè)數(shù)據(jù)集,不允許使用其它額外數(shù)據(jù)集以及預(yù)訓(xùn)練模型,以保證各算法對(duì)比的公平公正性。官方提供的3個(gè)數(shù)據(jù)集,分別是ms1m小規(guī)模數(shù)據(jù)集、glint360k中等規(guī)模數(shù)據(jù)集和webface260m大規(guī)模數(shù)據(jù)集,各數(shù)據(jù)集包含的人物ID數(shù)和圖片數(shù)如下表所示:

2.2 評(píng)測(cè)數(shù)據(jù)集

此次競(jìng)賽的評(píng)測(cè)數(shù)據(jù)集包含的正負(fù)樣本對(duì)規(guī)模在萬億量級(jí),是當(dāng)前業(yè)界規(guī)模最大、包含信息最全的權(quán)威評(píng)測(cè)數(shù)據(jù)集。值得注意的是所有評(píng)測(cè)數(shù)據(jù)集均不對(duì)外開放,只提供接口在后臺(tái)進(jìn)行自動(dòng)測(cè)評(píng),避免算法過擬合測(cè)試數(shù)據(jù)集。
InsightFace賽道評(píng)測(cè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息如下表所示:

WebFace260M賽道評(píng)測(cè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息如下表所示:

2.3 評(píng)測(cè)指標(biāo)

此次競(jìng)賽的評(píng)測(cè)指標(biāo)不僅有性能方面的指標(biāo),而且還包含特征維度和推理時(shí)間的限制,因此更加貼近真實(shí)業(yè)務(wù)場(chǎng)景。詳細(xì)的評(píng)測(cè)指標(biāo)如下表所示:

3. 解決方案

下面,我們將從數(shù)據(jù)、模型、損失函數(shù)等方面,對(duì)我們的解決方案進(jìn)行逐一解構(gòu)。

3.1 基于自學(xué)習(xí)的數(shù)據(jù)清洗

眾所周知,人物身份鑒別相關(guān)的訓(xùn)練數(shù)據(jù)集中廣泛存在著噪聲數(shù)據(jù),例如同一人物圖片分散到不同人物ID下、多個(gè)人物圖片混合在同一人物ID下,數(shù)據(jù)集中的噪聲會(huì)對(duì)識(shí)別模型的性能產(chǎn)生較大影響。針對(duì)上述問題,我們提出了基于自學(xué)習(xí)的數(shù)據(jù)清洗框架,如下圖所示:

首先,我們使用原始數(shù)據(jù)訓(xùn)練初始模型M0,然后使用該模型進(jìn)行特征提取、ID合并、類間清洗和類內(nèi)清洗等一系列操作。對(duì)于每個(gè)人物ID,我們使用DBSCAN聚類算法去計(jì)算中心特征,然后使用中心特征進(jìn)行相似度檢索,這一步使用的高維向量特征檢索引擎是達(dá)摩院自研的Proxima,它可以快速、精準(zhǔn)地召回Doc中與Query記錄相似度最高的topK個(gè)結(jié)果。緊接著,我們使用清洗完成的數(shù)據(jù)集,訓(xùn)練新的模型M1,然后重復(fù)數(shù)據(jù)清洗及新模型訓(xùn)練過程,通過不斷進(jìn)行迭代自學(xué)習(xí)方式,使得數(shù)據(jù)質(zhì)量越來越高,模型性能也隨之越來越強(qiáng)。具體來看,類間清洗和類內(nèi)清洗的示意圖如下圖所示:

值得注意的是,我們的清洗流程中先進(jìn)行類間清洗、再進(jìn)行類內(nèi)清洗,與CAST[1]數(shù)據(jù)清洗框架不同,這樣在完成類間清洗后可以更新新的ID中心特征,使得整個(gè)清洗過程更加完備,清洗效果也更好。為了驗(yàn)證數(shù)據(jù)清洗對(duì)最終性能的影響,我們?cè)趍s1m數(shù)據(jù)集上做了一系列對(duì)比實(shí)驗(yàn),結(jié)果如下表所示:

表中的閾值指的是類內(nèi)清洗的相似度閾值,可以看出當(dāng)閾值設(shè)置過低(如0.05)時(shí),噪聲沒有被清洗干凈,因此性能表現(xiàn)不是最佳;而當(dāng)閾值設(shè)置過高(如0.50)時(shí),噪聲被清洗的同時(shí)難樣本也被清洗了,導(dǎo)致模型泛化能力變?nèi)?,在評(píng)測(cè)數(shù)據(jù)集上性能反而下降。因此選擇一個(gè)中間閾值0.25,既清洗了大量噪聲,又保留了困難樣本,在各項(xiàng)評(píng)測(cè)指標(biāo)上均達(dá)到最佳性能。此外,我們還畫出了不同相似度閾值與剩余圖片數(shù)的關(guān)系,如下圖所示:

3.2 戴口罩?jǐn)?shù)據(jù)生成

為解決戴口罩?jǐn)?shù)據(jù)不足的問題,一種可行的方案是在已有的無口罩圖像上繪制口罩。然而,目前大部分的繪制方案屬于位置貼圖式,這種方案生成的戴口罩圖像不夠真實(shí)且缺乏靈活性。因此,我們借鑒PRNet[2,3]的思路,采用一種圖像融合方案[4]來獲取更符合真實(shí)情況的戴口罩圖像,如下圖所示,

該方案的原理是將口罩圖像和原圖像通過3D重建分別生成UV Texture Map,然后借助紋理空間合成戴口罩圖像。在數(shù)據(jù)生成過程中,我們使用了8種類型的口罩,意味著我們可在已有的數(shù)據(jù)集上對(duì)應(yīng)生成8種不同風(fēng)格的戴口罩圖像。基于UV映射的方案克服了傳統(tǒng)平面投影方式中原圖像和口罩圖像間的不理想銜接和變形等問題。此外,由于渲染過程的存在,戴口罩圖像可以獲得不同的渲染效果,比如調(diào)整口罩角度及光照效果等。生成的戴口罩圖像示例如下圖所示:

在生成戴口罩?jǐn)?shù)據(jù)訓(xùn)練模型的過程中,我們發(fā)現(xiàn)戴口罩?jǐn)?shù)據(jù)的比例對(duì)模型性能有不同程度的影響。因此,我們將戴口罩?jǐn)?shù)據(jù)占比分別設(shè)置為5%、10%、15%、20%和25%,實(shí)驗(yàn)結(jié)果如下表所示:

從上表中發(fā)現(xiàn),當(dāng)戴口罩?jǐn)?shù)據(jù)比例為5%時(shí),模型在MR-ALL評(píng)測(cè)集上的性能最高;當(dāng)戴口罩?jǐn)?shù)據(jù)比例調(diào)整至25%時(shí),對(duì)Mask戴口罩評(píng)測(cè)集的性能提升明顯,但在MR-ALL上的性能下降明顯。這說明當(dāng)混合戴口罩?jǐn)?shù)據(jù)和正常數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),其比例是影響模型性能的重要參數(shù)。最終,我們選擇戴口罩?jǐn)?shù)據(jù)比例為15%,在戴口罩和正常數(shù)據(jù)上的性能達(dá)到一個(gè)較好平衡。

3.3 基于NAS的骨干網(wǎng)絡(luò)

不同骨干網(wǎng)絡(luò)對(duì)特征提取的能力差異較大,在人物身份鑒別領(lǐng)域,業(yè)界常用的基線骨干網(wǎng)絡(luò)是在ArcFace[5]中提出的IR-100。在此次競(jìng)賽中,我們采用達(dá)摩院提出的Zero-shot NAS (Zen-NAS[6]) 范式,在模型空間搜索具有更強(qiáng)表征能力的骨干網(wǎng)絡(luò)。Zen-NAS區(qū)別于傳統(tǒng)NAS方法,它使用Zen-Score代替搜索模型的性能評(píng)測(cè)分?jǐn)?shù),值得注意的是Zen-Score與模型最終的性能指標(biāo)成正比關(guān)系,因此整個(gè)搜索過程非常高效。Zen-NAS的核心算法結(jié)構(gòu)如下圖所示:

我們基于IR-SE基線骨干網(wǎng)絡(luò),使用Zen-NAS搜索3個(gè)模型結(jié)構(gòu)相關(guān)的變量,分別是:Input層的通道數(shù)、Block層的通道數(shù)和不同Block層堆疊的次數(shù),限制條件是搜索出的骨干網(wǎng)絡(luò)滿足各賽道的推理時(shí)間約束。一個(gè)有趣的發(fā)現(xiàn)是:Zen-NAS搜索出的骨干網(wǎng)絡(luò),在ms1m小數(shù)據(jù)集賽道上的性能表現(xiàn)與IR-SE-100幾乎無差異,但在WebFace260M這樣的大數(shù)據(jù)集賽道,性能表現(xiàn)會(huì)明顯優(yōu)于基線。原因可能是搜索空間增大后,NAS可搜索的范圍隨之增大,搜索到更強(qiáng)大模型的概率也隨之增加。

3.4 損失函數(shù)

此次競(jìng)賽我們采用的基線損失函數(shù)為Curricular Loss[7],該損失函數(shù)在訓(xùn)練過程中模擬課程學(xué)習(xí)的思想,按照樣本從易到難的順序進(jìn)行訓(xùn)練。然而,由于訓(xùn)練數(shù)據(jù)集通常是極度不平衡的,熱門人物包含的圖片數(shù)多達(dá)數(shù)千張,而冷門人物包含的圖片數(shù)往往只有1張。為解決數(shù)據(jù)不均衡帶來的長(zhǎng)尾問題,我們將Balanced Softmax Loss[8]的思想引入Curricular Loss中,提出一個(gè)新的損失函數(shù):Balanced Curricular Loss,其表達(dá)式如下圖所示:

在ms1m賽道上,我們對(duì)比了Balanced Curricular Loss (BCL) 與原始Curricular Loss (CL) 的性能,結(jié)果如下表所示:

可以看出Balanced Curricular Loss相對(duì)于Curricular Loss,無論在Mask還是MR-ALL上的指標(biāo)均有較大幅度的提升,充分證明了其有效性。

3.5 知識(shí)蒸餾

由于此次比賽對(duì)模型的推理時(shí)間有約束,模型超時(shí)會(huì)被直接取消成績(jī)。因此,我們采用知識(shí)蒸餾的方式,將大模型強(qiáng)大的表征能力傳遞給小模型,然后使用小模型進(jìn)行推理,以滿足推理時(shí)間的要求。此次競(jìng)賽我們采用的知識(shí)蒸餾框架如下圖所示:

其中,蒸餾損失采用最簡(jiǎn)單的L2 Loss,用以傳遞教師模型的特征信息,同時(shí)學(xué)生模型使用Balanced Curricular Loss訓(xùn)練,最終的損失函數(shù)是蒸餾損失與訓(xùn)練損失的加權(quán)和。經(jīng)過知識(shí)蒸餾后,學(xué)生模型在評(píng)測(cè)數(shù)據(jù)集上的部分指標(biāo),甚至超過了教師模型,同時(shí)推理時(shí)間大大縮短,在ms1m小數(shù)據(jù)集賽道的性能有較大提升。

3.6 模型和數(shù)據(jù)同時(shí)并行

WebFace260M大數(shù)據(jù)集賽道的訓(xùn)練數(shù)據(jù)ID數(shù)量>200萬、總圖片數(shù)>4000萬,導(dǎo)致傳統(tǒng)的多機(jī)多卡數(shù)據(jù)并行訓(xùn)練方式已難以容納完整的模型。Partial FC[9]采用將FC層均勻分散到不同GPU上,每個(gè)GPU負(fù)責(zé)計(jì)算存儲(chǔ)在自己顯存單元的sub FC層結(jié)果,最終通過所有GPU間的同步通信操作,得到近似的full FC層結(jié)果。Partial FC的示意圖如下所示:

采用Partial FC,可同時(shí)使用模型并行與數(shù)據(jù)并行,使得之前無法訓(xùn)練的大模型可以正常訓(xùn)練,另外可采用負(fù)樣本采樣的方式,進(jìn)一步加大訓(xùn)練的batch size,縮短模型訓(xùn)練周期。

3.7 其它技巧

在整個(gè)競(jìng)賽過程中,我們先后嘗試了不同數(shù)據(jù)增強(qiáng)、標(biāo)簽重構(gòu)及學(xué)習(xí)率改變等策略,其中有效的策略如下圖所示:

4. 競(jìng)賽結(jié)果

此次競(jìng)賽我們mind_ft隊(duì)在InsightFace和WebFace260M共5個(gè)賽道中獲得1個(gè)冠軍(WebFace260M SFR)、1個(gè)亞軍(InsightFace unconstrained)和2個(gè)季軍(WebFace260M Main和InsightFace ms1m)。其中,WebFace260M賽道官方排行榜的最終結(jié)果截圖如下所示:

在競(jìng)賽結(jié)束之后的Workshop中,我們受邀在全球范圍內(nèi)分享此次競(jìng)賽的解決方案。此外,我們?cè)诖舜胃?jìng)賽中投稿的論文,也被同步收錄于ICCV 2021 Workshop[10]。最后,展示一下我們?cè)诖舜胃?jìng)賽中收獲的榮譽(yù)證書:

5. EssentialMC2介紹與開源

EssentialMC2,實(shí)體時(shí)空關(guān)系推理多媒體認(rèn)知計(jì)算,是達(dá)摩院MinD-數(shù)智媒體組對(duì)于視頻理解技術(shù)的一個(gè)長(zhǎng)期研究結(jié)果沉淀的核心算法架構(gòu)。核心內(nèi)容包括表征學(xué)習(xí)MHRL、關(guān)系推理MECR2和開集學(xué)習(xí)MOSL3三大基礎(chǔ)模塊,三者分別對(duì)應(yīng)從基礎(chǔ)表征、關(guān)系推理和學(xué)習(xí)方法三個(gè)方面對(duì)視頻理解算法框架進(jìn)行優(yōu)化?;谶@三大基礎(chǔ)模塊,我們總結(jié)了一套適合于大規(guī)模視頻理解算法研發(fā)訓(xùn)練的代碼框架,并進(jìn)行開源,開源工作中包含了組內(nèi)近期發(fā)表的優(yōu)秀論文和算法賽事結(jié)果。

essmc2是EssentialMC2配套的一整套適合大規(guī)模視頻理解算法研發(fā)訓(xùn)練的深度學(xué)習(xí)訓(xùn)練框架代碼包,開源的主要目標(biāo)是希望提供大量可驗(yàn)證的算法和預(yù)訓(xùn)練模型,支持使用者以較低成本快速試錯(cuò),同時(shí)希望在視頻理解領(lǐng)域內(nèi)建立一個(gè)有影響力的開源生態(tài),吸引更多貢獻(xiàn)者參與項(xiàng)目建設(shè)。essmc2的主要設(shè)計(jì)思路是“配置即對(duì)象”,通過簡(jiǎn)要明了的配置文件配合注冊(cè)器的設(shè)計(jì)模式(Registry),可以將眾多模型定義文件、優(yōu)化器、數(shù)據(jù)集、預(yù)處理pipeline等參數(shù)以配置文件的形式快速構(gòu)造出對(duì)象并使用,本質(zhì)上貼合深度學(xué)習(xí)的日常使用中不斷調(diào)參不斷實(shí)驗(yàn)的場(chǎng)景。同時(shí)通過一致性的視角實(shí)現(xiàn)單機(jī)和分布式的無縫切換,使用者僅需定義一次,便可在單機(jī)單卡、單機(jī)多卡、分布式環(huán)境下進(jìn)行切換,同時(shí)實(shí)現(xiàn)簡(jiǎn)單易用與高可移植性的特性。
目前essmc2的開源工作已經(jīng)發(fā)布了第一個(gè)可用版本,歡迎大家試用,后續(xù)我們會(huì)增加更多算法和預(yù)訓(xùn)練模型。鏈接地址:https://github.com/alibaba/EssentialMC2。

6. 產(chǎn)品落地

隨著互聯(lián)網(wǎng)內(nèi)容的視頻化以及VR、元宇宙等應(yīng)用的興起,非結(jié)構(gòu)化視頻內(nèi)容數(shù)量正在高速增長(zhǎng),如何對(duì)這些內(nèi)容進(jìn)行快速識(shí)別、準(zhǔn)確理解,成為內(nèi)容價(jià)值挖掘關(guān)鍵的一環(huán)。
人物是視頻中的重要內(nèi)容,高精度的視頻人物身份鑒別技術(shù),能夠快速提取視頻人物關(guān)鍵信息,實(shí)現(xiàn)人物片段剪輯、人物搜索等智能應(yīng)用。另外,對(duì)于視頻的視覺、語(yǔ)音、文字多維度內(nèi)容進(jìn)行分析理解,識(shí)別人、事、物、場(chǎng)、標(biāo)識(shí)等更豐富的視頻內(nèi)容實(shí)體標(biāo)簽,可形成視頻結(jié)構(gòu)化信息,幫助更全面地提取視頻關(guān)鍵信息。
更進(jìn)一步,結(jié)構(gòu)化的實(shí)體標(biāo)簽作為語(yǔ)義推理的基礎(chǔ),通過多模態(tài)信息融合,幫助理解視頻核心內(nèi)容,實(shí)現(xiàn)視頻內(nèi)容高層語(yǔ)義分析,進(jìn)而實(shí)現(xiàn)類目、主題理解。
阿里云多媒體 AI 團(tuán)隊(duì)的高準(zhǔn)確率人物身份鑒別及視頻分析技術(shù),已集成于EssentialMC2核心算法架構(gòu),并進(jìn)行產(chǎn)品化輸出,支持對(duì)視頻、圖像的多維度內(nèi)容進(jìn)行分析理解并輸出結(jié)構(gòu)化標(biāo)簽(點(diǎn)擊進(jìn)行體驗(yàn):Retina視頻云多媒體 AI 體驗(yàn)中心-智能標(biāo)簽產(chǎn)品 https://retina.aliyun.com/#/Label)。

多媒體AI產(chǎn)品

智能標(biāo)簽產(chǎn)品通過對(duì)視頻中視覺、文字、語(yǔ)音、行為等信息進(jìn)行綜合分析,結(jié)合多模態(tài)信息融合及對(duì)齊技術(shù),實(shí)現(xiàn)高準(zhǔn)確率內(nèi)容識(shí)別,綜合視頻類目分析結(jié)果,輸出貼合視頻內(nèi)容的多維度場(chǎng)景化標(biāo)簽。

類目標(biāo)簽:實(shí)現(xiàn)視頻內(nèi)容高層語(yǔ)義分析,進(jìn)而實(shí)現(xiàn)類目、主題的理解,視頻分類標(biāo)簽,分為一級(jí)、二級(jí)和三級(jí)類目,實(shí)現(xiàn)媒資管理及個(gè)性化推薦應(yīng)用。

實(shí)體標(biāo)簽:視頻內(nèi)容識(shí)別的實(shí)體標(biāo)簽,維度包括視頻類目主題、影視綜漫IP、人物、行為事件、物品、場(chǎng)景、標(biāo)識(shí)、畫面標(biāo)簽,同時(shí)支持人物、IP的知識(shí)圖譜信息。其中,影視綜漫的IP搜索基于視頻指紋技術(shù),將目標(biāo)視頻與庫(kù)內(nèi)的影視綜等資源進(jìn)行指紋比對(duì)檢索,支持6萬余部電影、電視劇、綜藝、動(dòng)漫、音樂的IP識(shí)別,可分析識(shí)別出目標(biāo)視頻內(nèi)容中包含哪一部電影、電視劇等IP內(nèi)容,幫助實(shí)現(xiàn)精準(zhǔn)的個(gè)性化推薦、版權(quán)檢索等應(yīng)用?;趦?yōu)酷、豆瓣、百科等各類型數(shù)據(jù),構(gòu)建了涵蓋影視綜、音樂、人物、地標(biāo)、物體的信息圖譜,對(duì)于視頻識(shí)別命中的實(shí)體標(biāo)簽,支持輸出知識(shí)圖譜信息,可用于媒資關(guān)聯(lián)及相關(guān)推薦等應(yīng)用。

關(guān)鍵詞標(biāo)簽:支持視頻語(yǔ)音識(shí)別及視頻OCR文字識(shí)別,結(jié)合NLP技術(shù)融合分析語(yǔ)音及文字的文本內(nèi)容,輸出與視頻主題內(nèi)容相關(guān)的關(guān)鍵詞標(biāo)簽,用于精細(xì)化內(nèi)容匹配推薦。
?

完善的標(biāo)簽體系、靈活的定制化能力

智能標(biāo)簽產(chǎn)品綜合優(yōu)酷、土豆、UC海外等平臺(tái)的PGC、UGC視頻內(nèi)容進(jìn)行學(xué)習(xí)、訓(xùn)練,提供最全面完善、高質(zhì)量的視頻標(biāo)簽體系。在提供通用的標(biāo)簽類目體系外,支持開放多層面定制化的能力,支持人臉自注冊(cè)、自定義實(shí)體標(biāo)簽等擴(kuò)展功能;面向客戶特定標(biāo)簽體系的業(yè)務(wù)場(chǎng)景,采用標(biāo)簽映射、定制化訓(xùn)練等方式,提供一對(duì)一的標(biāo)簽定制服務(wù),更有針對(duì)性地幫助客戶解決平臺(tái)的視頻處理效率問題。

高品質(zhì)人機(jī)協(xié)同服務(wù)

針對(duì)要求準(zhǔn)確的業(yè)務(wù)場(chǎng)景,智能標(biāo)簽產(chǎn)品支持引入人工交互判斷,形成高效、專業(yè)的人機(jī)協(xié)同平臺(tái)服務(wù),AI識(shí)別算法與人工相輔相成,提供面向個(gè)性化業(yè)務(wù)場(chǎng)景的精準(zhǔn)視頻標(biāo)簽。
人機(jī)協(xié)同體系具備先進(jìn)的人機(jī)協(xié)同平臺(tái)工具、專業(yè)的標(biāo)注團(tuán)隊(duì),通過人員培訓(xùn)、試運(yùn)行、質(zhì)檢、驗(yàn)收環(huán)節(jié)等標(biāo)準(zhǔn)化的交付管理流程,確保數(shù)據(jù)標(biāo)注質(zhì)量,幫助快速實(shí)現(xiàn)高品質(zhì)、低成本的標(biāo)注數(shù)據(jù)服務(wù)。通過AI算法+人工的人機(jī)協(xié)同方式,提供人工標(biāo)注服務(wù)作為AI算法的補(bǔ)充和修正,確保精準(zhǔn)、高質(zhì)量的服務(wù)輸出結(jié)果,實(shí)現(xiàn)業(yè)務(wù)效率和用戶體驗(yàn)的提升。

體育行業(yè)和影視行業(yè)的視頻標(biāo)簽識(shí)別

傳媒行業(yè)和電商行業(yè)的視頻標(biāo)簽識(shí)別

以上能力均已集成到阿里云視頻云智能標(biāo)簽產(chǎn)品,提供高品質(zhì)的視頻分析及人機(jī)協(xié)同服務(wù),歡迎大家了解及體驗(yàn)試用(智能標(biāo)簽產(chǎn)品 https://retina.aliyun.com/#/Label),搭建更高效、智能化的視頻業(yè)務(wù)應(yīng)用。

參考文獻(xiàn):
[1] Zheng Zhu, et al. Webface260m: A benchmark unveilingthe power of million-scale deep face recognition. CVPR 2021.
[2] Yao Feng, et al. Joint 3d face reconstruction and dense alignment with position map regression network. ECCV, 2018.
[3] Jun Wang et al. Facex-zoo: A pytorch toolbox for face recognition. arxiv, abs/2101.04407, 2021.
[4] Jiankang Deng et al. Masked Face Recognition Challenge: The InsightFace Track Report. arXiv, abs/2108.08191, 2021.
[5] Jiankang Deng, et al. Arcface: Additive angular margin loss for deep face recognition. CVPR 2019.
[6] Ming Lin, et al. Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition. ICCV 2021.
[7] Yuge Huang et al. Curricularface: Adaptive curriculum learning loss for deep face recognition. CVPR 2020.
[8] Jiawei Ren et al. Balanced meta-softmax for long-tailed visual recognition. NeurIPS, 2020.
[9] Xiang An, et al. Partial fc: Training 10 million identities on a single machine. ICCV 2021.
[10] Tao Feng, et al. Towards Mask-robust Face Recognition. ICCV 2021.

「視頻云技術(shù)」你最值得關(guān)注的音視頻技術(shù)公眾號(hào),每周推送來自阿里云一線的實(shí)踐技術(shù)文章,在這里與音視頻領(lǐng)域一流工程師交流切磋。公眾號(hào)后臺(tái)回復(fù)【技術(shù)】可加入阿里云視頻云產(chǎn)品技術(shù)交流群,和業(yè)內(nèi)大咖一起探討音視頻技術(shù),獲取更多行業(yè)最新信息。