国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

「不良視頻」如何消滅?她手把手教你走出第一步

Invoker / 1482人閱讀

摘要:嚴(yán)肅的開場白故事要從深度學(xué)習(xí)說起。本文從視頻分類的角度,對(duì)深度學(xué)習(xí)在該方向上的算法進(jìn)行總結(jié)。數(shù)據(jù)集熟悉深度學(xué)習(xí)的朋友們應(yīng)該清楚,深度學(xué)習(xí)是一門數(shù)據(jù)驅(qū)動(dòng)的技術(shù),因此數(shù)據(jù)集對(duì)于算法的研究起著非常重要的作用。是一個(gè)比較成功的傳統(tǒng)方法與深度學(xué)習(xí)算

不嚴(yán)肅的開場白

視頻社交已經(jīng)成為了時(shí)下最in的社交方式,相較于傳統(tǒng)的文字、語音聊天,使用親身錄制的短視頻、幽默搞笑的圖片、表情包與好友進(jìn)行交流,不僅更加風(fēng)趣且更具人情味。

而隨著視頻社交的流行,每天產(chǎn)生的視頻數(shù)據(jù)能夠達(dá)到數(shù)千萬小時(shí),這些數(shù)據(jù)的質(zhì)量參差不齊,其中有大量的不良視頻,如涉暴、涉黃、涉政等。在海量數(shù)據(jù)面前,完全依靠人工審核無法解決內(nèi)容審核的難題。因此也催生了智能內(nèi)容審核的誕生。智能內(nèi)容審核是指借助于人工智能技術(shù),對(duì)海量視頻進(jìn)行自動(dòng)分類,鑒別出其中涉及敏感內(nèi)容的視頻并予以禁播。

智能內(nèi)容審核的第一步,是進(jìn)行視頻分類。今天,我們要聊的就是視頻分類背后的算法。

嚴(yán)肅的開場白

故事要從深度學(xué)習(xí)說起。(因?yàn)閺纳疃葘W(xué)習(xí)說起,可以顯出本文是一篇有逼格的算法總結(jié)。)深度學(xué)習(xí)是一個(gè)近幾年來火遍各個(gè)領(lǐng)域的詞匯,在語音識(shí)別、圖像分類、視頻理解等領(lǐng)域,深度學(xué)習(xí)的相關(guān)算法在特定任務(wù)上已經(jīng)能夠達(dá)到甚至超過人類水平。本文從視頻分類的角度,對(duì)深度學(xué)習(xí)在該方向上的算法進(jìn)行總結(jié)。

視頻分類是指給定一個(gè)視頻片段,對(duì)其中包含的內(nèi)容進(jìn)行分類。類別通常是動(dòng)作(如做蛋糕),場景(如海灘),物體(如桌子)等。其中又以視頻動(dòng)作分類最為熱門,畢竟動(dòng)作本身就包含“動(dòng)”態(tài)的因素,不是“靜“態(tài)的圖像所能描述的,因此也是最體現(xiàn)視頻分類功底的。

數(shù)據(jù)集

熟悉深度學(xué)習(xí)的朋友們應(yīng)該清楚,深度學(xué)習(xí)是一門數(shù)據(jù)驅(qū)動(dòng)的技術(shù),因此數(shù)據(jù)集對(duì)于算法的研究起著非常重要的作用。網(wǎng)絡(luò)上雖然有大量用戶上傳的視頻數(shù)據(jù),但這些數(shù)據(jù)大多數(shù)缺少類目標(biāo)簽,直接用于算法的訓(xùn)練會(huì)導(dǎo)致效果欠佳。在學(xué)術(shù)界,通常有一些公開的、已經(jīng)經(jīng)過完整標(biāo)注的數(shù)據(jù)集,是算法訓(xùn)練的好幫手。具體到視頻分類領(lǐng)域,主要有兩種數(shù)據(jù)集,trimmed和untrimmed。Trimmed是指視頻經(jīng)過剪輯,使其只包含待識(shí)別類別的內(nèi)容;untrimmed是指視頻未經(jīng)過剪輯,包含了動(dòng)作/場景/物體之外的很多信息。Untrimmed通常在視頻分類的算法之外,還要加上動(dòng)作檢測算法。這不在今天的話題當(dāng)中,有空我們可以再聊聊這一塊的算法。

那么trimmed video的數(shù)據(jù)集比較常見的有UCF101,HMDB51,Kinetics,Moments in time。Untrimmed video的數(shù)據(jù)集比較常見的有ActivityNet,Charades,SLAC。部分?jǐn)?shù)據(jù)集的比較見下表:

? 視頻分類常用數(shù)據(jù)集

數(shù)據(jù)集名稱 數(shù)據(jù)集規(guī)模 類別概覽
HMDB51 51類動(dòng)作,6849段trimmed視頻 1. 常見的面部表情動(dòng)作:如微笑,咀嚼,說話等;2. 和物體交互有關(guān)的面部動(dòng)作:如吃東西,喝飲料,抽煙等;3. 常見的肢體動(dòng)作:如鼓掌,爬樓梯,跑步,潛水,坐下等;4. 和物體交互有關(guān)的肢體動(dòng)作:如洗頭,打高爾夫,騎自行車,射擊,打籃球等;5. 和人交互有關(guān)的肢體動(dòng)作:如擁抱,親吻,擊劍,拳擊等。
UCF101 101類動(dòng)作,13320段trimmed視頻 1. 人與物體交互相關(guān)的動(dòng)作:如畫眼線,呼啦圈,拖地,打字等;2. 肢體動(dòng)作:如打太極,引體向上,俯臥撐等;3. 人與人交互相關(guān)的動(dòng)作,如剪頭發(fā),閱兵, 薩爾薩舞等;4. 演奏樂器:如打鼓,彈吉他,演奏鋼琴等;5. 運(yùn)動(dòng):如潛水,跳高,舉重等。
Moments in Time 1000000段trimmed視頻,每個(gè)視頻長度相同(3s) 這個(gè)數(shù)據(jù)集比較有意思的是動(dòng)作主體不僅可以是人,還可以是動(dòng)物,物體乃至自然現(xiàn)象。想看小狗跳舞嗎?
ActivityNet 200類動(dòng)作,20000段untrimmed視頻 1. 和吃喝有關(guān)的動(dòng)作:如喝咖啡,制作三明治,洗碗等;2. 和運(yùn)動(dòng)有關(guān)的動(dòng)作:如打曲棍球,擲鐵餅等; 3.和社交/休閑/娛樂有關(guān)的動(dòng)作:如跳舞,演奏樂器,跳房子游戲等;4. 和個(gè)人護(hù)理有關(guān)的動(dòng)作:如化妝,刮胡子,紋身等;5. 和家庭日常活動(dòng)有關(guān)的動(dòng)作:如包裝禮物,和寵物玩耍,修剪草坪等。

需要指出的是,從上表中我們可以看出視頻分類的數(shù)據(jù)集實(shí)際上比圖像分類的數(shù)據(jù)集的規(guī)模小得多。這是因?yàn)樵谝曨l上進(jìn)行標(biāo)注遠(yuǎn)比對(duì)圖像進(jìn)行標(biāo)注要費(fèi)時(shí)費(fèi)力。trimmed視頻還好些,基本標(biāo)注時(shí)間等于視頻時(shí)長。如果是untrimmed視頻,需要在視頻中手工標(biāo)注動(dòng)作的起始和結(jié)束時(shí)間,根據(jù)測試,需要花費(fèi)視頻長度的 4 倍時(shí)間。

因此ladies and 鄉(xiāng)親們,這些數(shù)據(jù)集,且用且珍惜吧。

研究進(jìn)展

在視頻分類中,有兩種非常重要的特征:表觀特征(appearance)和時(shí)序特征(dynamics)。一個(gè)視頻分類系統(tǒng)的性能很大程度上取決于它是否提取并利用好了這兩種特征。但是提取這兩種特征并不那么容易,會(huì)遇到諸如形變/視角轉(zhuǎn)換/運(yùn)動(dòng)模糊等因素的影響。因此,設(shè)計(jì)對(duì)噪聲魯棒性強(qiáng)且能保留視頻類別信息的有效特征至關(guān)重要。

根據(jù)ConvNets(深度卷積神經(jīng)網(wǎng)絡(luò))在圖像分類上取得的成功,很自然地,我們會(huì)想到把ConvNets用到視頻分類中。但是,ConvNets本身是對(duì)二維圖像的表觀特征的建模,而對(duì)于視頻來說,除了表觀特征,時(shí)序特征也很重要。那么如果把時(shí)序特征用起來呢?通常有三種思路:LSTM,3D-ConvNet和Two-Stream。

1. LSTM系列

LRCNs[1]是LSTM和ConvNet結(jié)合進(jìn)行視頻分類的方法。這種結(jié)合很自然,已經(jīng)在圖像分類任務(wù)上訓(xùn)練好的ConvNet分類器,可以很好地提取視頻幀的表觀特征;而對(duì)于時(shí)序特征的提取,則可以通過直接增加LSTM層來實(shí)現(xiàn),因?yàn)長STM能夠?qū)⒍鄠€(gè)時(shí)刻的狀態(tài)作為當(dāng)前時(shí)刻的輸入,從而允許時(shí)間維度上的信息得以保留。

視頻分類任務(wù)是變長輸入定長輸出的。文章另外還介紹了LRCNs用于圖像描述(定長輸入變長輸出)和視頻描述(變長輸入變長輸出)的方案,感興趣的同學(xué)可以自行查看。

2. 3D-ConvNet及其衍生系列

C3D[2]是Facebook的一個(gè)工作,它主要是把2D Convolution擴(kuò)展到3D。其原理如下圖,我們知道2D的卷積操作是將卷積核在輸入圖像或特征圖(feature map)上進(jìn)行滑窗,得到下一層的特征圖。例如,圖(a)是在一個(gè)單通道的圖像上做卷積,圖(b)是在一個(gè)多通道的圖像上做卷積(這里的多通道圖像可以指同一張圖片的3個(gè)顏色通道,也指多張堆疊在一起的幀,即一小段視頻),最終的輸出都是一張二維的特征圖,也就是說,多通道的信息被完全壓縮了。而在3D卷積中,為了保留時(shí)序的信息,對(duì)卷積核進(jìn)行了調(diào)整,增加了一維時(shí)域深度。如圖(c)所示,3D卷積的輸出仍是一個(gè)三維的特征圖。因此通過3D卷積,C3D可以直接處理視頻,同時(shí)利用表觀特征和時(shí)序特征。

關(guān)于實(shí)驗(yàn)效果,C3D在UCF101上的精度為82.3%,并不高,其原因在于C3D的網(wǎng)絡(luò)結(jié)果是自己設(shè)計(jì)的簡單結(jié)構(gòu)(只有11層),而沒有借鑒或預(yù)訓(xùn)練于其他成熟的ConvNets結(jié)構(gòu)。

因此針對(duì)這一點(diǎn),有很多學(xué)者提出了改進(jìn)。

I3D[3] 是 DeepMind 基于 C3D 作出的改進(jìn),值得一提的是 I3D 這篇文章也是發(fā)布 Kinetics數(shù)據(jù)集的文章。其創(chuàng)新點(diǎn)在于模型的權(quán)重初始化,如何將預(yù)訓(xùn)練好的2D ConvNets的權(quán)重賦值給3D ConvNets。具體地,將一張圖像在時(shí)間維度上重復(fù)T次可以看作是一個(gè)(非常無聊的)T幀的視頻,那么為了使該視頻在3D結(jié)構(gòu)上的輸出和單幀圖像在2D結(jié)構(gòu)的輸出相等,可以使3D卷積的權(quán)重等于2D卷積的權(quán)重重復(fù)T次,再將權(quán)重縮小T倍以保證輸出一致。I3D在Kinetics數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練然后用于UCF101,其精度可達(dá)到98.0%。

P3D[4]是MSRA基于C3D作出的改進(jìn),基本結(jié)構(gòu)是把ResNet擴(kuò)展為“偽”3D卷積,“偽”3D卷積的意思是利用一個(gè)1*3*3的2D空間卷積和3*1*1的1D時(shí)域卷積來模擬常用的3*3*3的3D卷積,如下圖所示。P3D在參數(shù)數(shù)量、運(yùn)行速度等方面對(duì)C3D作出了優(yōu)化。

3. Two-Stream Network及其衍生系列

Two Stream[5]是VGG組的工作(不是UGG哦),其基本原理是訓(xùn)練兩個(gè)ConvNets,分別對(duì)視頻幀圖像(spatial)和密集光流(temporal)進(jìn)行建模,兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)是一樣的,都是2D ConvNets,見下圖。兩個(gè)stream的網(wǎng)絡(luò)分別對(duì)視頻的類別進(jìn)行判斷,得到class score,然后進(jìn)行分?jǐn)?shù)的融合,得到最終的分類結(jié)果。

可以看出Two-Stream和C3D是不同的思路,它所用的ConvNets都是2D ConvNets,對(duì)時(shí)序特征的建模體現(xiàn)在兩個(gè)分支網(wǎng)絡(luò)的其中一支上。Two-Stream的實(shí)驗(yàn)結(jié)果,在UCF101上達(dá)到88.0%的準(zhǔn)確率。

在spatial stream和temporal stream如何融合的問題上,有很多學(xué)者作出了改進(jìn)。

[6]在two stream network的基礎(chǔ)上,利用3D Conv和3D Pooling進(jìn)行spatial和temporal的融合,有點(diǎn)two stream + C3D的意思。另外,文章將兩個(gè)分支的網(wǎng)絡(luò)結(jié)構(gòu)都換成了VGG-16。在UCF101的精度為92.5%。

TSN[7]是CUHK的工作,對(duì)進(jìn)一步提高two stream network的性能進(jìn)行了詳盡的討論。two stream在這里被用在視頻片段(snippets)的分類上。關(guān)于two stream的輸入數(shù)據(jù)類型,除去原有的視頻幀圖像和密集光流這兩種輸入外,文章發(fā)現(xiàn)加入warped optical flow也能對(duì)性能有所提高。在分支網(wǎng)絡(luò)結(jié)構(gòu)上嘗試了GoogLeNet,VGG-16及BN-Inception三種網(wǎng)絡(luò)結(jié)構(gòu),其中BN-Inception的效果最好。在訓(xùn)練策略上采用了跨模態(tài)預(yù)訓(xùn)練,正則化,數(shù)據(jù)增強(qiáng)等方法。在UCF101上達(dá)到94.2%的精度。

4. 其他

除了以上兩種常見的思路以外,也有學(xué)者另辟蹊徑,嘗試與眾不同的方法。

TDD[8]是對(duì)傳統(tǒng)的iDT[9]算法的改進(jìn)(iDT算法是深度學(xué)習(xí)以前最好的行為識(shí)別算法),它將軌跡特征和two-stream network結(jié)合使用,以two-stream network作為特征提取器,同時(shí)利用軌跡對(duì)特征進(jìn)行選擇,獲得軌跡的深度卷積描述符,最后使用線性SVM進(jìn)行視頻分類。TDD是一個(gè)比較成功的傳統(tǒng)方法與深度學(xué)習(xí)算法相結(jié)合的例子,在UCF上達(dá)到90.3%的精度。

ActionVLAD[10]是一種特征融合的方式,它可以融合two stream的特征,C3D的特征以及其他網(wǎng)絡(luò)結(jié)構(gòu)的特征。其思想是對(duì)原有的特征計(jì)算殘差并聚類,對(duì)不同時(shí)刻的幀進(jìn)行融合,得到新的特征。ActionVLAD是對(duì)視頻空間維度和時(shí)間維度的特征融合,使得特征的表達(dá)更全面。

Non-local Network[11]是Facebook何愷明和RBG兩位大神近期的工作,非局部操作(non-local operations)為解決視頻處理中時(shí)空域的長距離依賴打開了新的方向。我們知道,卷積結(jié)構(gòu)只能捕捉數(shù)據(jù)的局部信息,它對(duì)于非局部特征的信息傳遞不夠靈活。Non-local Network則根據(jù)所有幀所有位置的信息對(duì)某個(gè)位置進(jìn)行調(diào)整。文章把這個(gè)block加在I3D上做了實(shí)驗(yàn),在Charades上精度提升2%。

?

總結(jié)

以上所有的視頻分類算法都是在近幾年提出的,可以看出這一領(lǐng)域的發(fā)展之快。從學(xué)術(shù)角度,視頻分類是開啟視頻理解這個(gè)領(lǐng)域的金鑰匙,對(duì)它的研究可以為相關(guān)領(lǐng)域的研究打下堅(jiān)實(shí)的基礎(chǔ),包括視頻動(dòng)作檢測,視頻結(jié)構(gòu)化分析等,都用到了視頻分類的技術(shù)。從我們實(shí)際生活的角度,視頻分類已經(jīng)在默默地做著很多事情,例如在文章一開始提到的智能內(nèi)容審核,再例如視頻檢索、視頻監(jiān)控、視頻廣告投放、自動(dòng)駕駛、體育賽事分析等。在不久的將來,相信視頻分類以及其他的AI算法將為我們帶來更多驚喜的變革。AI讓生活更美好。

牛人說

牛人說專欄致力于技術(shù)人思想的發(fā)現(xiàn),其中包括技術(shù)實(shí)踐、技術(shù)干貨、技術(shù)見解、成長心得,還有一切值得被發(fā)現(xiàn)的技術(shù)內(nèi)容。我們希望集合最優(yōu)秀的技術(shù)人,挖掘獨(dú)到、犀利、具有時(shí)代感的聲音。

參考文獻(xiàn)

[1] J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR, 2015.

[2] D. Tran, et al. Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV, 2015.

[3] J. Carreira, et al. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. CVPR, 2017.

[4] Z. Qiu, et al. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. ICCV, 2017.

[5] K. Simonyan, et al. Two-Stream Convolutional Networks for Action Recognition in Videos. NIPS, 2014.

[6] C. Feichtenhofer, et al. Convolutional Two-Stream Network Fusion for Video Action Recognition. CVPR, 2016.

[7] L. Wang, et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. ECCV, 2016.

[8] L. Wang, et al. Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors. CVPR, 2015.

[9] H. Wang, et al. Action Recognition with Improved Trajectories. ICCV, 2013.

[10] R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action classification. CVPR, 2017.

[11] X. Wang, et al. Non-local Neural Networks. arxiv 1711, 2017.

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/11058.html

相關(guān)文章

  • 人工智能革命:人類會(huì)永生還是滅亡(下)

    摘要:為什么未來可能是我們最糟糕的噩夢我想要了解人工智能的原因之一是壞機(jī)器人的主題總是讓我感到困惑。沒有那個(gè)人工智能系統(tǒng)會(huì)像電影描述的那樣變的邪惡。意識(shí)盒子他還觸及了另一個(gè)與人工智能意識(shí)相關(guān)的大話題。這并不是說人工智能不可能發(fā)生。 為什么未來可能是我們最糟糕的噩夢 我想要了解人工智能的原因之一是壞機(jī)器人的主題總是讓我感到困惑。關(guān)于邪惡機(jī)器人的所有電影看起來都是不切實(shí)際的,我無法真正理解人工智...

    Ethan815 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<