摘要:深度學(xué)習(xí)使一系列計(jì)算機(jī)視覺任務(wù)的性能得到提升。最近的研究表明,在使用合成數(shù)據(jù)訓(xùn)練以及對(duì)真實(shí)數(shù)據(jù)進(jìn)行測(cè)試方面已經(jīng)取得了成功。圖在我們的研究中所使用的圖像形成和處理流程圖。軟件和數(shù)據(jù)集將在完成盲審后公布。
長期以來,深度學(xué)習(xí)使一系列計(jì)算機(jī)視覺任務(wù)的性能得到提升,而在本文中,密西根大學(xué)安娜堡分校(University of Michigan, Ann Arbor)的科學(xué)家們提出利用圖像生成過程進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)相機(jī)效果進(jìn)行建模以提升在真實(shí)數(shù)據(jù)和合成數(shù)據(jù)上進(jìn)行的深度視覺任務(wù)的性能表現(xiàn),接下來,本文將介紹輻射是如何轉(zhuǎn)換為8位像素值從而助力基于物理的數(shù)據(jù)增強(qiáng)的。
最近,我們的研究主要集中于生成合成圖像和增強(qiáng)真實(shí)圖像,以增加用于學(xué)習(xí)城市場(chǎng)景中視覺任務(wù)的訓(xùn)練數(shù)據(jù)的大小和可變性。這包括增加遮擋的發(fā)生或改變環(huán)境和天氣的影響。然而,幾乎沒有人能夠解決傳感器領(lǐng)域中的變分建模問題。不幸的是,對(duì)于在人工注釋的數(shù)據(jù)集上進(jìn)行訓(xùn)練的視覺任務(wù)而言,改變傳感器效應(yīng)會(huì)降低其性能和結(jié)果的泛化能力。本文提出了一種高效、自動(dòng)化的基于物理的增強(qiáng)管道,以改變真實(shí)的和合成圖像上的傳感器的效應(yīng)——特別是色差、模糊、曝光、噪音和偏色等。具體來說,本文闡述了,使用所提出的管道增加訓(xùn)練數(shù)據(jù)集,能夠提高在各種基準(zhǔn)工具數(shù)據(jù)集上目標(biāo)檢測(cè)的魯棒性和可泛化性。
?
深度學(xué)習(xí)使一系列計(jì)算機(jī)視覺任務(wù)的性能得到提升。隨著一些基準(zhǔn)數(shù)據(jù)集為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)提供數(shù)以百萬的手工標(biāo)記圖像,增加所標(biāo)記的訓(xùn)練數(shù)據(jù)集的大小和變化為這些性能的提升帶了很多貢獻(xiàn)。理想情況下,我們可以編譯一個(gè)大型的代表所有領(lǐng)域的綜合訓(xùn)練集,并被標(biāo)記以用于所有的視覺任務(wù)。不幸的是,收集和標(biāo)記大量的訓(xùn)練數(shù)據(jù)是非常昂貴和耗時(shí)的。此外,我們不可能收集到一個(gè)捕獲了現(xiàn)實(shí)世界中所存在的所有變化的單一真實(shí)數(shù)據(jù)集。
圖1:在KITTI上對(duì)基線未增強(qiáng)數(shù)據(jù)(左)和我們提出的方法(右)進(jìn)行目標(biāo)檢測(cè)的樣本示例。藍(lán)色方框表示正確的檢測(cè)結(jié)果,紅色方框表示基線法遺漏的、但通過我們所提出的基于傳感器的圖像增強(qiáng)方法能夠檢測(cè)到的結(jié)果。
最近的研究表明,在使用合成數(shù)據(jù)訓(xùn)練DNN以及對(duì)真實(shí)數(shù)據(jù)進(jìn)行測(cè)試方面已經(jīng)取得了成功。渲染引擎可以用來生成大量的合成數(shù)據(jù),而這些數(shù)據(jù)看起來非常逼真。像素級(jí)標(biāo)簽可以自動(dòng)生成,大大降低了為不同任務(wù)創(chuàng)建基本事實(shí)標(biāo)簽所需的成本和工作量。增強(qiáng)真實(shí)數(shù)據(jù)是增加數(shù)據(jù)集大小的另一種方式,無需額外的手工標(biāo)簽。合成渲染和增強(qiáng)管道都尋求在一個(gè)圖像集中提高場(chǎng)景特征的可變性。特別是,最近的研究著重點(diǎn)在于建模環(huán)境的影響,比如場(chǎng)景照明、當(dāng)日時(shí)間、場(chǎng)景背景、天氣和遮擋,以增加訓(xùn)練集中這些因素的表征,從而在測(cè)試期間增加針對(duì)這些案例的魯棒性。另一種方法是增加有用目標(biāo)的出現(xiàn),以在不同場(chǎng)景和空間配置中訓(xùn)練這些目標(biāo)的過程中提供更多的樣本。
圖2:在我們的研究中所使用的圖像形成和處理流程圖。一個(gè)給定的圖像會(huì)經(jīng)歷增強(qiáng),這些增強(qiáng)就近似于相機(jī)在圖像中所產(chǎn)生的相同像素級(jí)效果。
然而,盡管空間布局和環(huán)境因素各不相同,但在實(shí)現(xiàn)結(jié)果的魯棒性和泛化能力方面仍然存在一定的挑戰(zhàn)。為了進(jìn)一步了解合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集之間的差別,甚至不同真實(shí)數(shù)據(jù)集之間的區(qū)別,我們需要思考DNN在學(xué)習(xí)視覺任務(wù)中的失效模式。目前,已被證實(shí)的一點(diǎn)是,導(dǎo)致各基準(zhǔn)數(shù)據(jù)集性能和泛化能力下降的一個(gè)因素是傳感器偏差。相機(jī)模型與環(huán)境中的照明之間的相互作用對(duì)圖像中的像素級(jí)偽影(pixel-level artifacts)、失真和動(dòng)態(tài)范圍會(huì)產(chǎn)生很大影響。根據(jù)圖1左側(cè)的顯示內(nèi)容可知,包括模糊和過度曝光在內(nèi)的傳感器效應(yīng),降低了城市駕駛場(chǎng)景中目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能。盡管如此,在改善由自然環(huán)境中已學(xué)習(xí)視覺任務(wù)傳感器導(dǎo)致的失效模式方面,仍然是一片空白。
圖3:用于CITYSCAPES(左)和VKITTI(右)的單一傳感器效應(yīng)增強(qiáng)和我們的完整圖像增強(qiáng)管道增強(qiáng)樣本。
在本文中,我們研究了不同傳感器模型的DNN性能對(duì)城市場(chǎng)景中自主駕駛計(jì)算機(jī)視覺任務(wù)的影響。我們提出,通過一種新的圖像增強(qiáng)管道來對(duì)由傳感器效應(yīng)引起的信息缺失進(jìn)行建模。我們的增強(qiáng)管道基于圖像生成和處理過程中所產(chǎn)生的效應(yīng),這些效應(yīng)會(huì)在學(xué)習(xí)框架過程中觸發(fā)失效模式——色差、模糊、曝光、噪聲和色偏校正。我們的目標(biāo)是,通過在包含一組具有代表性實(shí)際傳感器效應(yīng)的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而在我們的學(xué)習(xí)框架中實(shí)現(xiàn)針對(duì)這些效應(yīng)的魯棒性。我們?cè)鰪?qiáng)了真實(shí)數(shù)據(jù)和合成數(shù)據(jù),以表明我們提出的方法提高了車輛數(shù)據(jù)集中目標(biāo)檢測(cè)的性能(圖1)。軟件和數(shù)據(jù)集將在完成盲審后公布。
圖4:錯(cuò)車的定性分析,KITTI樣本在左側(cè),Cityscapes樣本在右側(cè)
圖5:Virtual KITTI樣本在左側(cè),GTA樣本在右側(cè)
我們提出了一種新的基于傳感器的圖像增強(qiáng)通道,用于增強(qiáng)輸入到DNN中的訓(xùn)練數(shù)據(jù),以完成城市駕駛場(chǎng)景中的目標(biāo)檢測(cè)任務(wù)。我們的增強(qiáng)管道模擬了圖像生成和后期處理流程中所出現(xiàn)的一系列物理真實(shí)的傳感器效應(yīng)。之所以選擇這些效應(yīng),是因?yàn)樗鼈儠?huì)導(dǎo)致信息丟失或場(chǎng)景失真,從而降低了已學(xué)習(xí)視覺任務(wù)上的網(wǎng)絡(luò)性能。通過在我們的已增強(qiáng)數(shù)據(jù)集上進(jìn)行訓(xùn)練,我們無需進(jìn)一步標(biāo)記,即可有效地?cái)U(kuò)大數(shù)據(jù)集規(guī)模和傳感器領(lǐng)域中的變化,進(jìn)而提高目標(biāo)檢測(cè)網(wǎng)絡(luò)的魯棒性和泛化能力。我們?cè)谝幌盗谢鶞?zhǔn)車輛的數(shù)據(jù)集上實(shí)現(xiàn)了性能的顯著提升,其中包括使用真實(shí)數(shù)據(jù)與合成數(shù)據(jù)進(jìn)行訓(xùn)練。總而言之,我們的研究結(jié)果揭示了,對(duì)在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,在真實(shí)數(shù)據(jù)上進(jìn)行測(cè)試的特定問題的傳感器效應(yīng)進(jìn)行建模的重要性。
原文鏈接:https://arxiv.org/pdf/1803.07721.pdf
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/4745.html
摘要:目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類的目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)算法。原來多數(shù)的目標(biāo)檢測(cè)算法都是只采用深層特征做預(yù)測(cè),低層的特征語義信息比較少,但是目標(biāo)位置準(zhǔn)確高層的特征語義信息比較豐富,但是目標(biāo)位置比較粗略。 目前目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:two stage的目標(biāo)檢測(cè)算法;one stage的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本...
摘要:最近,來自浙江大學(xué)悉尼大學(xué)等高校的研究人員,提出一種新穎的全局局部注意和語義保持的文本圖像文本框架來解決這個(gè)問題,這種框架稱為。目前,論文已被接收。喬婷婷,浙江大學(xué)計(jì)算機(jī)學(xué)院博士研究生,目前在悉尼大學(xué)陶大程教授研究小組工作。 GAN又開辟了新疆界。去年英偉達(dá)的StyleGAN在生成高質(zhì)量和視覺逼真的圖像,騙過了無數(shù)雙眼睛,隨后一大批假臉、假貓、假房源隨之興起,可見GAN的威力。StyleGA...
摘要:據(jù)阿里云官方消息報(bào)道,兩次理論計(jì)算機(jī)最高獎(jiǎng)哥德爾獎(jiǎng)得主匈牙利裔美國計(jì)算機(jī)科學(xué)家馬里奧塞格德入職阿里巴巴達(dá)摩院位于西雅圖的阿里云量子實(shí)驗(yàn)室。據(jù)阿里云官方消息報(bào)道,兩次理論計(jì)算機(jī)最高獎(jiǎng)哥德爾獎(jiǎng)得主、匈牙利裔美國計(jì)算機(jī)科學(xué)家馬里奧·塞格德(Mario Szegedy)入職阿里巴巴達(dá)摩院位于西雅圖的阿里云量子實(shí)驗(yàn)室(AQL)。馬里奧·塞格德出生于盛產(chǎn)科學(xué)家的國度匈牙利,研究領(lǐng)域包括量子計(jì)算和計(jì)算復(fù)雜...
摘要:在本次競(jìng)賽中,南京信息工程大學(xué)和帝國理工學(xué)院的團(tuán)隊(duì)獲得了目標(biāo)檢測(cè)的最優(yōu)成績,最優(yōu)檢測(cè)目標(biāo)數(shù)量為平均較精確率為。最后在視頻目標(biāo)檢測(cè)任務(wù)中,帝國理工大學(xué)和悉尼大學(xué)所組成的團(tuán)隊(duì)取得了較佳表現(xiàn)。 在本次 ImageNet 競(jìng)賽中,南京信息工程大學(xué)和帝國理工學(xué)院的團(tuán)隊(duì) BDAT 獲得了目標(biāo)檢測(cè)的最優(yōu)成績,最優(yōu)檢測(cè)目標(biāo)數(shù)量為 85、平均較精確率為 0.732227。而在目標(biāo)定位任務(wù)中Momenta和牛津...
閱讀 878·2021-10-13 09:39
閱讀 3531·2021-09-26 10:16
閱讀 2861·2019-08-30 15:54
閱讀 1037·2019-08-30 14:22
閱讀 2886·2019-08-29 15:39
閱讀 3253·2019-08-27 10:52
閱讀 809·2019-08-26 13:59
閱讀 1703·2019-08-26 12:20