国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Faster R-CNN理解

Lorry_Lu / 1738人閱讀

摘要:為了不重新構(gòu)建后續(xù)的網(wǎng)絡(luò)也沒必要重新構(gòu)建最后的網(wǎng)絡(luò),共享卷積層是最好的選擇。

一.簡介

在R-CNN中的roi都是獨(dú)自傳入到經(jīng)過與訓(xùn)練的CNN的分類器和box-regression中去造成了對應(yīng)每個roi都要經(jīng)過獨(dú)自的卷積操作十分耗時,F(xiàn)ast-RCNN解決了沒有共享卷積層的問題,但是他們共同使用的selective search的邊框生成方法過于復(fù)雜,成為了計(jì)算時間的一個瓶頸,因?yàn)镕ast-RCNN在確定ROI后可以在GPU上運(yùn)行,但是selective rearch是不可以的,它只能在cpu上運(yùn)行,因此這大大制約了系統(tǒng)的時間提升,那么作者提出將roi的選擇也置于GPU上就可以大大加快Fast-Rcnn的預(yù)測。因此作者又提出了Faster-RCNN使用RPN的邊框生成算法而徹底的拋棄了selective的算法。
因此在這篇文章中作者提出了在特征圖上對ROI進(jìn)行選擇,這樣就可以使用GPU和共享fast-Rcnn的主要結(jié)構(gòu),在Fast-RCNN的最后一層特征圖上我們構(gòu)造一個RPN,通過添加一個額外的用來同時進(jìn)行物體識別和邊框回歸的卷積層,因此這是一個全連接網(wǎng)絡(luò),因?yàn)槲覀冃枰M(jìn)行邊框的回歸就必須輸出四個偏移量,外加判斷是否為背景的邊框識別,這都是依靠全連接層的將為操作才能實(shí)現(xiàn)的。
同時為了統(tǒng)一Fast-Rcnn和RPN作者提出了一個訓(xùn)練方案,使用fine-tuning在訓(xùn)練區(qū)域判斷任務(wù)和已確定區(qū)域的Fast-RCNN中進(jìn)行交替迭代,這個方法的收斂效果很好,并且產(chǎn)生了卷積層共享的統(tǒng)一結(jié)構(gòu),置于RPN為何要和Fast-Rcnn要在卷積層保持結(jié)構(gòu)的不變性,主要的原因在于這幅圖


在實(shí)現(xiàn)的時候,proposals的生成網(wǎng)絡(luò)需要從最后的卷積層中提取一個256d的特征來確定原始的ROIs同時判斷值是否為背景只有在確定了這兩項(xiàng)后才能送入到Fast-Rcnn中進(jìn)行boxing-regression和判斷物體的種類。為了不重新構(gòu)建后續(xù)的網(wǎng)絡(luò)也沒必要重新構(gòu)建最后的網(wǎng)絡(luò),共享卷積層是最好的選擇。

二.相關(guān)工作

1.proposals生成
2物體檢測的深度網(wǎng)絡(luò)
在R-Cnn中我端到端的對物體進(jìn)行分類來判斷它屬于物體的哪一類或者背景,同時對于每個類都會生成所對應(yīng)的邊框回歸的參數(shù),在判斷好哪一類后就可以選擇對應(yīng)的邊框回歸參數(shù)!R-CNN僅僅相當(dāng)于一種分類器,他的準(zhǔn)確率極大的取決于他的邊框區(qū)域生成模型,在 OverFeat 方法中,一個全連接層被訓(xùn)練來預(yù)測邊框的坐標(biāo),注意是坐標(biāo)不是回歸量,然后被送到一層用來檢測類確定的物體的回歸。在 MultiBoxs方法中,該連接層在確定原始坐標(biāo)后,它產(chǎn)生的是多種類不確定的邊框回歸,也就是說這兩個方法中,第一種是在確定了類別后使用特定類的參數(shù)來進(jìn)行邊框回歸的,但是第二種是將邊框回歸和物體分類獨(dú)立起來了,需要產(chǎn)生更多的參數(shù),在作者的模型中采用的是第一種方法

三.Faster-Rcnn


Faster-Rcnn的結(jié)構(gòu)如上,由兩個部分組成,一個是深度全卷積網(wǎng)絡(luò)來產(chǎn)生proposals信息,第二個是使用proposals的Fast-Rcnn detector,RPN來告訴Fast-Rcnn需要看那個區(qū)域

1.Region Proposal Networks(RPN)

RPN網(wǎng)絡(luò)將一整幅圖片(大小無所謂)作為輸入,輸出一些矩形框,且每一個都有非背景得分,為了產(chǎn)生位置區(qū)域,我們在輸出特征圖的最后一層使用n*n的子框從最后一層的卷積特征圖上提取特征,之后將特征隱射到256d的區(qū)域中(我的理解就好在是顏色的三基色一樣,通過映射,就可以判斷這是背景與否),然后將這256d的數(shù)據(jù)送入的兩個全連層中分別用來判斷這是否為背景的(cls)與邊框回歸(reg)在本文中我們設(shè)置n=3,因?yàn)榻邮沼蛱罅诉^程如下

2.Anchors

在窗口滑動的過程中,我們同時預(yù)測了多個區(qū)域 proposals,對于每個邊框最大可能的形狀有k種,因此CLS有2k個輸出(即該形狀的參考邊框是否是背景),reg有4k個輸出(及對該邊框如何進(jìn)行回歸),同一個location的k種proposals我們稱之為anchor,而它可以通過中心點(diǎn)已經(jīng)縮放度和長寬比來定義,我們通常使用3種縮放比例和3種長寬比來默認(rèn)初始化一個anchor,那么整個特征圖就有MHK個anchor了

3.Translation-Invariant Anchors

如果一個物體被翻轉(zhuǎn)了,那么我們的proposal也應(yīng)該能夠翻轉(zhuǎn)并且使用相同的函數(shù)可以預(yù)測它,這樣翻轉(zhuǎn)不變性在我們的anchor中可以得到保障對比之下MultiBox方法使用k均值算法來產(chǎn)生800,并不具備翻轉(zhuǎn)不變性,也就是說在一個objection在翻轉(zhuǎn)后我們的方法在相同的參數(shù)下都能準(zhǔn)確的預(yù)測到它的proposal,這就是那4k數(shù)量的作用了,如果是在確定了使用某個類型的anchor就會損失這樣的性質(zhì)。同時也減少了我們的輸出的數(shù)量也就導(dǎo)致了參數(shù)的減少。

4.Multi-Scale Anchors as Regression References

對于不同大小的圖片輸入情況,傳統(tǒng)的做法有兩種
1.對圖像進(jìn)行多尺度的縮放后獨(dú)自計(jì)算各自的特征圖,但是這太耗時間了
2.使用不同的大小的bounding-boxing來對objection進(jìn)行判別,而所謂的不同大小就是金字塔型的

我們的anchors的方法就參考了金字塔濾波,為什么要這么說尼?因?yàn)槲覀兺粋€特征圖區(qū)域?qū)?yīng)9種proposals,很明顯就是金字塔濾波。正是這種類似于金字塔濾波的設(shè)計(jì),我們能夠在沒有添加其他損失項(xiàng)的情況下解決不同大小的目標(biāo)問題!

5.Loss Function

在訓(xùn)練RPNs的時候我們對每個anchor指定了一個二值標(biāo)簽,我們對以下兩種anchor判定為正的
1.與 ground-truth box有著最高的iou的那些anchor
2.iou高于0.7的那些anchor

那么我們的損失函數(shù)如上,其中i是mini-batch中第i個索引pi是i個anchor為物體的概率 p i?為正標(biāo)簽(1)如果該anchor滿足上面的條件1,2,后面一項(xiàng)如Fast-Rcnn的定義相同

2.Training RPNs

RPN可以通過反向傳播或者SGD來進(jìn)行訓(xùn)練每個mini-batch都來源于一幅圖且包含了多個正的和負(fù)的案例anchors,優(yōu)化這樣的loss是可能的,但是這回會出現(xiàn)一個問題,會趨向于將所有的anchors都訓(xùn)練為負(fù)樣本,因此我們選擇從一幅圖中選取出256幅anchors其中正負(fù)樣本的比例是1:1,如果一幅圖中正樣本的數(shù)量少于128,就使用負(fù)樣本補(bǔ)上

1.Sharing Features for RPN and Fast R-CNN

到現(xiàn)在為止我們已經(jīng)說明了RPN是產(chǎn)生區(qū)域proposals的,當(dāng)時還未說明如何使用CNN進(jìn)行識別,對于其中的目標(biāo)識別我們采用R-CNN,并且我們使用共享卷積層的由RPN和F-Rcnn組成的聯(lián)合結(jié)構(gòu),由于RPN和F-RCNN分開訓(xùn)練會產(chǎn)生不一樣的卷積層參數(shù),因此需要一項(xiàng)技術(shù)來讓這兩個網(wǎng)絡(luò)共享卷積層,而不是獨(dú)立的訓(xùn)練兩個分離的網(wǎng)絡(luò),在這里我們有三種訓(xùn)練方法:
1.交替訓(xùn)練
我們首先訓(xùn)練RPN,然后使用這些proposals來訓(xùn)練F-RCNN ,之后再使用參數(shù)初始化RPN,如此迭代
2.近似聯(lián)合訓(xùn)練

在SGD的過程中,在訓(xùn)練的時候先前向傳播,產(chǎn)生proposals后就認(rèn)為proposals是固定的,預(yù)訓(xùn)練好的,接著訓(xùn)練FRCNN,損失函數(shù)是他們共同的損失函數(shù),這種方法同時迭代兩個網(wǎng)絡(luò)的參數(shù),作者認(rèn)為效果不是很好

四:總結(jié)

faster rcnn 在fast rcnn 的基礎(chǔ)上消除了ss的過程,縮短了時間,具體的解釋在后續(xù)的代碼部分解釋

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/41229.html

相關(guān)文章

  • CNN 在圖像分割中的簡史:從 R-CNN 到 Mask R-CNN

    摘要:這個像素級別的圖像分割問題被等科學(xué)家解決,這個框架被稱為。由于圖像分割需要做到像素級,這與邊框分割不同,所以必然導(dǎo)致不準(zhǔn)確。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:https://www.jianshu.com/p/867... 自從?Alex Krizhevsky, Geoff Hinton, and Ilya Sutskeve...

    AJie 評論0 收藏0
  • 用于圖像分割的卷積神經(jīng)網(wǎng)絡(luò):從R-CNN到Mark R-CNN

    摘要:自從和在年贏得了的冠軍,卷積神經(jīng)網(wǎng)絡(luò)就成為了分割圖像的黃金準(zhǔn)則。事實(shí)上,從那時起,卷積神經(jīng)網(wǎng)絡(luò)不斷獲得完善,并已在挑戰(zhàn)上超越人類。現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)在的表現(xiàn)已超越人類。 卷積神經(jīng)網(wǎng)絡(luò)(CNN)的作用遠(yuǎn)不止分類那么簡單!在本文中,我們將看到卷積神經(jīng)網(wǎng)絡(luò)(CNN)如何在圖像實(shí)例分割任務(wù)中提升其結(jié)果。自從 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever ...

    daydream 評論0 收藏0
  • 像玩樂高一樣拆解Faster R-CNN:詳解目標(biāo)檢測的實(shí)現(xiàn)過程

    摘要:這一切始于年的一篇論文,其使用了稱為的算法用來提取感興趣候選區(qū)域,并用一個標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)去分類和調(diào)整這些區(qū)域。 本文詳細(xì)解釋了 Faster R-CNN 的網(wǎng)絡(luò)架構(gòu)和工作流,一步步帶領(lǐng)讀者理解目標(biāo)檢測的工作原理,作者本人也提供了 Luminoth 實(shí)現(xiàn),供大家參考。Luminoth 實(shí)現(xiàn):https://github.com/tryolabs/luminoth/tree/master/l...

    taoszu 評論0 收藏0
  • 斯坦福:「目標(biāo)檢測」深度學(xué)習(xí)全面指南

    摘要:然而,幸運(yùn)的是,目前更為成功的目標(biāo)檢測方法是圖像分類模型的擴(kuò)展。幾個月前,發(fā)布了一個用于的新的目標(biāo)檢測。 隨著自動駕駛汽車、智能視頻監(jiān)控、人臉檢測和各種人員計(jì)數(shù)應(yīng)用的興起,快速和準(zhǔn)確的目標(biāo)檢測系統(tǒng)也應(yīng)運(yùn)而生。這些系統(tǒng)不僅能夠?qū)D像中的每個目標(biāo)進(jìn)行識別和分類,而且通過在其周圍畫出適當(dāng)?shù)倪吔鐏韺ζ溥M(jìn)行局部化(localizing)。這使得目標(biāo)檢測相較于傳統(tǒng)的計(jì)算機(jī)視覺前身——圖像分類來說更加困難...

    Harpsichord1207 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<