從RCNN到SSD，這應該是最全的一份目標檢測算法盤點

jayzou 發布于2019-04-25 18:26 / 3114人閱讀

摘要：基于候選區域的目標檢測器滑動窗口檢測器自從獲得挑戰賽冠軍后，用進行分類成為主流。一種用于目標檢測的暴力方法是從左到右從上到下滑動窗口，利用分類識別目標。這些錨點是精心挑選的，因此它們是多樣的，且覆蓋具有不同比例和寬高比的現實目標。

目標檢測是很多計算機視覺任務的基礎，不論我們需要實現圖像與文字的交互還是需要識別精細類別，它都提供了可靠的信息。本文對目標檢測進行了整體回顧，第一部分從RCNN開始介紹基于候選區域的目標檢測器，包括Fast R-CNN、Faster R-CNN 和 FPN等。第二部分則重點討論了包括YOLO、SSD和RetinaNet等在內的單次檢測器，它們都是目前更為優秀的方法。

基于候選區域的目標檢測器

滑動窗口檢測器

自從 AlexNet 獲得 ILSVRC 2012 挑戰賽冠軍后，用 CNN 進行分類成為主流。一種用于目標檢測的暴力方法是從左到右、從上到下滑動窗口，利用分類識別目標。為了在不同觀察距離處檢測不同的目標類型，我們使用不同大小和寬高比的窗口。

滑動窗口（從右到左，從上到下）

我們根據滑動窗口從圖像中剪切圖像塊。由于很多分類器只取固定大小的圖像，因此這些圖像塊是經過變形轉換的。但是，這不影響分類準確率，因為分類器可以處理變形后的圖像。

將圖像變形轉換成固定大小的圖像

變形圖像塊被輸入 CNN 分類器中，提取出 4096 個特征。之后，我們使用 SVM 分類器識別類別和該邊界框的另一個線性回歸器。

滑動窗口檢測器的系統工作流程圖。

下面是偽代碼。我們創建很多窗口來檢測不同位置的不同目標。要提升性能，一個顯而易見的辦法就是減少窗口數量。

for window in windows

? ? patch = get_patch(image, window)

? ? results = detector(patch)

選擇性搜索

我們不使用暴力方法，而是用候選區域方法（region proposal method）創建目標檢測的感興趣區域（ROI）。在選擇性搜索（selective search，SS）中，我們首先將每個像素作為一組。然后，計算每一組的紋理，并將兩個最接近的組結合起來。但是為了避免單個區域吞噬其他區域，我們首先對較小的組進行分組。我們繼續合并區域，直到所有區域都結合在一起。下圖第一行展示了如何使區域增長，第二行中的藍色矩形代表合并過程中所有可能的 ROI。

圖源：van de Sande et al. ICCV"11

R-CNN

R-CNN 利用候選區域方法創建了約 2000 個 ROI。這些區域被轉換為固定大小的圖像，并分別饋送到卷積神經網絡中。該網絡架構后面會跟幾個全連接層，以實現目標分類并提煉邊界框。

使用候選區域、CNN、仿射層來定位目標。

以下是 R-CNN 整個系統的流程圖：

通過使用更少且更高質量的 ROI，R-CNN 要比滑動窗口方法更快速、更準確。

ROIs = region_proposal(image)

for ROI in ROIs

? ? patch = get_patch(image, ROI)

? ? results = detector(patch)

邊界框回歸器

候選區域方法有非常高的計算復雜度。為了加速這個過程，我們通常會使用計算量較少的候選區域選擇方法構建 ROI，并在后面使用線性回歸器（使用全連接層）進一步提煉邊界框。

使用回歸方法將藍色的原始邊界框提煉為紅色的。

Fast R-CNN

R-CNN 需要非常多的候選區域以提升準確度，但其實有很多區域是彼此重疊的，因此 R-CNN 的訓練和推斷速度非常慢。如果我們有 2000 個候選區域，且每一個都需要獨立地饋送到 CNN 中，那么對于不同的 ROI，我們需要重復提取 2000 次特征。

此外，CNN 中的特征圖以一種密集的方式表征空間特征，那么我們能直接使用特征圖代替原圖來檢測目標嗎？

直接利用特征圖計算 ROI。

Fast R-CNN 使用特征提取器（CNN）先提取整個圖像的特征，而不是從頭開始對每個圖像塊提取多次。然后，我們可以將創建候選區域的方法直接應用到提取到的特征圖上。例如，Fast R-CNN 選擇了 VGG16 中的卷積層 conv5 來生成 ROI，這些關注區域隨后會結合對應的特征圖以裁剪為特征圖塊，并用于目標檢測任務中。我們使用 ROI 池化將特征圖塊轉換為固定的大小，并饋送到全連接層進行分類和定位。因為 Fast-RCNN 不會重復提取特征，因此它能顯著地減少處理時間。

將候選區域直接應用于特征圖，并使用 ROI 池化將其轉化為固定大小的特征圖塊。

以下是 Fast R-CNN 的流程圖：

在下面的偽代碼中，計算量巨大的特征提取過程從 For 循環中移出來了，因此速度得到顯著提升。Fast R-CNN 的訓練速度是 R-CNN 的 10 倍，推斷速度是后者的 150 倍。

feature_maps = process(image)

ROIs = region_proposal(feature_maps)

for ROI in ROIs

? ? patch = roi_pooling(feature_maps, ROI)

? ? results = detector2(patch)

Fast R-CNN 最重要的一點就是包含特征提取器、分類器和邊界框回歸器在內的整個網絡能通過多任務損失函數進行端到端的訓練，這種多任務損失即結合了分類損失和定位損失的方法，大大提升了模型準確度。

ROI 池化

因為 Fast R-CNN 使用全連接層，所以我們應用 ROI 池化將不同大小的 ROI 轉換為固定大小。

為簡潔起見，我們先將 8×8 特征圖轉換為預定義的 2×2 大小。

下圖左上角：特征圖。

右上角：將 ROI（藍色區域）與特征圖重疊。

左下角：將 ROI 拆分為目標維度。例如，對于 2×2 目標，我們將 ROI 分割為 4 個大小相似或相等的部分。

右下角：找到每個部分的較大值，得到變換后的特征圖。

輸入特征圖（左上），輸出特征圖（右下），ROI (右上，藍色框)。

按上述步驟得到一個 2×2 的特征圖塊，可以饋送至分類器和邊界框回歸器中。

Faster R-CNN

Fast R-CNN 依賴于外部候選區域方法，如選擇性搜索。但這些算法在 CPU 上運行且速度很慢。在測試中，Fast R-CNN 需要 2.3 秒來進行預測，其中 2 秒用于生成 2000 個 ROI。

feature_maps = process(image)

ROIs = region_proposal(feature_maps) ? ? ? ? # Expensive!

for ROI in ROIs

? ? patch = roi_pooling(feature_maps, ROI)

? ? results = detector2(patch)

Faster R-CNN 采用與 Fast R-CNN 相同的設計，只是它用內部深層網絡代替了候選區域方法。新的候選區域網絡（RPN）在生成 ROI 時效率更高，并且以每幅圖像 10 毫秒的速度運行。

Faster R-CNN 的流程圖與 Fast R-CNN 相同。

外部候選區域方法代替了內部深層網絡。

候選區域網絡

候選區域網絡（RPN）將第一個卷積網絡的輸出特征圖作為輸入。它在特征圖上滑動一個 3×3 的卷積核，以使用卷積網絡（如下所示的 ZF 網絡）構建與類別無關的候選區域。其他深度網絡（如 VGG 或 ResNet）可用于更全面的特征提取，但這需要以速度為代價。ZF 網絡最后會輸出 256 個值，它們將饋送到兩個獨立的全連接層，以預測邊界框和兩個 objectness 分數，這兩個 objectness 分數度量了邊界框是否包含目標。我們其實可以使用回歸器計算單個 objectness 分數，但為簡潔起見，Faster R-CNN 使用只有兩個類別的分類器：即帶有目標的類別和不帶有目標的類別。

對于特征圖中的每一個位置，RPN 會做 k 次預測。因此，RPN 將輸出 4×k 個坐標和每個位置上 2×k 個得分。下圖展示了 8×8 的特征圖，且有一個 3×3 的卷積核執行運算，它最后輸出 8×8×3 個 ROI（其中 k=3）。下圖（右）展示了單個位置的 3 個候選區域。

此處有 3 種猜想，稍后我們將予以完善。由于只需要一個正確猜想，因此我們最初的猜想較好涵蓋不同的形狀和大小。因此，Faster R-CNN 不會創建隨機邊界框。相反，它會預測一些與左上角名為「錨點」的參考框相關的偏移量（如?x、?y）。我們限制這些偏移量的值，因此我們的猜想仍然類似于錨點。

要對每個位置進行 k 個預測，我們需要以每個位置為中心的 k 個錨點。每個預測與特定錨點相關聯，但不同位置共享相同形狀的錨點。

這些錨點是精心挑選的，因此它們是多樣的，且覆蓋具有不同比例和寬高比的現實目標。這使得我們可以以更好的猜想來指導初始訓練，并允許每個預測專門用于特定的形狀。該策略使早期訓練更加穩定和簡便。

Faster R-CNN 使用更多的錨點。它部署 9 個錨點框：3 個不同寬高比的 3 個不同大小的錨點框。每一個位置使用 9 個錨點，每個位置會生成 2×9 個 objectness 分數和 4×9 個坐標。

圖源：https://arxiv.org/pdf/1506.01497.pdf

R-CNN 方法的性能

如下圖所示，Faster R-CNN 的速度要快得多。

基于區域的全卷積神經網絡（R-FCN）

假設我們只有一個特征圖用來檢測右眼。那么我們可以使用它定位人臉嗎？應該可以。因為右眼應該在人臉圖像的左上角，所以我們可以利用這一點定位整個人臉。

如果我們還有其他用來檢測左眼、鼻子或嘴巴的特征圖，那么我們可以將檢測結果結合起來，更好地定位人臉。

現在我們回顧一下所有問題。在 Faster R-CNN 中，檢測器使用了多個全連接層進行預測。如果有 2000 個 ROI，那么成本非常高。

feature_maps = process(image)

ROIs = region_proposal(feature_maps)

for ROI in ROIs

? ? patch = roi_pooling(feature_maps, ROI)

? ? class_scores, box = detector(patch) ? ? ? ? # Expensive!

? ? class_probabilities = softmax(class_scores)

R-FCN 通過減少每個 ROI 所需的工作量實現加速。上面基于區域的特征圖與 ROI 是獨立的，可以在每個 ROI 之外多帶帶計算。剩下的工作就比較簡單了，因此 R-FCN 的速度比 Faster R-CNN 快。

feature_maps = process(image)

ROIs = region_proposal(feature_maps) ? ? ? ??

score_maps = compute_score_map(feature_maps)

for ROI in ROIs

? ? V = region_roi_pool(score_maps, ROI) ? ??

? ? class_scores, box = average(V) ? ? ? ? ? ? ? ? ? # Much simpler!

? ? class_probabilities = softmax(class_scores)

現在我們來看一下 5 × 5 的特征圖 M，內部包含一個藍色方塊。我們將方塊平均分成 3 × 3 個區域。現在，我們在 M 中創建了一個新的特征圖，來檢測方塊的左上角（TL）。這個新的特征圖如下圖（右）所示。只有黃色的網格單元 [2, 2] 處于激活狀態。

在左側創建一個新的特征圖，用于檢測目標的左上角。

我們將方塊分成 9 個部分，由此創建了 9 個特征圖，每個用來檢測對應的目標區域。這些特征圖叫作位置敏感得分圖（position-sensitive score map），因為每個圖檢測目標的子區域（計算其得分）。

生成 9 個得分圖

下圖中紅色虛線矩形是建議的 ROI。我們將其分割成 3 × 3 個區域，并詢問每個區域包含目標對應部分的概率是多少。例如，左上角 ROI 區域包含左眼的概率。我們將結果存儲成 3 × 3 vote 數組，如下圖（右）所示。例如，vote_array[0][0] 包含左上角區域是否包含目標對應部分的得分。

將 ROI 應用到特征圖上，輸出一個 3 x 3 數組。

將得分圖和 ROI 映射到 vote 數組的過程叫作位置敏感 ROI 池化（position-sensitive ROI-pool）。該過程與前面討論過的 ROI 池化非常接近。

將 ROI 的一部分疊加到對應的得分圖上，計算 V[i][j]。

在計算出位置敏感 ROI 池化的所有值后，類別得分是其所有元素得分的平均值。

ROI 池化

假如我們有 C 個類別要檢測。我們將其擴展為 C + 1 個類別，這樣就為背景（非目標）增加了一個新的類別。每個類別有 3 × 3 個得分圖，因此一共有 (C+1) × 3 × 3 個得分圖。使用每個類別的得分圖可以預測出該類別的類別得分。然后我們對這些得分應用 softmax 函數，計算出每個類別的概率。

以下是數據流圖，在我們的案例中，k=3。

總結

我們首先了解了基礎的滑動窗口算法：

for window in windows

? ? patch = get_patch(image, window)

? ? results = detector(patch)

然后嘗試減少窗口數量，盡可能減少 for 循環中的工作量。

ROIs = region_proposal(image)

for ROI in ROIs

? ? patch = get_patch(image, ROI)

? ? results = detector(patch)

單次目標檢測器

第二部分，我們將對單次目標檢測器（包括 SSD、YOLO、YOLOv2、YOLOv3）進行綜述。我們將分析 FPN 以理解多尺度特征圖如何提高準確率，特別是小目標的檢測，其在單次檢測器中的檢測效果通常很差。然后我們將分析 Focal loss 和 RetinaNet，看看它們是如何解決訓練過程中的類別不平衡問題的。

單次檢測器

Faster R-CNN 中，在分類器之后有一個專用的候選區域網絡。

Faster R-CNN 工作流

基于區域的檢測器是很準確的，但需要付出代價。Faster R-CNN 在 PASCAL VOC 2007 測試集上每秒處理 7 幀的圖像（7 FPS）。和 R-FCN 類似，研究者通過減少每個 ROI 的工作量來精簡流程。

feature_maps = process(image)

ROIs = region_proposal(feature_maps)

for ROI in ROIs

? ? patch = roi_align(feature_maps, ROI)

? ? results = detector2(patch) ? ?# Reduce the amount of work here!

作為替代，我們是否需要一個分離的候選區域步驟？我們可以直接在一個步驟內得到邊界框和類別嗎？

feature_maps = process(image)

results = detector3(feature_maps) # No more separate step for ROIs

讓我們再看一下滑動窗口檢測器。我們可以通過在特征圖上滑動窗口來檢測目標。對于不同的目標類型，我們使用不同的窗口類型。以前的滑動窗口方法的致命錯誤在于使用窗口作為最終的邊界框，這就需要非常多的形狀來覆蓋大部分目標。更有效的方法是將窗口當做初始猜想，這樣我們就得到了從當前滑動窗口同時預測類別和邊界框的檢測器。

基于滑動窗口進行預測

這個概念和 Faster R-CNN 中的錨點很相似。然而，單次檢測器會同時預測邊界框和類別。例如，我們有一個 8 × 8 特征圖，并在每個位置做出 k 個預測，即總共有 8 × 8 × k 個預測結果。

64 個位置

在每個位置，我們有 k 個錨點（錨點是固定的初始邊界框猜想），一個錨點對應一個特定位置。我們使用相同的錨點形狀仔細地選擇錨點和每個位置。

使用 4 個錨點在每個位置做出 4 個預測。

以下是 4 個錨點（綠色）和 4 個對應預測（藍色），每個預測對應一個特定錨點。

4 個預測，每個預測對應一個錨點。

在 Faster R-CNN 中，我們使用卷積核來做 5 個參數的預測：4 個參數對應某個錨點的預測邊框，1 個參數對應 objectness 置信度得分。因此 3× 3× D × 5 卷積核將特征圖從 8 × 8 × D 轉換為 8 × 8 × 5。

使用 3x3 卷積核計算預測。

在單次檢測器中，卷積核還預測 C 個類別概率以執行分類（每個概率對應一個類別）。因此我們應用一個 3× 3× D × 25 卷積核將特征圖從 8 × 8 × D 轉換為 8 × 8 × 25（C=20）。

每個位置做出 k 個預測，每個預測有 25 個參數。

單次檢測器通常需要在準確率和實時處理速度之間進行權衡。它們在檢測太近距離或太小的目標時容易出現問題。在下圖中，左下角有 9 個圣誕老人，但某個單次檢測器只檢測出了 5 個。

SSD

SSD 是使用 VGG19 網絡作為特征提取器（和 Faster R-CNN 中使用的 CNN 一樣）的單次檢測器。我們在該網絡之后添加自定義卷積層（藍色），并使用卷積核（綠色）執行預測。

同時對類別和位置執行單次預測。

然而，卷積層降低了空間維度和分辨率。因此上述模型僅可以檢測較大的目標。為了解決該問題，我們從多個特征圖上執行獨立的目標檢測。

使用多尺度特征圖用于檢測。

以下是特征圖圖示。

圖源：https://arxiv.org/pdf/1512.02325.pdf

SSD 使用卷積網絡中較深的層來檢測目標。如果我們按接近真實的比例重繪上圖，我們會發現圖像的空間分辨率已經被顯著降低，且可能已無法定位在低分辨率中難以檢測的小目標。如果出現了這樣的問題，我們需要增加輸入圖像的分辨率。

YOLO

YOLO 是另一種單次目標檢測器。

YOLO 在卷積層之后使用了 DarkNet 來做特征檢測。

然而，它并沒有使用多尺度特征圖來做獨立的檢測。相反，它將特征圖部分平滑化，并將其和另一個較低分辨率的特征圖拼接。例如，YOLO 將一個 28 × 28 × 512 的層重塑為 14 × 14 × 2048，然后將它和 14 × 14 ×1024 的特征圖拼接。之后，YOLO 在新的 14 × 14 × 3072 層上應用卷積核進行預測。

YOLO（v2）做出了很多實現上的改進，將 mAP 值從第一次發布時的 63.4 提高到了 78.6。YOLO9000 可以檢測 9000 種不同類別的目標。

圖源：https://arxiv.org/pdf/1612.08242.pdf

以下是 YOLO 論文中不同檢測器的 mAP 和 FPS 對比。YOLOv2 可以處理不同分辨率的輸入圖像。低分辨率的圖像可以得到更高的 FPS，但 mAP 值更低。

圖源：https://arxiv.org/pdf/1612.08242.pdf

YOLOv3

YOLOv3 使用了更加復雜的骨干網絡來提取特征。DarkNet-53 主要由 3 × 3 和 1× 1 的卷積核以及類似 ResNet 中的跳過連接構成。相比 ResNet-152，DarkNet 有更低的 BFLOP（十億次浮點數運算），但能以 2 倍的速度得到相同的分類準確率。

圖源：https://pjreddie.com/media/files/papers/YOLOv3.pdf

YOLOv3 還添加了特征金字塔，以更好地檢測小目標。以下是不同檢測器的準確率和速度的權衡。

圖源：https://pjreddie.com/media/files/papers/YOLOv3.pdf

特征金字塔網絡（FPN）

檢測不同尺度的目標很有挑戰性，尤其是小目標的檢測。特征金字塔網絡（FPN）是一種旨在提高準確率和速度的特征提取器。它取代了檢測器（如 Faster R-CNN）中的特征提取器，并生成更高質量的特征圖金字塔。

數據流

FPN（圖源：https://arxiv.org/pdf/1612.03144.pdf）

FPN 由自下而上和自上而下路徑組成。其中自下而上的路徑是用于特征提取的常用卷積網絡。空間分辨率自下而上地下降。當檢測到更高層的結構，每層的語義值增加。

FPN 中的特征提取（編輯自原論文）

SSD 通過多個特征圖完成檢測。但是，最底層不會被選擇執行目標檢測。它們的分辨率高但是語義值不夠，導致速度顯著下降而不能被使用。SSD 只使用較上層執行目標檢測，因此對于小的物體的檢測性能較差。

圖像修改自論文 https://arxiv.org/pdf/1612.03144.pdf

FPN 提供了一條自上而下的路徑，從語義豐富的層構建高分辨率的層。

自上而下重建空間分辨率（編輯自原論文）

雖然該重建層的語義較強，但在經過所有的上采樣和下采樣之后，目標的位置不較精確。在重建層和相應的特征圖之間添加橫向連接可以使位置偵測更加準確。

增加跳過連接（引自原論文）

下圖詳細說明了自下而上和自上而下的路徑。其中 P2、P3、P4 和 P5 是用于目標檢測的特征圖金字塔。

FPN 結合 RPN

FPN 不單純是目標檢測器，還是一個目標檢測器和協同工作的特征檢測器。分別傳遞到各個特征圖（P2 到 P5）來完成目標檢測。

FPN 結合 Fast R-CNN 或 Faster R-CNN

在 FPN 中，我們生成了一個特征圖的金字塔。用 RPN（詳見上文）來生成 ROI。基于 ROI 的大小，我們選擇最合適尺寸的特征圖層來提取特征塊。

困難案例

對于如 SSD 和 YOLO 的大多數檢測算法來說，我們做了比實際的目標數量要多得多的預測。所以錯誤的預測比正確的預測要更多。這產生了一個對訓練不利的類別不平衡。訓練更多的是在學習背景，而不是檢測目標。但是，我們需要負采樣來學習什么是較差的預測。所以，我們計算置信度損失來把訓練樣本分類。選取較好的那些來確保負樣本和正樣本的比例最多不超過 3:1。這使訓練更加快速和穩定。

推斷過程中的非極大值抑制

檢測器對于同一個目標會做出重復的檢測。我們利用非極大值抑制來移除置信度低的重復檢測。將預測按照置信度從高到低排列。如果任何預測和當前預測的類別相同并且兩者 IoU 大于 0.5，我們就把它從這個序列中剔除。

Focal Loss（RetinaNet）

類別不平衡會損害性能。SSD 在訓練期間重新采樣目標類和背景類的比率，這樣它就不會被圖像背景淹沒。Focal loss（FL）采用另一種方法來減少訓練良好的類的損失。因此，只要該模型能夠很好地檢測背景，就可以減少其損失并重新增強對目標類的訓練。我們從交叉熵損失 CE 開始，并添加一個權重來降低高可信度類的 CE。

例如，令 γ = 0.5, 經良好分類的樣本的 Focal loss 趨近于 0。

這是基于 FPN、ResNet 以及利用 Focal loss 構建的 RetianNet。

RetinaNet

原文鏈接：https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

https://medium.com/@jonathan_hui/what-do-we-learn-from-single-shot-object-detectors-ssd-yolo-fpn-focal-loss-3888677c5f4d

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器檢測到目標站點存在javascript框架庫漏洞目標檢測目標檢測圖像識別目標檢測數據集

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4766.html

增加檢測類別？這是一份目標檢測的基礎指南

摘要：我盡可能對深度學習目標檢測器的組成做一個概述，包括使用預訓練的目標檢測器執行任務的源代碼。當我們理解了什么是目標檢測時，隨后會概述一個深度學習目標檢測器的核心模塊。方法傳統的目標檢測技術路線第一個方法不是純端到端的深度學習目標檢測器。目標檢測技術作為計算機視覺的重要方向，被廣泛應用于自動駕駛汽車、智能攝像頭、人臉識別及大量有價值的應用上。這些系統除了可以對圖像中的每個目標進行識別、分類以外...

Honwhy 2019-04-25 18:27 評論0 收藏0
ECCV 2018 | CornerNet：目標檢測算法新思路

摘要：表示類別為，坐標是的預測熱點圖，表示相應位置的，論文提出變體表示檢測目標的損失函數由于下采樣，模型生成的熱點圖相比輸入圖像分辨率低。模型訓練損失函數使同一目標的頂點進行分組，損失函數用于分離不同目標的頂點。本文由極市博客原創，作者陳泰紅。 1.目標檢測算法概述 CornerNet（https://arxiv.org/abs/1808.01244）是密歇根大學Hei Law等人在發表E...

awkj 2019-06-26 18:33 評論0 收藏0
SSD 用于實時物體檢測介紹

摘要：但是他們對于實時監測來說，還是有點慢。上圖是我們用于物體檢測的訓練數據集的示例。分類器在每個步驟中應用于檢測對象。卷積神經網絡（CNN）在物體識別中由于其他的神經網絡架構，所以研究人員很快對 CNN 進行了改進以使得它們能更好的對物體進行定位和檢測，這種神經網絡架構就被稱為 R-CNN（Region-CNN）。R-CNN 的輸出是具有矩形框的圖像，以下是 R-CNN 如何工作的步驟：使用稱...

yy13818512006 2019-04-25 18:29 評論0 收藏0
ECCV-2018最佼佼者的目標檢測算法

摘要：表示類別為，坐標是的預測熱點圖，表示相應位置的，論文提出變體表示檢測目標的損失函數由于下采樣，模型生成的熱點圖相比輸入圖像分辨率低。模型訓練損失函數使同一目標的頂點進行分組，損失函數用于分離不同目標的頂點。好久沒有將較好的干貨分享給大家，那今天我給大家帶來ECCV-2018年最優paper之一，也是目標檢測里的佼佼者，值得我們去深挖，去學習！目標檢測算法概述CornerNet可以說是今年E...

goji 2019-04-25 18:30 評論0 收藏0