国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

【論文閱讀】Beyond OCR + VQA: 將OCR融入TextVQA的執(zhí)行流程中形成更魯棒更準(zhǔn)

不知名網(wǎng)友 / 1235人閱讀

摘要:模塊基于預(yù)訓(xùn)練模型進(jìn)行識別,識別出的結(jié)果與一起經(jīng)過注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與進(jìn)行組合。五六結(jié)論將融入的前向處理流程,構(gòu)建了一個魯棒且準(zhǔn)確的模型參考博客

?論文題目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA

?論文鏈接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606

?

一、任務(wù)概述

  1. ?視覺問答任務(wù)(VQA):將圖像和關(guān)于圖像的自然語言問題作為輸入,生成自然語言答案作為輸出。
  2. ?文本視覺問答任務(wù)(TextVQA):面向文字識別的問答任務(wù)。

?二、Baseline

? 2.1 Baseline 1:?Look, Read, Reason & Answer (LoRRA):

  • 2019年提出,推出標(biāo)準(zhǔn)數(shù)據(jù)集,原文地址:https://arxiv.org/abs/1904.08920v2
  • 典型的TextVQA:將問題回答建模為分類任務(wù),需要給定答案空間。

  • 多模態(tài)嵌入:問題embedding、圖像中的物體進(jìn)行embedding、OCR的結(jié)果進(jìn)行embedding(FastText做pre-train)
  • 嵌入方式
    • 對問題進(jìn)行GloVe Embedding,再通過LSTM得到問題嵌入 fQ(q),用于后續(xù)對圖片特征以及OCR樣本進(jìn)行注意力加權(quán)平均。
    • 將圖像進(jìn)行特征提取,提取的特征fI(v)與fQ(q)一起經(jīng)過注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與fQ(q)進(jìn)行組合。

    • OCR模塊基于預(yù)訓(xùn)練模型(Faster RCNN + CTC)進(jìn)行識別,識別出的結(jié)果fO(s)與fQ(q)一起經(jīng)過注意力機(jī)制得到加權(quán)的空間注意力,得到的結(jié)果與fQ(q)進(jìn)行組合。

    • contact一起之后過分類器(MLP),分類的類別為問題空間a1……an 加上 OCR是識別出的詞

? 2.2 Baseline 2:M4C

  • 主貢獻(xiàn):提出了迭代預(yù)測的解碼方式,但我們更關(guān)注特征表示的部分

  • Question embedding:BERT-base模型的encoder,但只用前3層,得到矩陣shape=(K, d)
  • Detected object embedding:Faster-RCNN + Position,shape=(M, d)
  • 融合方式:Linear + LayerNorm
  • OCR token embedding?由四部分組成:
    • : 300維的FastText文本特征
    • : Faster RCNN特征,和detected object的獲取方式一樣
    • : 604維的Pyramidal Histogram of Characters(PHOC)特征
    • : 4維的位置特征,計算方式和detected object一樣
    • 融合方式:前三個特征過linear后做layernorm,position多帶帶融合,再加起來

三、Motivation

  1. OCR的錯誤識別會較大程度影響多模態(tài)信息之間的交互(即fA的過程)
  2. 因為在表征空間中需要copy OCR識別的token,OCR的錯誤會較嚴(yán)重的影響解碼器的性能(哪怕另兩個分支完全準(zhǔn)確也沒法正確的輸出)

四、Method

? ?4.1 Contribution

  1. 增強(qiáng)特征表示的魯棒性:減小OCR錯誤和物體識別錯誤對推理的影響
  2. 增強(qiáng)解碼器的魯棒性:在答案預(yù)測模塊提出一個上下文感知的答案修正模塊(CRM)對“復(fù)制”的答案詞進(jìn)行校正。

? ?4.2 Architectural Details—— 視覺增強(qiáng)的文字表征模塊 TVS (OCR增強(qiáng))

  1. method
    • 文字圖像矯正模塊
    • 編碼模塊:45層ResNet+ 2層Bi-LSTM
    • 解碼模塊:單層 注意力機(jī)制的GRU
    • 中間語義模塊:根據(jù)文字視覺信息預(yù)測語義信息
  2. train:利用外部數(shù)據(jù)集訓(xùn)練(SynthText + Synth90K)
  3. loss: OCR識別損失+語義損失
    • 語義損失由真實(shí)和預(yù)測的語義特征向量間的余弦距離計算得到
  4. 優(yōu)勢
    • 通過語義損失的監(jiān)督,編碼模塊能產(chǎn)生與文字解碼更相關(guān)的視覺特征
    • TVS為直接由文字圖像的視覺特性獲得語義表示提供可能。
  1. 整網(wǎng)中推理,OCR token details(n個文本框):
    • :? TVS的視覺特征
    • : FastText文本特征
    • : Faster RCNN特征
    • :? Pyramidal Histogram of Characters(PHOC)特征
    • :? 4維的位置bounding box特征
    • 融合方式:

??4.3 Architectural Details—— 語義導(dǎo)向的物體表征 SEO-FRCN(Visual增強(qiáng))

?

  • method:傳統(tǒng)的Faster RCNN,在解碼環(huán)節(jié)增加一個分支來 預(yù)測物體類別的embedding
    • 物體類別embedding的gt 時物體類別名稱的語義特征。
  • train:使用Visual Genome數(shù)據(jù)集,backbone resnet101 預(yù)訓(xùn)練,新分支fine tune
  • loss:RPN loss + 四分支loss

  • 優(yōu)勢:能夠拉近相似物體的圖像相似度(例如 traffic light和traffic sign)
  • 整網(wǎng)中推理,Visual token details(m個物體):
    • :視覺特征
    • 位置特征
    • :預(yù)測的物體類別嵌入向量
    • 特征融合:

? 4.3 Architectural Details——上下文感知的答案修正 CRM (解碼結(jié)果增強(qiáng))

  • method:在推理階段,對于”直接復(fù)制OCR結(jié)果”進(jìn)行改進(jìn)。
    • 如果解碼的輸出指向圖像中的文字,則將它視作一個候選詞,利用輸入的問題、其他文字信息和相關(guān)物體信息進(jìn)行文字修正。
    • 使用多個OCR模塊輸出多個預(yù)測結(jié)果作為候選集,選出得分最高的結(jié)果作為最后的輸出。
    • 組成:Transformer進(jìn)行上下文信息融合 + linear&sigmoid 二分類器
  • training:如果候選集的結(jié)果與gt相同則為1,不同則為0,構(gòu)建訓(xùn)練數(shù)據(jù)。二分類預(yù)測一個相關(guān)分?jǐn)?shù),最小化交叉熵?fù)p失進(jìn)行訓(xùn)練。

?五、Experiment

?

?六、結(jié)論?

  1. 將OCR融入TextVQA的前向處理流程,構(gòu)建了一個魯棒且準(zhǔn)確的TextVQA模型

參考博客

[1] https://zhuanlan.zhihu.com/p/250951251
[2] https://mp.weixin.qq.com/s/s7EP8ZiB_0UAv0M4VDhNGA

?

?

E-mail:hithongming@163.com

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/125370.html

相關(guān)文章

  • 深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎?

    摘要:因為深度學(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)任何一層的微分都是公平的,那么或許我們應(yīng)該使用存儲多種變體的復(fù)分析。 深度學(xué)習(xí)只能使用實(shí)數(shù)嗎?本文簡要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究,并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)...

    qianfeng 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<