摘要:將候選框的坐標投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。
[論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進行網(wǎng)頁信息提取 簡單介紹
本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper)
本文的幾個貢獻
o 提出了一種將數(shù)據(jù)從web渲染引擎編碼到深層神經(jīng)網(wǎng)絡(luò)的方法,即文本的空間編碼方法
o 測試了該方法,并驗證了其在非通用網(wǎng)站上提取信息的可行性
o 公開了數(shù)據(jù)集(暫未公開,從代碼上看也是自己去找適合的網(wǎng)頁爬下來的)、源碼和最終模型
神經(jīng)網(wǎng)絡(luò)框架采用了Caffe作為模型訓練框架
預(yù)處理從DOM樹中提取所有的節(jié)點以及其位置,以矩形框表示,使用其文本作為文本輸入, 葉節(jié)點作為候選輸入,然后使用卷積神經(jīng)網(wǎng)絡(luò)來處理視覺信息和文本信息,得到一個預(yù)測概率P
空間文本編碼 網(wǎng)絡(luò)架構(gòu)
o Screenshot 屏幕截圖 由三個卷積層處理(前兩層用來自BVLC?AlexNet的預(yù)先訓練的權(quán)重初始化)
o TextMap 的張量尺寸為128x160x160
o Candidates 候選列表
過程:視覺特征提取,然后與文本特征(中間)結(jié)合。?將候選框的坐標投影到最終的特征張量,并使用ROI?MaxPool-ing提取結(jié)果向量。?最后,使用softmax的線性模型將向量分類為預(yù)定義的類。
實例文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/41929.html
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進行網(wǎng)頁信息提取 簡單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
摘要:實驗結(jié)果實驗數(shù)據(jù)集數(shù)據(jù)集都是新聞類網(wǎng)頁,從五個中文新聞網(wǎng)站中收集一百個頁面這最多也就五類吧,而且也就五百個,好像有點少了吧結(jié)果與驗證性能指標這這這比較文本長度就了那不是只要包含新聞?wù)牟痪秃昧恕? 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
摘要:對于大多數(shù)想上手深度學習的小伙伴來說,我應(yīng)當從那篇論文開始讀起這是一個亙古不變的話題。接下來的論文將帶你深入理解深度學習方法深度學習在前沿領(lǐng)域的不同應(yīng)用。 對于大多數(shù)想上手深度學習的小伙伴來說,我應(yīng)當從那篇論文開始讀起?這是一個亙古不變的話題。而對那些已經(jīng)入門的同學來說,了解一下不同方向的論文,也是不時之需。有沒有一份完整的深度學習論文導(dǎo)引,讓所有人都可以在里面找到想要的內(nèi)容呢?有!今天就給...
摘要:第一階段設(shè)置卷積層和匯集層以學習圖像的特征。除了為輸出設(shè)置最后一個完全連接之外,第三階段設(shè)置多個連接層以過濾先前層學習的特征。據(jù)區(qū)域檢測的標準,如果,則數(shù)據(jù)區(qū)域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學 2017 AIHC會議登載引用 Liu J, Li...
閱讀 2793·2021-11-24 09:39
閱讀 2553·2021-11-23 09:51
閱讀 1838·2021-11-17 09:33
閱讀 1744·2021-10-22 09:54
閱讀 1878·2021-08-16 11:00
閱讀 3428·2019-08-30 15:53
閱讀 1737·2019-08-30 13:19
閱讀 2908·2019-08-30 12:49