摘要:第一階段設置卷積層和匯集層以學習圖像的特征。除了為輸出設置最后一個完全連接之外,第三階段設置多個連接層以過濾先前層學習的特征。據區域檢測的標準,如果,則數據區域被視為正樣本。
《Deep web data extraction based on visual information processing》簡介
作者 J Liu 上海海事大學 2017 AIHC會議登載
引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.
一種基于卷積神經網絡(CNN)的數據區域定位方法
結合視覺信息進行網頁的分割(作者命名為VIBS)
CNN網絡結構由3個階段組成,如圖所示 。第一階段設置卷積層和匯集層以學習圖像的特征。第二階段是設置展平圖層所必需的,展平圖層會將卷積圖層和合并圖層生成的特征圖轉換為一維矢量,以計算完整的連接圖層。除了為輸出設置最后一個完全連接之外,第三階段設置多個連接層以過濾先前層學習的特征。
網絡架構設計使用13級CNN,包括5個采樣層(S),6個卷積層(C)和2個完全連接層。
據區域檢測的標準IOU,如果IOU ?> 50%,則數據區域被視為正樣本。
區域定位主要步驟流程圖如下
2、基于視覺信息的網頁分割方法 VIBS 3、實驗結果和分析 數據集(Lianjia、Complanet、Fangjia)58,500個樣本數據集,其中有195種具有不同大小和不同位置的圖像樣本,包含數據區域,總共300個組。
實驗結果 總結總體看下來,文章的創新意義大于實際意義吧,這么高的精確度,感覺像是過擬合了,而且速度不可能這么快,應該是把網頁先行保存成圖片了的,文章寫得很不錯,對比什么的體系也比較完善,就是有些地方沒有講清楚,比如能否divide的判定等。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/96637.html
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹 本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹 本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
摘要:實驗結果實驗數據集數據集都是新聞類網頁,從五個中文新聞網站中收集一百個頁面這最多也就五類吧,而且也就五百個,好像有點少了吧結果與驗證性能指標這這這比較文本長度就了那不是只要包含新聞正文不就好了。 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
閱讀 1561·2021-11-24 09:39
閱讀 1042·2021-11-22 15:11
閱讀 2167·2021-11-19 11:35
閱讀 1627·2021-09-13 10:37
閱讀 2453·2021-09-03 10:47
閱讀 2134·2021-08-30 09:47
閱讀 1626·2021-08-20 09:39
閱讀 2901·2019-08-30 14:13