摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。
[論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹
本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper)
本文的幾個貢獻
o 提出了一種將數據從web渲染引擎編碼到深層神經網絡的方法,即文本的空間編碼方法
o 測試了該方法,并驗證了其在非通用網站上提取信息的可行性
o 公開了數據集(暫未公開,從代碼上看也是自己去找適合的網頁爬下來的)、源碼和最終模型
神經網絡框架采用了Caffe作為模型訓練框架
預處理從DOM樹中提取所有的節點以及其位置,以矩形框表示,使用其文本作為文本輸入, 葉節點作為候選輸入,然后使用卷積神經網絡來處理視覺信息和文本信息,得到一個預測概率P
空間文本編碼 網絡架構
o Screenshot 屏幕截圖 由三個卷積層處理(前兩層用來自BVLC?AlexNet的預先訓練的權重初始化)
o TextMap 的張量尺寸為128x160x160
o Candidates 候選列表
過程:視覺特征提取,然后與文本特征(中間)結合。?將候選框的坐標投影到最終的特征張量,并使用ROI?MaxPool-ing提取結果向量。?最后,使用softmax的線性模型將向量分類為預定義的類。
實例文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/95940.html
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹 本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
摘要:實驗結果實驗數據集數據集都是新聞類網頁,從五個中文新聞網站中收集一百個頁面這最多也就五類吧,而且也就五百個,好像有點少了吧結果與驗證性能指標這這這比較文本長度就了那不是只要包含新聞正文不就好了。 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
摘要:對于大多數想上手深度學習的小伙伴來說,我應當從那篇論文開始讀起這是一個亙古不變的話題。接下來的論文將帶你深入理解深度學習方法深度學習在前沿領域的不同應用。 對于大多數想上手深度學習的小伙伴來說,我應當從那篇論文開始讀起?這是一個亙古不變的話題。而對那些已經入門的同學來說,了解一下不同方向的論文,也是不時之需。有沒有一份完整的深度學習論文導引,讓所有人都可以在里面找到想要的內容呢?有!今天就給...
摘要:第一階段設置卷積層和匯集層以學習圖像的特征。除了為輸出設置最后一個完全連接之外,第三階段設置多個連接層以過濾先前層學習的特征。據區域檢測的標準,如果,則數據區域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學 2017 AIHC會議登載引用 Liu J, Li...
閱讀 2676·2023-04-25 20:19
閱讀 1930·2021-11-24 09:38
閱讀 1632·2021-11-16 11:44
閱讀 4341·2021-09-02 15:40
閱讀 1317·2019-08-30 15:55
閱讀 2022·2019-08-30 15:52
閱讀 3759·2019-08-29 17:20
閱讀 2247·2019-08-29 13:48