[論文簡讀] Deep Neural Networks for Web Page Informati

xiangzhihong 發(fā)布于2019-07-30 16:58 / 946人閱讀

摘要：將候選框的坐標投影到最終的特征張量，并使用提取結(jié)果向量。最后，使用的線性模型將向量分類為預(yù)定義的類。

[論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進行網(wǎng)頁信息提取 簡單介紹

本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器（wrapper）

本文的幾個貢獻
o 提出了一種將數(shù)據(jù)從web渲染引擎編碼到深層神經(jīng)網(wǎng)絡(luò)的方法，即文本的空間編碼方法
o 測試了該方法，并驗證了其在非通用網(wǎng)站上提取信息的可行性
o 公開了數(shù)據(jù)集（暫未公開，從代碼上看也是自己去找適合的網(wǎng)頁爬下來的）、源碼和最終模型

基本流程 1. 利用web引擎進行渲染，保存截圖（視覺信息）以及DOM樹（編碼信息） 2. 使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測候選元素是否是目標元素

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)框架采用了Caffe作為模型訓練框架

預(yù)處理

從DOM樹中提取所有的節(jié)點以及其位置，以矩形框表示，使用其文本作為文本輸入, 葉節(jié)點作為候選輸入，然后使用卷積神經(jīng)網(wǎng)絡(luò)來處理視覺信息和文本信息，得到一個預(yù)測概率P

空間文本編碼

網(wǎng)絡(luò)架構(gòu)

o Screenshot 屏幕截圖由三個卷積層處理(前兩層用來自BVLC?AlexNet的預(yù)先訓練的權(quán)重初始化)
o TextMap 的張量尺寸為128x160x160
o Candidates 候選列表

過程：視覺特征提取，然后與文本特征(中間)結(jié)合。?將候選框的坐標投影到最終的特征張量，并使用ROI?MaxPool-ing提取結(jié)果向量。?最后，使用softmax的線性模型將向量分類為預(yù)定義的類。

實例

云服務(wù)器 GPU云服務(wù)器 deep-neural-network ht-for-web Neural deep

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/41929.html

發(fā)表評論

登陸后可評論

0條評論

xiangzhihong

男|高級講師

我要關(guān)注我要私信

TA的文章

OAuth 2.1 帶來了哪些變化

閱讀 2793·2021-11-24 09:39
JDK,JRE,JVM三者間的關(guān)系，以及JDK、JRE的主要結(jié)構(gòu)

閱讀 2553·2021-11-23 09:51
PerfDog性能狗上手體驗及總結(jié)分析

閱讀 1838·2021-11-17 09:33
HostXen雙十一充300送50元/充500送100元/充1000元全場9折,香港2G內(nèi)存VPS月

閱讀 1744·2021-10-22 09:54
搬瓦工VPS：高端線路，助力企業(yè)運營，10Gbps美國 cn2 gia，1Gbps香港cn2 gia

閱讀 1878·2021-08-16 11:00
你可能不了解的動畫神器之requestAnimationFrame及其兼容寫法

閱讀 3428·2019-08-30 15:53
我的CSS Flex印象

閱讀 1737·2019-08-30 13:19
盒子模型的理解

閱讀 2908·2019-08-30 12:49

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

[論文簡讀] Deep Neural Networks for Web Page Informati

相關(guān)文章