[論文簡(jiǎn)讀] Web Content Extraction Using Clustering

levinit 發(fā)布于2019-08-23 10:49 / 1646人閱讀

摘要：實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè)，從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面這最多也就五類吧，而且也就五百個(gè)，好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長(zhǎng)度就了那不是只要包含新聞?wù)牟痪秃昧恕?/p>

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學(xué) 2017年 ISNN會(huì)議論文

簡(jiǎn)介

該文章中文簡(jiǎn)稱為基于WEB結(jié)構(gòu)的聚類Web內(nèi)容提取，我在通讀全文后發(fā)現(xiàn)，作者給聚類這件事的筆墨并不多，占文章篇幅更多的是如何比較網(wǎng)頁(yè)之間的相似性，聚類只是之后處理的一種手段。
該文章提出了一種內(nèi)容提取算法，如下

從不同網(wǎng)站中收集網(wǎng)頁(yè)進(jìn)行聚類

將網(wǎng)頁(yè)解析成DOM樹

根據(jù)節(jié)點(diǎn)的位置和相同深度的節(jié)點(diǎn)數(shù)量以及DOM樹的深度分配權(quán)重

根據(jù)給定的公式計(jì)算兩個(gè)頁(yè)面之間的相似度

從聚類得到的同一組頁(yè)面中，刪除相同的頁(yè)面部分，剩余的便是WEB內(nèi)容。

聚類算法

K-means 需要在一開始時(shí)便分配聚簇?cái)?shù)量，因此不適用
Canopy 聚類算法（一個(gè)快速，簡(jiǎn)單，但沒有那么精確的算法，算法簡(jiǎn)介參考這篇文章）

作者最終選擇了Canopy算法，因?yàn)樵撍惴ㄟ壿嫼?jiǎn)單，易于收斂，不過(guò)作者沒有給出Canopy算法中的T1和T2是如何取的，應(yīng)該也知道這一塊會(huì)被編輯詬病吧。

網(wǎng)頁(yè)結(jié)構(gòu)相似度量方法

這一塊就是全文的重點(diǎn)了，聚類只是用來(lái)獲得與目標(biāo)頁(yè)面相似的一些頁(yè)面，便于第二步刪除相似部分（如頂欄/側(cè)欄/廣告）。

首先來(lái)看一下最簡(jiǎn)單的一個(gè)分配權(quán)重和比較相似度的方法：

假設(shè)整個(gè)DOM樹的權(quán)重為1，深度為1的節(jié)點(diǎn)數(shù)量為N，因此，每個(gè)節(jié)點(diǎn)得到的權(quán)重為1 / N;

將節(jié)點(diǎn)獲得的權(quán)重平均分配給他的子節(jié)點(diǎn)。

迭代地分配權(quán)重到達(dá)葉節(jié)點(diǎn)。

對(duì)于葉節(jié)點(diǎn)x和y，如果x等于y，則x和y的相似度是它們得到的權(quán)重，否則，相似性為0.對(duì)于非葉節(jié)點(diǎn)x和y，如果x等于y，相似度是其子節(jié)點(diǎn)相似度的總和，如果不相似，則相似度為0。
定義：對(duì)于非葉節(jié)點(diǎn)x和y，如果標(biāo)記名，元素集值和兩個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)相同，則 x = y

兩個(gè)DOM樹的相似性等于其根節(jié)點(diǎn)的相似性。

這個(gè)算法會(huì)遇到一種情況，就是在兩個(gè)比較的dom樹中，當(dāng)b和c分支都被判定相同，而a分支被判定不同（也就是說(shuō)兩個(gè)網(wǎng)頁(yè)除了頂部欄之外其他都一樣），兩個(gè)網(wǎng)頁(yè)的相似度就會(huì)足夠的大，而被判定為相似的頁(yè)面（嗯？難道不是嗎？）

于是，作者提出了基于權(quán)重動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)相似性測(cè)量方法（SMDPW）

作者發(fā)現(xiàn)靜態(tài)區(qū)域始終位于頁(yè)面的頂部和底部，而內(nèi)容區(qū)域始終位于中心。換句話說(shuō)，區(qū)域越靠近頁(yè)面的末端，它就越可能是靜態(tài)區(qū)域。因此，權(quán)重通過(guò)動(dòng)態(tài)編程分配，越接近區(qū)域所在頁(yè)面的末端，權(quán)重越大。此分布策略僅適用于深度為1的節(jié)點(diǎn)。其他節(jié)點(diǎn)獲得的權(quán)重是通過(guò)平均分配其父節(jié)點(diǎn)的權(quán)重來(lái)計(jì)算的。（蛤？這不合理吧，那a的權(quán)重不就偏大了，你把b的權(quán)重調(diào)大我都能接受啊）

提取內(nèi)容

emmm，作者只用了一小段文字描述，反正就是在找到相似的頁(yè)面的基礎(chǔ)上，沿著DOM樹進(jìn)行對(duì)比，刪除相同的或者相似度高的內(nèi)容，剩下的就是data了。

實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè)，從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面（？？？這最多也就五類吧，而且也就五百個(gè)，好像有點(diǎn)少了吧）
結(jié)果與驗(yàn)證

性能指標(biāo)

what？這？這？這？比較文本長(zhǎng)度就OK了？那不是只要包含新聞?wù)牟痪秃昧恕?/em>

算法對(duì)比

說(shuō)好的中文網(wǎng)頁(yè)呢……難道是CNN中文網(wǎng)？
總結(jié)
實(shí)在有好多槽點(diǎn)想吐一吐，算了，人家畢竟是985發(fā)表的ISNN會(huì)議文章，尊重作者吧。

云服務(wù)器 GPU云服務(wù)器 Extraction Clustering using using_namespace_std

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/96723.html

上一篇：摸索 JS 內(nèi)深拷貝的最佳實(shí)踐

下一篇：麻煩把JS的事件環(huán)給我安排一下！！！

相關(guān)文章

[論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear

摘要：分塊效果如圖所示聚類由于不同網(wǎng)頁(yè)之間設(shè)計(jì)和布局存在較大差異，作者選擇了作為聚類算法來(lái)解決簇?cái)?shù)目未知簇形狀未知噪聲等問題未給出距離函數(shù)。《Web Content Extraction Through Machine Learning》通過(guò)機(jī)器學(xué)習(xí)來(lái)提取網(wǎng)頁(yè)內(nèi)容 2014年，未見期刊會(huì)議上登載，作者 Ziyan Zhou @stanford.edu 簡(jiǎn)介數(shù)據(jù)集以新聞文章網(wǎng)站為主數(shù)...

leonardofed 2019-08-23 10:38 評(píng)論0 收藏0

【論文簡(jiǎn)讀】 Deep web data extraction based on visual

摘要：第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外，第三階段設(shè)置多個(gè)連接層以過(guò)濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測(cè)的標(biāo)準(zhǔn)，如果，則數(shù)據(jù)區(qū)域被視為正樣本。《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學(xué) 2017 AIHC會(huì)議登載引用 Liu J, Li...

shiguibiao 2019-08-23 10:44 評(píng)論0 收藏0

[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標(biāo)投影到最終的特征張量，并使用提取結(jié)果向量。最后，使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取簡(jiǎn)單介紹本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器（wrapper）本文的幾個(gè)貢獻(xiàn)o 提出...

kel 2019-08-22 18:30 評(píng)論0 收藏0

[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標(biāo)投影到最終的特征張量，并使用提取結(jié)果向量。最后，使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取簡(jiǎn)單介紹本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器（wrapper）本文的幾個(gè)貢獻(xiàn)o 提出...

xiangzhihong 2019-07-30 16:58 評(píng)論0 收藏0

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

levinit

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章
閱讀更多

樹莓派學(xué)習(xí)筆記（五）串口通信

閱讀 2847·2021-09-27 13:35

谷歌冷門功能“書簽”將于 9 月 30 日停用，瀏覽器和地圖不受影響

閱讀 624·2021-09-23 11:22

css繪制各種各樣的形狀圖形

閱讀 2892·2019-08-30 15:54

五分鐘用CSS創(chuàng)造一只萌萌噠的大熊貓

閱讀 1612·2019-08-29 16:27

css3媒體查詢

閱讀 2468·2019-08-29 15:05

webpack4.x升級(jí)摘要

閱讀 2350·2019-08-23 18:11

vue + iview table和多選同時(shí)用時(shí)重新給table的data賦值，此時(shí)賦值若為空則會(huì)報(bào)

閱讀 3523·2019-08-23 16:32

JavaScript基礎(chǔ)總結(jié)（一）

閱讀 2941·2019-08-23 14:56

最新活動(dòng)

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[論文簡(jiǎn)讀] Web Content Extraction Using Clustering

相關(guān)文章

**[論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear**

**【論文簡(jiǎn)讀】 Deep web data extraction based on visual**

**[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati**

**[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati**

發(fā)表評(píng)論

0條評(píng)論

levinit

男|高級(jí)講師

TA的文章

樹莓派學(xué)習(xí)筆記（五）串口通信

谷歌冷門功能“書簽”將于 9 月 30 日停用，瀏覽器和地圖不受影響

css繪制各種各樣的形狀圖形

五分鐘用CSS創(chuàng)造一只萌萌噠的大熊貓

css3媒體查詢

webpack4.x升級(jí)摘要

vue + iview table和多選同時(shí)用時(shí)重新給table的data賦值，此時(shí)賦值若為空則會(huì)報(bào)

JavaScript基礎(chǔ)總結(jié)（一）

最新活動(dòng)