国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[論文簡(jiǎn)讀] Web Content Extraction Using Clustering

levinit / 1646人閱讀

摘要:實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè),從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長(zhǎng)度就了那不是只要包含新聞?wù)牟痪秃昧恕?/p>

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學(xué) 2017年 ISNN會(huì)議論文
簡(jiǎn)介

該文章中文簡(jiǎn)稱為基于WEB結(jié)構(gòu)的聚類Web內(nèi)容提取,我在通讀全文后發(fā)現(xiàn),作者給聚類這件事的筆墨并不多,占文章篇幅更多的是如何比較網(wǎng)頁(yè)之間的相似性,聚類只是之后處理的一種手段。
該文章提出了一種內(nèi)容提取算法,如下

從不同網(wǎng)站中收集網(wǎng)頁(yè)進(jìn)行聚類

將網(wǎng)頁(yè)解析成DOM樹

根據(jù)節(jié)點(diǎn)的位置和相同深度的節(jié)點(diǎn)數(shù)量以及DOM樹的深度分配權(quán)重

根據(jù)給定的公式計(jì)算兩個(gè)頁(yè)面之間的相似度

從聚類得到的同一組頁(yè)面中,刪除相同的頁(yè)面部分,剩余的便是WEB內(nèi)容。

聚類算法

K-means 需要在一開始時(shí)便分配聚簇?cái)?shù)量,因此不適用
Canopy 聚類算法(一個(gè)快速,簡(jiǎn)單,但沒有那么精確的算法,算法簡(jiǎn)介參考這篇文章)

作者最終選擇了Canopy算法,因?yàn)樵撍惴ㄟ壿嫼?jiǎn)單,易于收斂,不過(guò)作者沒有給出Canopy算法中的T1和T2是如何取的,應(yīng)該也知道這一塊會(huì)被編輯詬病吧。

網(wǎng)頁(yè)結(jié)構(gòu)相似度量方法

這一塊就是全文的重點(diǎn)了,聚類只是用來(lái)獲得與目標(biāo)頁(yè)面相似的一些頁(yè)面,便于第二步刪除相似部分(如頂欄/側(cè)欄/廣告)。

首先來(lái)看一下最簡(jiǎn)單的一個(gè)分配權(quán)重和比較相似度的方法:

假設(shè)整個(gè)DOM樹的權(quán)重為1,深度為1的節(jié)點(diǎn)數(shù)量為N,因此,每個(gè)節(jié)點(diǎn)得到的權(quán)重為1 / N;

將節(jié)點(diǎn)獲得的權(quán)重平均分配給他的子節(jié)點(diǎn)。

迭代地分配權(quán)重到達(dá)葉節(jié)點(diǎn)。

對(duì)于葉節(jié)點(diǎn)x和y,如果x等于y,則x和y的相似度是它們得到的權(quán)重,否則,相似性為0.對(duì)于非葉節(jié)點(diǎn)x和y,如果x等于y,相似度是其子節(jié)點(diǎn)相似度的總和,如果不相似,則相似度為0。
定義:對(duì)于非葉節(jié)點(diǎn)x和y,如果標(biāo)記名,元素集值和兩個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)相同,則 x = y

兩個(gè)DOM樹的相似性等于其根節(jié)點(diǎn)的相似性。

這個(gè)算法會(huì)遇到一種情況,就是在兩個(gè)比較的dom樹中,當(dāng)b和c分支都被判定相同,而a分支被判定不同(也就是說(shuō)兩個(gè)網(wǎng)頁(yè)除了頂部欄之外其他都一樣),兩個(gè)網(wǎng)頁(yè)的相似度就會(huì)足夠的大,而被判定為相似的頁(yè)面(嗯?難道不是嗎?)

于是,作者提出了基于權(quán)重動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)相似性測(cè)量方法(SMDPW)

作者發(fā)現(xiàn)靜態(tài)區(qū)域始終位于頁(yè)面的頂部和底部,而內(nèi)容區(qū)域始終位于中心。換句話說(shuō),區(qū)域越靠近頁(yè)面的末端,它就越可能是靜態(tài)區(qū)域。因此,權(quán)重通過(guò)動(dòng)態(tài)編程分配,越接近區(qū)域所在頁(yè)面的末端,權(quán)重越大。此分布策略僅適用于深度為1的節(jié)點(diǎn)。其他節(jié)點(diǎn)獲得的權(quán)重是通過(guò)平均分配其父節(jié)點(diǎn)的權(quán)重來(lái)計(jì)算的。(蛤?這不合理吧,那a的權(quán)重不就偏大了,你把b的權(quán)重調(diào)大我都能接受啊)

提取內(nèi)容

emmm,作者只用了一小段文字描述,反正就是在找到相似的頁(yè)面的基礎(chǔ)上,沿著DOM樹進(jìn)行對(duì)比,刪除相同的或者相似度高的內(nèi)容,剩下的就是data了。

實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè),從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面(???這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧)
結(jié)果與驗(yàn)證

性能指標(biāo)

what? 這?這?這? 比較文本長(zhǎng)度就OK了? 那不是只要包含新聞?wù)牟痪秃昧恕?/em>

算法對(duì)比

說(shuō)好的中文網(wǎng)頁(yè)呢……難道是CNN中文網(wǎng)?

總結(jié)

實(shí)在有好多槽點(diǎn)想吐一吐,算了,人家畢竟是985發(fā)表的ISNN會(huì)議文章,尊重作者吧。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/96723.html

相關(guān)文章

  • [論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear

    摘要:分塊效果如圖所示聚類由于不同網(wǎng)頁(yè)之間設(shè)計(jì)和布局存在較大差異,作者選擇了作為聚類算法來(lái)解決簇?cái)?shù)目未知簇形狀未知噪聲等問題未給出距離函數(shù)。 《Web Content Extraction Through Machine Learning》 通過(guò)機(jī)器學(xué)習(xí)來(lái)提取網(wǎng)頁(yè)內(nèi)容 2014年,未見期刊會(huì)議上登載,作者 Ziyan Zhou @stanford.edu 簡(jiǎn)介 數(shù)據(jù)集 以新聞文章網(wǎng)站為主數(shù)...

    leonardofed 評(píng)論0 收藏0
  • 論文簡(jiǎn)讀】 Deep web data extraction based on visual

    摘要:第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外,第三階段設(shè)置多個(gè)連接層以過(guò)濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測(cè)的標(biāo)準(zhǔn),如果,則數(shù)據(jù)區(qū)域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學(xué) 2017 AIHC會(huì)議登載引用 Liu J, Li...

    shiguibiao 評(píng)論0 收藏0
  • [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati

    摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...

    kel 評(píng)論0 收藏0
  • [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati

    摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...

    xiangzhihong 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<