摘要:實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè),從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長(zhǎng)度就了那不是只要包含新聞?wù)牟痪秃昧恕?/p>
《Web Content Extraction Using Clustering with Web Structure》簡(jiǎn)介
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學(xué) 2017年 ISNN會(huì)議論文
該文章中文簡(jiǎn)稱為基于WEB結(jié)構(gòu)的聚類Web內(nèi)容提取,我在通讀全文后發(fā)現(xiàn),作者給聚類這件事的筆墨并不多,占文章篇幅更多的是如何比較網(wǎng)頁(yè)之間的相似性,聚類只是之后處理的一種手段。
該文章提出了一種內(nèi)容提取算法,如下
從不同網(wǎng)站中收集網(wǎng)頁(yè)進(jìn)行聚類
將網(wǎng)頁(yè)解析成DOM樹
根據(jù)節(jié)點(diǎn)的位置和相同深度的節(jié)點(diǎn)數(shù)量以及DOM樹的深度分配權(quán)重
根據(jù)給定的公式計(jì)算兩個(gè)頁(yè)面之間的相似度
從聚類得到的同一組頁(yè)面中,刪除相同的頁(yè)面部分,剩余的便是WEB內(nèi)容。
聚類算法K-means 需要在一開始時(shí)便分配聚簇?cái)?shù)量,因此不適用
Canopy 聚類算法(一個(gè)快速,簡(jiǎn)單,但沒有那么精確的算法,算法簡(jiǎn)介參考這篇文章)
作者最終選擇了Canopy算法,因?yàn)樵撍惴ㄟ壿嫼?jiǎn)單,易于收斂,不過(guò)作者沒有給出Canopy算法中的T1和T2是如何取的,應(yīng)該也知道這一塊會(huì)被編輯詬病吧。
網(wǎng)頁(yè)結(jié)構(gòu)相似度量方法這一塊就是全文的重點(diǎn)了,聚類只是用來(lái)獲得與目標(biāo)頁(yè)面相似的一些頁(yè)面,便于第二步刪除相似部分(如頂欄/側(cè)欄/廣告)。
首先來(lái)看一下最簡(jiǎn)單的一個(gè)分配權(quán)重和比較相似度的方法:
假設(shè)整個(gè)DOM樹的權(quán)重為1,深度為1的節(jié)點(diǎn)數(shù)量為N,因此,每個(gè)節(jié)點(diǎn)得到的權(quán)重為1 / N;
將節(jié)點(diǎn)獲得的權(quán)重平均分配給他的子節(jié)點(diǎn)。
迭代地分配權(quán)重到達(dá)葉節(jié)點(diǎn)。
對(duì)于葉節(jié)點(diǎn)x和y,如果x等于y,則x和y的相似度是它們得到的權(quán)重,否則,相似性為0.對(duì)于非葉節(jié)點(diǎn)x和y,如果x等于y,相似度是其子節(jié)點(diǎn)相似度的總和,如果不相似,則相似度為0。
定義:對(duì)于非葉節(jié)點(diǎn)x和y,如果標(biāo)記名,元素集值和兩個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)相同,則 x = y
兩個(gè)DOM樹的相似性等于其根節(jié)點(diǎn)的相似性。
這個(gè)算法會(huì)遇到一種情況,就是在兩個(gè)比較的dom樹中,當(dāng)b和c分支都被判定相同,而a分支被判定不同(也就是說(shuō)兩個(gè)網(wǎng)頁(yè)除了頂部欄之外其他都一樣),兩個(gè)網(wǎng)頁(yè)的相似度就會(huì)足夠的大,而被判定為相似的頁(yè)面(嗯?難道不是嗎?)
于是,作者提出了基于權(quán)重動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)相似性測(cè)量方法(SMDPW)
作者發(fā)現(xiàn)靜態(tài)區(qū)域始終位于頁(yè)面的頂部和底部,而內(nèi)容區(qū)域始終位于中心。換句話說(shuō),區(qū)域越靠近頁(yè)面的末端,它就越可能是靜態(tài)區(qū)域。因此,權(quán)重通過(guò)動(dòng)態(tài)編程分配,越接近區(qū)域所在頁(yè)面的末端,權(quán)重越大。此分布策略僅適用于深度為1的節(jié)點(diǎn)。其他節(jié)點(diǎn)獲得的權(quán)重是通過(guò)平均分配其父節(jié)點(diǎn)的權(quán)重來(lái)計(jì)算的。(蛤?這不合理吧,那a的權(quán)重不就偏大了,你把b的權(quán)重調(diào)大我都能接受啊)
提取內(nèi)容emmm,作者只用了一小段文字描述,反正就是在找到相似的頁(yè)面的基礎(chǔ)上,沿著DOM樹進(jìn)行對(duì)比,刪除相同的或者相似度高的內(nèi)容,剩下的就是data了。
實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè),從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面(???這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧)
結(jié)果與驗(yàn)證
what? 這?這?這? 比較文本長(zhǎng)度就OK了? 那不是只要包含新聞?wù)牟痪秃昧恕?/em>
算法對(duì)比說(shuō)好的中文網(wǎng)頁(yè)呢……難道是CNN中文網(wǎng)?
總結(jié)實(shí)在有好多槽點(diǎn)想吐一吐,算了,人家畢竟是985發(fā)表的ISNN會(huì)議文章,尊重作者吧。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/96723.html
摘要:分塊效果如圖所示聚類由于不同網(wǎng)頁(yè)之間設(shè)計(jì)和布局存在較大差異,作者選擇了作為聚類算法來(lái)解決簇?cái)?shù)目未知簇形狀未知噪聲等問題未給出距離函數(shù)。 《Web Content Extraction Through Machine Learning》 通過(guò)機(jī)器學(xué)習(xí)來(lái)提取網(wǎng)頁(yè)內(nèi)容 2014年,未見期刊會(huì)議上登載,作者 Ziyan Zhou @stanford.edu 簡(jiǎn)介 數(shù)據(jù)集 以新聞文章網(wǎng)站為主數(shù)...
摘要:第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外,第三階段設(shè)置多個(gè)連接層以過(guò)濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測(cè)的標(biāo)準(zhǔn),如果,則數(shù)據(jù)區(qū)域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學(xué) 2017 AIHC會(huì)議登載引用 Liu J, Li...
摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...
摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...
閱讀 2847·2021-09-27 13:35
閱讀 624·2021-09-23 11:22
閱讀 2892·2019-08-30 15:54
閱讀 1612·2019-08-29 16:27
閱讀 2468·2019-08-29 15:05
閱讀 2350·2019-08-23 18:11
閱讀 3523·2019-08-23 16:32
閱讀 2941·2019-08-23 14:56