摘要:分塊效果如圖所示聚類由于不同網頁之間設計和布局存在較大差異,作者選擇了作為聚類算法來解決簇數目未知簇形狀未知噪聲等問題未給出距離函數。
《Web Content Extraction Through Machine Learning》 通過機器學習來提取網頁內容簡介 數據集
2014年,未見期刊會議上登載,作者 Ziyan Zhou @stanford.edu
以新聞文章網站為主
數據集鏈接 https://github.com/ziyan/spid...
本文采用了phantom.js作為headless webkit browser(無頭瀏覽器,現在有更好的方法了,比如puppeteer.js)
對于每一個包含文本的DOM元素,算法會找到它最近的父元素標記為塊。
遺憾的是,作者對一些噪音數據的處理沒有詳細地進行解釋。
分塊效果如圖所示
由于不同網頁之間設計和布局存在較大差異,作者選擇了DBSCAN作為聚類算法來解決簇數目未知/簇形狀未知/噪聲等問題(未給出距離函數)。
DBSCAN 密度聚類算法 大致原理就是選擇一個樣本節點,聚集所有密度可達的樣本形成一個類,相比k-means聚類算法而言更適用于稠密的數據庫,想要詳細了解的可以點擊這里尋找內容塊
通過與標題簡介等meta信息對比文本間的差異(最長公共子序列LCS算法),來評估每一個集群與描述之間的相似性。
分類支持向量機SVM與交叉驗證
特征選擇以下特征效果依次遞增
文本長度
標簽路徑
CSS選擇器
CSS屬性
總結
emmm,有點淺了,數據集太少,而且針對性也太強,導致出來的結果很好,但是沒有什么說服力,還是有可以參考的地方的。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/96540.html
摘要:實驗結果實驗數據集數據集都是新聞類網頁,從五個中文新聞網站中收集一百個頁面這最多也就五類吧,而且也就五百個,好像有點少了吧結果與驗證性能指標這這這比較文本長度就了那不是只要包含新聞正文不就好了。 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
摘要:第一階段設置卷積層和匯集層以學習圖像的特征。除了為輸出設置最后一個完全連接之外,第三階段設置多個連接層以過濾先前層學習的特征。據區域檢測的標準,如果,則數據區域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學 2017 AIHC會議登載引用 Liu J, Li...
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹 本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
摘要:將候選框的坐標投影到最終的特征張量,并使用提取結果向量。最后,使用的線性模型將向量分類為預定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經網絡進行網頁信息提取 簡單介紹 本文主要介紹了一種基于神經網絡并結合視覺信息、文本信息的多網站通用包裝器(wrapper) 本文的幾個貢獻o 提出...
閱讀 1376·2021-09-30 09:55
閱讀 1902·2021-08-27 13:10
閱讀 2251·2019-08-29 17:22
閱讀 1303·2019-08-29 16:30
閱讀 3470·2019-08-26 18:37
閱讀 2355·2019-08-26 11:47
閱讀 1167·2019-08-23 14:44
閱讀 1745·2019-08-23 13:46