摘要:用戶確認后存儲。詳情文本類子元素最多的元素,且頁面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區域等。在使用時轉回顯示。
列表頁解析 列表定位
同性質子元素排序
元素面積排序
用戶確認區域后元素xpath并存儲
分頁按鈕定位不包含子元素且文字包含“下一頁,點擊查看更多”等文字的標簽。
調用dom.click()方法自動進入下一頁,或者提取鏈接,存儲xpath
列表項解析標題解析:列表項中字體權重最大的標簽為標題。用戶確認后存儲xpath。
詳情鏈接提取:標題往上找到a標簽。解析后存儲xpath
封面解析:列表項中面積最大的圖片。存儲xpath
詳情頁解析 內容識別標題:標題使用列表項的標題即可。
詳情:文本類子元素最多的元素,且頁面面積占用最大。存儲xpath。
時間解析:正則匹配時間即可,匹配到之后嘗試緩存xpath。
來源解析:正則匹配即可,同上。
后處理詳情:希望保留詳情的一些排版,比如代碼塊,高亮區域等。將HTML轉為Markdown即可。在使用時轉回HTML顯示。
時間:使用dateparser將時間轉為ISO8601標準時間或者時間戳即可。
存儲:建議存儲至MongoDB,無需提前定義表結構。
上述方案兼容90%的標準網站,比如拉鉤,京東,segmentfault,v2ex,58同城等等。
DEMO已經開發完畢,交流討論或者商業合作請發站內信。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/45078.html
摘要:用戶確認后存儲。詳情文本類子元素最多的元素,且頁面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區域等。在使用時轉回顯示。 列表頁解析 showImg(https://segmentfault.com/img/bVbuH5K?w=1774&h=1532); 列表定位 同性質子元素排序 元素面積排序 用戶確認區域后元素xpath并存儲 分頁按鈕定位 不包含子元素且...
摘要:歡迎來我的個人站點性能優化其他優化瀏覽器關鍵渲染路徑開啟性能優化之旅高性能滾動及頁面渲染優化理論寫法對壓縮率的影響唯快不破應用的個優化步驟進階鵝廠大神用直出實現網頁瞬開緩存網頁性能管理詳解寫給后端程序員的緩存原理介紹年底補課緩存機制優化動 歡迎來我的個人站點 性能優化 其他 優化瀏覽器關鍵渲染路徑 - 開啟性能優化之旅 高性能滾動 scroll 及頁面渲染優化 理論 | HTML寫法...
摘要:我最開始學習編程的時候也是如此,摸索了非常久的時間,才慢慢找到自己高效學習方法。被動的學習方式聽講閱讀視聽演示,只能讓你做到內容留存率的和的知識。而主動的學習方式,如通過討論實踐教授給他人,會將原來被動學習的內容留存率從提升到和。 showImg(https://segmentfault.com/img/remote/1460000016856679); 閱讀文本大概需要 7 分鐘。 ...
閱讀 704·2021-11-22 13:54
閱讀 3065·2021-09-26 10:16
閱讀 3490·2021-09-08 09:35
閱讀 1576·2019-08-30 15:55
閱讀 3429·2019-08-30 15:54
閱讀 2076·2019-08-30 10:57
閱讀 497·2019-08-29 16:25
閱讀 877·2019-08-29 16:15