網(wǎng)絡(luò)爬蟲之html2md

Aldous 發(fā)布于2019-08-23 11:51 / 2803人閱讀

摘要：前言上周利用爬取的網(wǎng)絡(luò)文章，一直未能利用實現(xiàn)轉(zhuǎn)化，整整一周時間才得以解決。實現(xiàn)為何突然會選擇來實現(xiàn)，剛好最近在看書籍，里面有提到爬蟲，解析爬取的內(nèi)容，書中提到利用模塊，遂果斷瀏覽其文檔，其實就是的翻版，這下可方便了，心中大喜。

前言

上周利用java爬取的網(wǎng)絡(luò)文章，一直未能利用java實現(xiàn)html轉(zhuǎn)化md，整整一周時間才得以解決。

雖然本人的博客文章數(shù)量不多，但是絕不齒于手動轉(zhuǎn)換，畢竟手動轉(zhuǎn)換浪費時間，把那些時間用來做些別的也是好的。

設(shè)計思路 Java實現(xiàn)

一開始的思路是想著用java來解析html，想著各種標(biāo)簽解析、符號解析、正則替換等等，決定在github上搜索一波，果然是有前輩實現(xiàn)過，頓時欣喜若狂；

代碼地址

下載后如下圖

可利用htmlToHexoMd方法測試運行

可能作者是在linux服務(wù)器上定義的路徑，我測試的時候一直提示路徑問題，結(jié)果被迫更改轉(zhuǎn)化的路徑代碼，

調(diào)試運行后生成的md文件，本地啟動hexo服務(wù)，上傳剛剛生成md文件，網(wǎng)頁瀏覽，不滿，棄之。

NodeJS實現(xiàn)

為何突然會選擇NodeJS來實現(xiàn)，剛好最近在看node書籍，里面有提到node爬蟲，解析爬取的內(nèi)容，書中提到利用cheerio模塊，遂果斷瀏覽其api文檔，cheerio其實就是jquery的翻版，這下可方便了，心中大喜。

實現(xiàn)思路

實現(xiàn)單個轉(zhuǎn)化

自定義解析

實現(xiàn)批量轉(zhuǎn)化

難點分析

自定義解析是比較頭疼的事情，必須要分析需要轉(zhuǎn)化的html的格式，需要讀取的內(nèi)容，本人對h1,h2,h3,div,img,a標(biāo)簽做了處理，可自行擴展

html解析代碼如下

            if("p" === name){
                if(e_children.type === "text"){
                    if(e.children.length > 1){
                        for(var j=0,c_len=e.children.length;j
結(jié)語
完整代碼請移步至本人的html2md，如果此文章對您有用請不吝star

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/97571.html

發(fā)表評論

登陸后可評論

0條評論

Aldous

男|高級講師

我要關(guān)注我要私信

TA的文章

美妝專題研究報告（合集）

閱讀 1519·2021-11-23 09:51
EasyUi項目《網(wǎng)上書城》之權(quán)限登陸，注冊，左側(cè)樹形菜單

閱讀 3639·2021-09-26 09:46
當(dāng)過服務(wù)員、快遞員，現(xiàn)在年薪30W，歷盡山河叛逆少年終會成長

閱讀 2125·2021-09-22 10:02
前端—初級階段2(5-8)

閱讀 1818·2019-08-30 15:56
css3 響應(yīng)式神器 calc()

閱讀 3319·2019-08-30 12:51
flex布局的溫故學(xué)習(xí)

閱讀 2224·2019-08-30 11:12
z-index與堆疊上下文

閱讀 2060·2019-08-29 13:23
vue 1.x 組件數(shù)據(jù)傳遞

閱讀 2323·2019-08-29 13:16

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

網(wǎng)絡(luò)爬蟲之html2md

相關(guān)文章

【爬蟲工具】下載博客轉(zhuǎn)成Markdown的形式

HTML -> Markdown

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

爬蟲 - 收藏集 - 掘金

發(fā)表評論

0條評論

Aldous

男|高級講師

TA的文章

美妝專題研究報告（合集）

EasyUi項目《網(wǎng)上書城》之權(quán)限登陸，注冊，左側(cè)樹形菜單

當(dāng)過服務(wù)員、快遞員，現(xiàn)在年薪30W，歷盡山河叛逆少年終會成長

前端—初級階段2(5-8)

css3 響應(yīng)式神器 calc()

flex布局的溫故學(xué)習(xí)

z-index與堆疊上下文

vue 1.x 組件數(shù)據(jù)傳遞

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

網(wǎng)絡(luò)爬蟲之html2md

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！