摘要:前言上周利用爬取的網(wǎng)絡(luò)文章,一直未能利用實現(xiàn)轉(zhuǎn)化,整整一周時間才得以解決。實現(xiàn)為何突然會選擇來實現(xiàn),剛好最近在看書籍,里面有提到爬蟲,解析爬取的內(nèi)容,書中提到利用模塊,遂果斷瀏覽其文檔,其實就是的翻版,這下可方便了,心中大喜。
前言
上周利用java爬取的網(wǎng)絡(luò)文章,一直未能利用java實現(xiàn)html轉(zhuǎn)化md,整整一周時間才得以解決。
雖然本人的博客文章數(shù)量不多,但是絕不齒于手動轉(zhuǎn)換,畢竟手動轉(zhuǎn)換浪費時間,把那些時間用來做些別的也是好的。
設(shè)計思路 Java實現(xiàn)一開始的思路是想著用java來解析html,想著各種標(biāo)簽解析、符號解析、正則替換等等,決定在github上搜索一波,果然是有前輩實現(xiàn)過,頓時欣喜若狂;
代碼地址
下載后如下圖
可利用htmlToHexoMd方法測試運行
可能作者是在linux服務(wù)器上定義的路徑,我測試的時候一直提示路徑問題,結(jié)果被迫更改轉(zhuǎn)化的路徑代碼,
調(diào)試運行后生成的md文件,本地啟動hexo服務(wù),上傳剛剛生成md文件,網(wǎng)頁瀏覽,不滿,棄之。
NodeJS實現(xiàn)為何突然會選擇NodeJS來實現(xiàn),剛好最近在看node書籍,里面有提到node爬蟲,解析爬取的內(nèi)容,書中提到利用cheerio模塊,遂果斷瀏覽其api文檔,cheerio其實就是jquery的翻版,這下可方便了,心中大喜。
實現(xiàn)思路實現(xiàn)單個轉(zhuǎn)化
自定義解析
實現(xiàn)批量轉(zhuǎn)化
難點分析自定義解析是比較頭疼的事情,必須要分析需要轉(zhuǎn)化的html的格式,需要讀取的內(nèi)容,本人對h1,h2,h3,div,img,a標(biāo)簽做了處理,可自行擴展
html解析代碼如下
if("p" === name){ if(e_children.type === "text"){ if(e.children.length > 1){ for(var j=0,c_len=e.children.length;j結(jié)語 完整代碼請移步至本人的html2md,如果此文章對您有用請不吝star
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/97571.html
摘要:簡單的爬蟲工具下載博客,并轉(zhuǎn)成的形式為什么要寫這個工具主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來,但是保存網(wǎng)頁的可讀性太差了,如果轉(zhuǎn)換成的形式就很舒服。 簡單的爬蟲工具 下載博客,并轉(zhuǎn)成Markdown的形式 為什么要寫這個工具 主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來,但是保存網(wǎng)頁的可讀性太差了,如果轉(zhuǎn)換成Markdown的形式就很舒服。但是網(wǎng)頁...
摘要:只支持協(xié)議,選項表示文檔中的選擇器,如選擇器。對于單個,判斷其進行映射。同時還需要注意對于代碼塊其換行是被樣式控制的,如下圖而且中的屬性不屬于標(biāo)準(zhǔn),是瀏覽器各自實現(xiàn)的。 情景重現(xiàn) 有時候,我們看到網(wǎng)上比較好的文章,我們油然會想去轉(zhuǎn)載,但是呈現(xiàn)在瀏覽器上文章的格式為 HTML,我們書寫文章的格式又為 Markdown,所以我便想實現(xiàn) HTML 到 Markdown 的轉(zhuǎn)換。 注:對于一些...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個爬取多頁面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲,如何將相對URL轉(zhuǎn)為絕對URL,如何限速,...
閱讀 1519·2021-11-23 09:51
閱讀 3639·2021-09-26 09:46
閱讀 2125·2021-09-22 10:02
閱讀 1818·2019-08-30 15:56
閱讀 3319·2019-08-30 12:51
閱讀 2224·2019-08-30 11:12
閱讀 2060·2019-08-29 13:23
閱讀 2323·2019-08-29 13:16