爬取html生成pdf

light 發布于2019-08-23 14:33 / 2411人閱讀

摘要：首先看了這篇文章前端使用爬蟲生成小書并合并，發現最后的沒有書簽，很難受，所以主要在此基礎上加了加書簽的功能。

首先看了這篇文章前端使用puppeteer 爬蟲生成《React.js 小書》PDF并合并，發現最后的pdf沒有書簽，很難受，所以主要在此基礎上加了加書簽的功能。

爬去的示例網站為React.js 小書，僅做學習交流

針對網頁生成pdf

使用puppeteer爬取網頁并生成pdf

puppeteer中文文檔

const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://news.ycombinator.com", {waitUntil: "networkidle2"});
  await page.pdf({path: "hn.pdf", format: "A4"});

  await browser.close();
})();

合成pdf

pdf-merge：合并pdf

依賴于pdftk

如何給pdf加上書簽

pdftk：一個處理pdf的工具

安裝后將bin目錄添加到環境變量

利用update_info_utf8給pdf增加書簽：

pdftk "d:OpenSourceMygenpfdforrsbReact 小書(無書簽).pdf" update_info_utf8 "d:OpenSourceMygenpfdforrsbookmarks.txt" output "d:OpenSourceMygenpfdforrsbReact 小書.pdf"

書簽是什么

也就是bookmarks.txt

書簽格式:

BookmarkBegin
BookmarkTitle: PDF Reference (Version 1.5)
BookmarkLevel: 1
BookmarkPageNumber: 1
BookmarkBegin
BookmarkTitle: Contents
BookmarkLevel: 2
BookmarkPageNumber: 3

確定書簽頁碼

pdfjs-dist：獲取單個pdf頁數，用于bookmarks.txt中指定頁碼

生成書簽

const pageArr = result.map(c => c.numPages);
let txt = ""
for (let index = 0; index < pageArr.length; index++) {
    let temp = `BookmarkBegin
BookmarkTitle: ${titleArr[index]}
BookmarkLevel: 1
BookmarkPageNumber: ${pageIndex}
`
    txt += temp
    pageIndex += pageArr[index]
}
fs.writeFileSync("bookmarks.txt", txt);

加上書簽

參考pdf-merge源碼，增加runshell.js用于在node中執行pdftk的命令

runshell.js如下：

"use strict";
const child = require("child_process");
const Promise = require("bluebird");
const exec = Promise.promisify(child.exec);

module.exports = (scripts) => new Promise((resolve, reject) => {
    exec(scripts)
        .then(resolve)
        .catch(reject);
});

執行pdftk update_info_utf8

const nobkname = "React 小書(無書簽).pdf"
const hasbkname = "React 小書.pdf"
mergepdf(nobkname).then(buffer => {
    console.log("starting add bookmarks!")
    runshell(`pdftk "${__dirname}/${nobkname}" update_info_utf8 "${__dirname}/bookmarks.txt" output "${__dirname}/${hasbkname}"`).then(() => {
        console.log("completed add bookmarks!")
        fs.unlinkSync(`${__dirname}/${nobkname}`);
        fs.unlinkSync(`${__dirname}/bookmarks.txt`);
        console.log("all completed!")
    })
})

文件路徑需要用雙引號

源碼：genpfdforrsb

問題

合并后的pdf頁碼不是連續的，還是單個pdf的頁碼

GPU云服務器云服務器 html5生成pdf pdf生成生成pdf 生成PDF報表

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/100781.html

Puppeteer初探--爬取并生成《ES6標準入門》PDF

摘要：首先介紹是一個庫，他提供了一組用來操縱的默認也就是無的，也可以配置為有有點類似于，但是官方團隊進行維護的，前景更好。使用，相當于同時具有和的能力，應用場景會非常多。首先介紹Puppeteer Puppeteer是一個node庫，他提供了一組用來操縱Chrome的API（默認headless也就是無UI的chrome，也可以配置為有UI）有點類似于PhantomJS，但Puppet...

JerryWangSAP 2019-08-21 12:00 評論0 收藏0
使用Node.js爬取任意網頁資源并輸出高質量PDF文件到本地~

摘要：上面只爬取了京東首頁的圖片內容，假設我的需求進一步擴大，需要爬取京東首頁中的所有標簽對應的跳轉網頁中的所有的文字內容，最后放到一個數組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎的朋友觀看~ 需求：使用Node.js爬取網頁資源，開箱即用的配置將爬取到的...

seasonley 2019-08-30 11:12 評論0 收藏0
使用Node.js爬取任意網頁資源并輸出高質量PDF文件到本地~

摘要：上面只爬取了京東首頁的圖片內容，假設我的需求進一步擴大，需要爬取京東首頁中的所有標簽對應的跳轉網頁中的所有的文字內容，最后放到一個數組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎的朋友觀看~ 需求：使用Node.js爬取網頁資源，開箱即用的配置將爬取到的...

xiaoxiaozi 2019-08-02 15:18 評論0 收藏0
使用Node.js爬取任意網頁資源并輸出高質量PDF文件到本地~

摘要：上面只爬取了京東首頁的圖片內容，假設我的需求進一步擴大，需要爬取京東首頁中的所有標簽對應的跳轉網頁中的所有的文字內容，最后放到一個數組中。 showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160); 本文適合無論是否有爬蟲以及Node.js基礎的朋友觀看~ 需求：使用Node.js爬取網頁資源，開箱即用的配置將爬取到的...

wangym 2019-08-23 18:07 評論0 收藏0