puppeteer的簡(jiǎn)單使用_爬取頁(yè)面信息

ARGUS 發(fā)布于2019-08-26 11:31 / 2317人閱讀

摘要：使用無(wú)頭瀏覽器做爬蟲有什么拿什么它是的一個(gè)用來(lái)操縱瀏覽器的的庫(kù)，對(duì)的你沒(méi)看錯(cuò)，就是操作瀏覽器的，細(xì)思極恐啊簡(jiǎn)單說(shuō)就是瀏覽器有的它都有了當(dāng)然有些功能也正在開發(fā)中可以注冊(cè)，模擬登陸，設(shè)置操作事件，執(zhí)行腳本團(tuán)隊(duì)對(duì)其維護(hù)，厲害了吧文檔地址安裝首先

使用chrome無(wú)頭瀏覽器做爬蟲 - 有什么拿什么 puppeteer

它是Node的一個(gè)用來(lái)操縱瀏覽器的API的庫(kù)，對(duì)的你沒(méi)看錯(cuò)，就是操作瀏覽器的，細(xì)思極恐啊
簡(jiǎn)單說(shuō)就是瀏覽器有的它都有了(當(dāng)然有些功能也正在開發(fā)中)
可以注冊(cè)，模擬登陸，設(shè)置cookie
操作dom事件，執(zhí)行js腳本
Chrome團(tuán)隊(duì)對(duì)其維護(hù)，厲害了吧
文檔地址:https://github.com/GoogleChro...

安裝

首先Nodejs 的版本不能低于 v7.6.0， 因?yàn)槿际?async, await 異步操作
npm install puppeteer -S
出現(xiàn)安裝問(wèn)題的小伙伴可以試一試npm的內(nèi)置配置文件，當(dāng)前目錄下新建一個(gè).npmrc結(jié)尾的文件，內(nèi)容如下

registry=https://registry.npm.taobao.org
chromedriver_cdnurl=http://npm.taobao.org/mirrors/chromedriver
phantomjs_cdnurl=https://npm.taobao.org/dist/phantomjs
electron_mirror=https://npm.taobao.org/mirrors/electron/
sass_binary_site=https://npm.taobao.org/mirrors/node-sass/
puppeteer_download_host=https://cdn.npm.taobao.org/dist

官網(wǎng)的demo

const puppeteer = require("puppeteer");
(async () => {
  // 創(chuàng)建一個(gè)瀏覽器實(shí)例 Browser 對(duì)象
  const browser = await puppeteer.launch();
  // 通過(guò)瀏覽器實(shí)例 Browser 對(duì)象創(chuàng)建頁(yè)面 Page 對(duì)象
  const page = await browser.newPage();
  // 通過(guò)url參數(shù)打開指定的頁(yè)面
  await page.goto("https://example.com");
  // 對(duì)頁(yè)面進(jìn)行截圖
  await page.screenshot({path: "example.png"});
  // 關(guān)閉瀏覽器
  await browser.close();
})();

先來(lái)個(gè)最最基本的抓取 實(shí)戰(zhàn)_抓取2345小說(shuō)站任意書籍的章節(jié)列表

兩個(gè)箭頭標(biāo)記的

觀察url，.html之前的數(shù)字就是抓取書籍的bookId
章節(jié)列表所在容器標(biāo)簽

上干貨，都在注釋里了

抓取的結(jié)果

完整代碼

const puppeteer = require("puppeteer");
(async ()=>{
    try{
        // 創(chuàng)建一個(gè)瀏覽器實(shí)例 Browser 對(duì)象
        let browser = await puppeteer.launch({
            // 是否不顯示瀏覽器， 為true則不顯示
            "headless": false,
        });
        // 通過(guò)瀏覽器實(shí)例 Browser 對(duì)象創(chuàng)建頁(yè)面 Page 對(duì)象
        let page = await browser.newPage();
        // 設(shè)置瀏覽器信息
        const UA = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/63.0.3239.84 Chrome/63.0.3239.84 Safari/537.36";
        await Promise.all([
            page.setUserAgent(UA),
            // 允許運(yùn)行js
            page.setJavaScriptEnabled(true),
            // 設(shè)置頁(yè)面視口的大小
            page.setViewport({width: 1100, height: 1080}),
        ]);
        // 地址
        let chapter_list_url = `http://book.km.com/chapterlist/396353.html`
        // 打開章節(jié)列表
        await page.goto(chapter_list_url);
        // 使用css選擇器的方式
        let content= await page.$eval("#xtopjsinfo > div.wrapper > div.container > div.catalog > div.catalog_bd", el => el.innerText);
        console.log(content);
    }catch(err){
        console.log(err)
    }
})()