Node.js學習之路22——利用cheerio制作簡單的網(wǎng)頁爬蟲

jsyzchen 發(fā)布于2019-08-22 14:56 / 1523人閱讀

摘要：利用制作簡單的網(wǎng)頁爬蟲目標完成對網(wǎng)站的標題信息獲取將獲取到的信息輸出在一個新文件工具，使用下載的使用方法和的使用方法基本一致如果熟練使用，那么將會很快上手代碼部分介紹獲取頁面的列表標題，將獲取到的標題列表編號，最終輸出到文件里獲取網(wǎng)頁信息錯

利用cheerio制作簡單的網(wǎng)頁爬蟲 1. 目標

完成對網(wǎng)站的標題信息獲取

將獲取到的信息輸出在一個新文件

工具: cheerio，使用npm下載npm install cheerio

cheerio的API使用方法和jQuery的使用方法基本一致

如果熟練使用jQuery，那么cheerio將會很快上手

2. 代碼部分

介紹: 獲取segment fault頁面的列表標題，將獲取到的標題列表編號，最終輸出到pageTitle.txt文件里

const https = require("https");
const fs = require("fs");
const cheerio = require("cheerio");
const url = "https://segmentfault.com/";

https.get(url, (res) => {
    let html = "";
    res.on("data", (data) => {
        html += data;
    });
    res.on("end", () => {
        getPageTitle(html);
    });
}).on("error", () => {
    console.log("獲取網(wǎng)頁信息錯誤");
});

function getPageTitle(html) {
    const $ = cheerio.load(html);
    let chapters = $(".news__item-title");
    let data = [];
    let index = 0;
    let fileName = "pageTitle.txt";
    for (let i = 0; i < chapters.length; i++) {
        let chapterTitle = $(chapters[i]).find("a").text().trim();
        index++;
        data.push(`
${index}, ${chapterTitle}`);
    }
    fs.writeFile(fileName, data, "utf8", (err) => {
        if (err) {
            console.log("fs文件系統(tǒng)創(chuàng)建新文件失敗", err);
        }
        console.log(`已成功將獲取到的標題放入新文件${fileName}文件中`)
    })
}

云服務器 GPU云服務器 php制作的簡單網(wǎng)頁網(wǎng)頁制作簡單簡單的爬蟲簡單的爬蟲程序

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/93019.html

node學習之路（一）—— 網(wǎng)絡請求

摘要：域套接字使用或指定請求方法的字符串。請求路徑包含非法字符時拋出異常。保持資源池周圍的套接字在未來被用于其它請求。默認值為當使用的時候，通過正在保持活動的套接字發(fā)送包的頻繁程度。文章來源：小青年原創(chuàng)發(fā)布時間：2016-09-29關鍵詞：JavaScript，nodejs，http，url ，Query String，爬蟲轉(zhuǎn)載需標注本文原始地址: http://zhaomenghuan....

bovenson 2019-08-20 18:28 評論0 收藏0
分分鐘教你用node.js寫個爬蟲

摘要：爬蟲介紹二爬蟲的分類通用網(wǎng)絡爬蟲全網(wǎng)爬蟲爬行對象從一些種子擴充到整個，主要為門戶站點搜索引擎和大型服務提供商采集數(shù)據(jù)。分分鐘教你用node.js寫個爬蟲寫在前面十分感謝大家的點贊和關注。其實，這是我第一次在segmentfault上寫文章。因為我也是前段時間偶然之間才開始了解和學習爬蟲，而且學習node的時間也不是很長。雖然用node做過一些后端的項目，但其實在node和爬蟲方面...

fanux 2019-08-22 17:07 評論0 收藏0
Node.js實現(xiàn)簡易爬蟲

摘要：為什么選擇利用來寫爬蟲呢就是因為這個庫，全兼容語法，熟悉的話用起來真真是爽依賴選擇版的封裝了一個服務器和一個簡易的客戶端解決爬取網(wǎng)頁出現(xiàn)亂碼初步實現(xiàn)既然是要爬取網(wǎng)站內(nèi)容，那我們就應該先去看看網(wǎng)站的基本構(gòu)成選取的是電影天堂作為目標網(wǎng)站，想要為什么選擇利用node來寫爬蟲呢？就是因為cheerio這個庫，全兼容jQuery語法，熟悉的話用起來真真是爽依賴選擇 cheerio： Nod...

BearyChat 2019-08-21 15:26 評論0 收藏0
node.js 89行爬蟲爬取智聯(lián)招聘信息

摘要：智聯(lián)其實一共寫了兩次，有興趣的可以在源碼看看，第一版的是回調(diào)版，只能一次一頁的爬取。寫在前面的話，　　　.......還是不寫了，直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...

_ivan 2019-08-21 16:25 評論0 收藏0
使用Node.js開發(fā)一個小爬蟲

摘要：前言很多程序猿在最開始學習開發(fā)的時候應該都有一個想要自己開發(fā)一個爬蟲的想法至少我是有的。其實弄懂了爬蟲的原理，再回過頭去看，發(fā)現(xiàn)開發(fā)一個簡單的爬蟲來說還是很容易的。前言很多程序猿在最開始學習開發(fā)的時候應該都有一個想要自己開發(fā)一個爬蟲的想法（至少我是有的）。所以國內(nèi)網(wǎng)絡上也是爬蟲盛行！學了node.js之后發(fā)現(xiàn)比較適合寫爬蟲，不過一直沒有動手去寫，正好這段時間比較閑，就寫個爬蟲玩下。...

Songlcy 2019-08-22 11:12 評論0 收藏0