Node 批量爬取頭條視頻并保存

Jioby 發布于2019-06-21 16:18 / 843人閱讀

摘要：目標網站西瓜視頻項目功能下載頭條號維辰財經下的最新個視頻項目地址地址姊妹項目批量下載美女圖集簡介一般批量爬取視頻或者圖片的套路是，使用爬蟲獲得文件鏈接集合，然后通過等方法逐個保存文件。然而在批量下載時，逐個手動的獲取視頻鏈接顯然不可取。

目標網站：西瓜視頻
項目功能：下載頭條號【維辰財經】下的最新20個視頻
項目地址：Github 地址
姊妹項目：批量下載美女圖集

簡介

一般批量爬取視頻或者圖片的套路是，使用爬蟲獲得文件鏈接集合，然后通過 writeFile 等方法逐個保存文件。然而，頭條的視頻，在需要爬取的 html 文件（服務端渲染輸出）中，無法捕捉視頻鏈接。視頻鏈接是頁面在客戶端渲染時，通過某些 js 文件內的算法或者解密方法，根據視頻的已知 key 或者 hash 值，動態計算出來并添加到 video 標簽的。這也是網站的一種反爬措施。

我們在瀏覽這些頁面時，通過審核元素，可以看到計算后的文件地址。然而在批量下載時，逐個手動的獲取視頻鏈接顯然不可取。開心的是，puppeteer 提供了模擬訪問 Chrome 的功能，使我們可以爬取經過瀏覽器渲染出來的最終頁面。

項目啟動

命令

npm i
npm start

Notice: 安裝 puppeteer 的過程稍慢，耐心等待。

配置文件

// 配置相關
module.exports =  {
  originPath: "https://www.ixigua.com", // 頁面請求地址
  savePath: "D:/videoZZ" // 存放路徑
}

技術點

puppeteer

官方API

puppeteer 提供一個高級 API 來控制 Chrome 或者 Chromium。

puppeteer 主要作用：

利用網頁生成 PDF、圖片

爬取SPA應用，并生成預渲染內容（即“SSR” 服務端渲染）

可以從網站抓取內容

自動化表單提交、UI測試、鍵盤輸入等

使用到的 API：

puppeteer.launch() 啟動瀏覽器實例

browser.newPage() 創建一個新頁面

page.goto() 進入指定網頁

page.screenshot() 截圖

page.waitFor() 頁面等待，可以是時間、某個元素、某個函數

page.$eval() 獲取一個指定元素，相當于 document.querySelector

page.$$eval() 獲取某類元素，相當于 document.querySelectorAll

page.$("#id .className") 獲取文檔中的某個元素，操作類似jQuery

代碼示例

const puppeteer = require("puppeteer");
 
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto("https://example.com");
  await page.screenshot({path: "example.png"});
 
  await browser.close();
})();

視頻文件下載方法

下載視頻主方法

const downloadVideo = async video => {
  // 判斷視頻文件是否已經下載
  if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
    await getVideoData(video.src, "binary").then(fileData => {
      console.log("下載視頻中：", video.title)
      savefileToPath(video.title, fileData).then(res =>
        console.log(`${res}: ${video.title}`)
      )
    })
  } else {
    console.log(`視頻文件已存在：${video.title}`)
  }
}

獲取視頻數據

getVideoData (url, encoding) {
  return new Promise((resolve, reject) => {
    let req = http.get(url, function (res) {
      let result = ""
      encoding && res.setEncoding(encoding)
      res.on("data", function (d) {
        result += d
      })
      res.on("end", function () {
        resolve(result)
      })
      res.on("error", function (e) {
        reject(e)
      })
    })
    req.end()
  })
}

將視頻數據保存到本地

savefileToPath (fileName, fileData) {
  let fileFullName = `${config.savePath}/${fileName}.mp4`
  return new Promise((resolve, reject) => {
    fs.writeFile(fileFullName, fileData, "binary", function (err) {
      if (err) {
        console.log("savefileToPath error:", err)
      }
      resolve("已下載")
    })
  })
}

爬取結果截圖

說明

此爬蟲僅用于個人學習，如果侵權，即刻刪除！

GPU云服務器云服務器并保存截圖保存并顯示 php保存圖片并壓縮 js動態添加行并保存

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/11070.html

Python3網絡爬蟲實戰---36、分析Ajax爬取今日頭條街拍美圖

摘要：上一篇文章網絡爬蟲實戰數據爬取下一篇文章網絡爬蟲實戰動態渲染頁面抓取本節我們以今日頭條為例來嘗試通過分析請求來抓取網頁數據的方法，我們這次要抓取的目標是今日頭條的街拍美圖，抓取完成之后將每組圖片分文件夾下載到本地保存下來。上一篇文章：Python3網絡爬蟲實戰---35、 Ajax數據爬取下一篇文章：Python3網絡爬蟲實戰---37、動態渲染頁面抓取:Selenium 本節我們...

Leck1e 2019-07-31 10:36 評論0 收藏0
??在爬完一周的朋友圈后，我發現了.......驚人??秘密

各位童鞋，大家好，我是? 在《?UI自動化工具輕松實現微信消息收發?朋友圈爬取??》文末給童鞋們布置了一個作業，批量朋友圈爬取，不知道大伙們是否還有映像。看到很多小伙伴們踴躍報名參與，不禁要給你們點個贊。考慮到很多小伙伴想做卻做出來，這…貼心的我這不就來給你們公布參考答案啦？對相關基礎還不了解的童鞋請參考前文：《?UI自動化工具輕松實現微信消息收發?朋友圈爬取??》《???對比PyWi...

Cympros 2021-09-02 15:11 評論0 收藏0
Python 爬取CSDN的極客頭條

摘要：爬取的極客頭條工具分析使用瀏覽器調試面板分析網頁結構以及網絡請求，容易知道，每一個頭條信息結構如圖所示因此，我們可以通過定位元素，同時，根據面板的網絡請求分析，第一次加載更多數據的請求為第二次的為上述請求已精簡，刪除了原有請求的部分參數 Python 爬取CSDN的極客頭條工具 Python Python：requests Python：BeautifulSoup 分析使用瀏覽...

CatalpaFlat 2019-07-31 11:00 評論0 收藏0