Java爬蟲之下載IMDB中Top250電影的圖片

tianren124 發(fā)布于2019-08-15 15:12 / 3972人閱讀

摘要：介紹在博客爬蟲爬取豆瓣電影圖片中我們利用的爬蟲框架，將豆瓣電影圖片下載到自己電腦上。那么，在的爬蟲的也可以下載圖片嗎答案當然是肯定的在本次分享中，我們將利用的包和函數(shù)來實現(xiàn)圖片的下載。

介紹

??在博客：Scrapy爬蟲（4）爬取豆瓣電影Top250圖片中我們利用Python的爬蟲框架Scrapy，將豆瓣電影Top250圖片下載到自己電腦上。那么，在Java的爬蟲的也可以下載圖片嗎？答案當然是肯定的！
??在本次分享中，我們將利用Java的Jsoup包和FileUtils.copyURLToFile()函數(shù)來實現(xiàn)圖片的下載。我們將會爬取IMDB中Top250電影的圖片到自己電腦上，其網(wǎng)頁截圖如下：

思路

??我們實現(xiàn)圖片下載的爬蟲思路如下：

利用Jsoup解析網(wǎng)頁，得到電影圖片的url和name

利用FileUtils.copyURLToFile()函數(shù)將圖片下載到本地

準備

??在本文程序中，除了Jsoup包外，還用到了commons-io包，其下載地址為：https://mvnrepository.com/art... ，我們主要利用該package中的FileUtils.copyURLToFile(). 讀者需要下載這兩個包，并將它們在Eclipse中加入到項目的路徑中。

程序

??本次分享的主要程序為ImageScraper.java，其完整代碼如下：

package wikiScrape;

/* 本爬蟲爬取http://www.imdb.cn/IMDB250/中Top250的圖片
 * 先利用Jsoup解析得到該網(wǎng)頁中的圖片的url
 * 然后利用FileUtils.copyURLToFile()函數(shù)將圖片下載到本地
 */

import java.io.*;
import java.net.*;
import java.util.Date;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.apache.commons.io.FileUtils;


public class ImageScraper {

    public static void main(String[] args) {
        Date d1 = new Date();
        
        System.out.println("爬蟲開始......");
        
        // 爬取的網(wǎng)址列表，一共十個網(wǎng)頁
        ArrayList urls = new ArrayList();
        urls.add("http://www.imdb.cn/IMDB250/");
        for(int i=2; i<=10; i++) {
            urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i));
        }
        
        String dir = "E://log/";  // 圖片儲存目錄
        
        // 利用循環(huán)下載每個頁面中的圖片
        for(String url: urls) {
            int index = urls.indexOf(url)+1;
            System.out.println("開始下載第"+index+"個網(wǎng)頁中的圖片...");
            getPictures(url, dir);
            System.out.println("第"+index+"個網(wǎng)頁中的圖片下載完畢！
");
        }
        
        System.out.println("程序運行完畢！");
        Date d2 = new Date();
        
        // 計算程序的運行時間，并輸出
        long seconds = (d2.getTime()-d1.getTime())/1000;
        System.out.println("一共用時： "+seconds+"秒.");
        
    }
    
    // getContent()函數(shù): 將網(wǎng)頁中的電影圖片下載到本地
    public static void getPictures(String url, String dir){
        
        // 利用URL解析網(wǎng)址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
        }

        // URL連接
        URLConnection urlCon = null;
        try{
            // 打開URL連接
            urlCon = urlObj.openConnection(); 
            // 將HTML內(nèi)容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 提取電影圖片所在的HTML代碼塊
            Elements elems = doc.getElementsByClass("ss-3 clear");
            Elements pic_block = elems.first().getElementsByTag("a");
            
            for(int i=0; i
運行
??運行以上程序，結(jié)果如下：

??查看E盤中的log文件夾，內(nèi)容如下：

??一共下載了244張圖片，用時140秒，有幾張圖片下載失敗，效果還算OK.
??本次分享就到此結(jié)束嘍，歡迎大家交流~~

GPU云服務器云服務器豆瓣top250的數(shù)據(jù)分析 top250 java中圖片的傳輸圖片爬蟲軟件下載

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/68922.html

發(fā)表評論

登陸后可評論

0條評論

tianren124

男|高級講師

我要關(guān)注我要私信

TA的文章

用anaconda安裝tensorflow

閱讀 2033·2023-04-25 23:30
工信部：公開征求面向云側(cè)/邊緣側(cè)/端側(cè)的AI芯片測試意見

閱讀 1455·2021-11-24 10:18
DediPath，4折優(yōu)惠，OpenVZ/kVM SSD VPS，混合服務器低至$9.2/月， 4核

閱讀 3079·2021-10-09 09:54
4道經(jīng)典指針筆試題講解 ~

閱讀 2021·2021-10-08 10:05
[C/C++]詳解STL容器1--string的功能和模擬實現(xiàn)（深淺拷貝問題）

閱讀 3436·2021-09-23 11:21
谷歌瀏覽器： Snippets小程序哪家強？

閱讀 3165·2019-08-30 15:52
jquery高級應用之Deferred對象

閱讀 1563·2019-08-30 13:05
css 迷惑的position

閱讀 1061·2019-08-30 13:02

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Java爬蟲之下載IMDB中Top250電影的圖片

相關(guān)文章

Java爬蟲之多線程下載IMDB中Top250電影的圖片

**Python爬蟲之多線程下載豆瓣Top250電影圖片**

Python 從零開始爬蟲(三)——實戰(zhàn)：requests+BeautifulSoup實現(xiàn)靜態(tài)爬取

2018電影票房分析-誰才是票房之王

**scrapy爬取豆瓣Top250電影**

發(fā)表評論

0條評論

tianren124

男|高級講師

TA的文章

用anaconda安裝tensorflow

工信部：公開征求面向云側(cè)/邊緣側(cè)/端側(cè)的AI芯片測試意見

DediPath，4折優(yōu)惠，OpenVZ/kVM SSD VPS，混合服務器低至$9.2/月， 4核

4道經(jīng)典指針筆試題講解 ~

[C/C++]詳解STL容器1--string的功能和模擬實現(xiàn)（深淺拷貝問題）

谷歌瀏覽器： Snippets小程序哪家強？

jquery高級應用之Deferred對象

css 迷惑的position

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Java爬蟲之下載IMDB中Top250電影的圖片

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！