爬蟲實(shí)現(xiàn)：根據(jù)IP地址反查域名

caohaoyu 發(fā)布于2019-08-19 11:38 / 829人閱讀

摘要：域名解析與地址域名解析是把域名指向網(wǎng)站空間，讓人們通過注冊(cè)的域名可以方便地訪問到網(wǎng)站的一種服務(wù)地址是網(wǎng)絡(luò)上標(biāo)識(shí)站點(diǎn)的數(shù)字地址，為了方便記憶，采用域名來代替地址標(biāo)識(shí)站點(diǎn)地址。

域名解析與IP地址

域名解析是把域名指向網(wǎng)站空間IP，讓人們通過注冊(cè)的域名可以方便地訪問到網(wǎng)站的一種服務(wù)；IP地址是網(wǎng)絡(luò)上標(biāo)識(shí)站點(diǎn)的數(shù)字地址，為了方便記憶，采用域名來代替IP地址標(biāo)識(shí)站點(diǎn)地址。域名解析就是域名到IP地址的轉(zhuǎn)換過程，該過程由DNS服務(wù)器完成（來自百度百科）

先來了解兩個(gè)知識(shí)點(diǎn)

1、一個(gè)域名同一時(shí)刻只能對(duì)應(yīng)一個(gè)IP地址

2、一個(gè)IP地址可以解析綁定多個(gè)域名，沒有限制

基于以上知識(shí)點(diǎn)，假如我們已知一個(gè)IP地址，我們?cè)趺床拍塬@取解析到該IP地址的所有域名信息呢？一種方式是國(guó)家工信部能開放查詢接口以供查詢（不知道會(huì)不會(huì)開放？）；另外一種方式就是接下來我要分享的——爬蟲實(shí)現(xiàn)：根據(jù)IP地址反查域名。

實(shí)現(xiàn)原理

實(shí)現(xiàn)原理其實(shí)很簡(jiǎn)單，現(xiàn)在已有網(wǎng)站提供了根據(jù)IP地址查詢域名的功能，但是需要人為登錄網(wǎng)站輸入IP地址查詢，我想要實(shí)現(xiàn)程序自動(dòng)化查詢，所以就想到了爬蟲的方式，簡(jiǎn)單來說，就是模擬人的查詢行為，將查詢結(jié)果解析成我想要的域名列表。

以site.ip138.com為例，打開F12，輸入一個(gè)IP查詢，觀察控制臺(tái)請(qǐng)求，看到下圖中信息

請(qǐng)求地址為：http://site.ip138.com/119.75....

請(qǐng)求方式為：GET

然后，分析Response，可以看到，在頁面上看到的綁定域名信息就是下圖紅框中的內(nèi)容，所以只要能將Response的內(nèi)容解析出來，獲取到的內(nèi)容就可以得到想要的域名列表。

上述Response是HTML頁面，使用jsoup來解析HTML簡(jiǎn)直完美。

jsoup是什么？

jsoup 是一款Java 的HTML解析器，可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。

//解析成Document對(duì)象
Document document = Jsoup.parse(result);
if (document == null) {
    logger.error("Jsoup parse get document null!");
}
//根據(jù)ID屬性“l(fā)ist”獲取元素Element對(duì)象（有沒有感覺很像jQuery？）
Element listEle = document.getElementById("list");

//根據(jù)class屬性和屬性值篩選元素Element集合，并通過eachText()遍歷元素內(nèi)容
return listEle.getElementsByAttributeValue("target", "_blank").eachText();

result的內(nèi)容通過HttpClient模擬HTTP請(qǐng)求

HttpGet httpGet = new HttpGet(url);
httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
httpGet.setHeader("Accept-Encoding", "gzip, deflate");
httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.9");
httpGet.setHeader("Cache-Control", "max-age=0");
httpGet.setHeader("Connection", "keep-alive");
httpGet.setHeader("Cookie", "Hm_lvt_d39191a0b09bb1eb023933edaa468cd5=1553090128; BAIDU_SSP_lcr=https://www.baidu.com/link?url=FS0ccst469D77DpdXpcGyJhf7OSTLTyk6VcMEHxT_9_&wd=&eqid=fa0e26f70002e7dd000000065c924649; pgv_pvi=6200530944; pgv_si=s4712839168; Hm_lpvt_d39191a0b09bb1eb023933edaa468cd5=1553093270");
httpGet.setHeader("DNT", "1");
httpGet.setHeader("Host", host);
httpGet.setHeader("Upgrade-Insecure-Requests", "1");
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");

String result = HttpUtils.doGet(httpGet);

HTTP請(qǐng)求工具類

public class HttpUtils {

    private static Logger logger = LoggerFactory.getLogger(HttpUtils.class);

    public static String doGet(HttpGet httpGet) {
        CloseableHttpClient httpClient = null;
        try {
            httpClient = HttpClients.createDefault();
            RequestConfig requestConfig = RequestConfig.custom()
                    .setConnectTimeout(5000).setConnectionRequestTimeout(10000)
                    .setSocketTimeout(5000).build();
            httpGet.setConfig(requestConfig);
            HttpResponse httpResponse = httpClient.execute(httpGet);
            if (httpResponse.getStatusLine().getStatusCode() == 200 ||
                    httpResponse.getStatusLine().getStatusCode() == 302) {
                HttpEntity entity = httpResponse.getEntity();
                return EntityUtils.toString(entity, "utf-8");
            } else {
                logger.error("Request StatusCode={}", httpResponse.getStatusLine().getStatusCode());
            }
        } catch (Exception e) {
            logger.error("Request Exception={}:", e);
        } finally {
            if (httpClient != null) {
                try {
                    httpClient.close();
                } catch (IOException e) {
                    logger.error("關(guān)閉httpClient失敗", e);
                }
            }
        }
        return null;
    }
}

新增Controller

@RestController
public class DomainSpiderController {

    private static Logger logger = LoggerFactory.getLogger(DomainSpiderController.class);

    @Autowired
    private DomainSpiderService domainSpiderService;

    /**
     * @param ip 119.75.217.109
     * @return
     */
    @RequestMapping("/spider/{ip}")
    @ResponseBody
    public List domainSpider(@PathVariable("ip") String ip) {
        long startTime = System.currentTimeMillis();
        List domains = domainSpiderService.domainSpiderOfIp138(ip);
        if(domains == null || domains.size() == 0) {
            domains = domainSpiderService.domainSpiderOfAizan(ip);
        }
        long endTime = System.currentTimeMillis();

        logger.info("完成爬蟲任務(wù)總耗時(shí)：{}s", (endTime - startTime) / 1000);

        return domains;
    }
}

啟動(dòng)Spring Boot應(yīng)用，訪問瀏覽器：http://localhost:8080/spider/119.75.217.109
獲得返回結(jié)果如下：

怎么樣？是不是很簡(jiǎn)單？

優(yōu)化改進(jìn)：有時(shí)候僅僅通過一個(gè)網(wǎng)站查詢的域名數(shù)據(jù)可能不太準(zhǔn)確，甚至查詢不到數(shù)據(jù)，我們也沒法判斷誰才是正確的，所以，可以通過爬取多個(gè)網(wǎng)站的結(jié)果結(jié)合起來使用，例如：dns.aizhan.com

提出疑問：這些提供根據(jù)IP反查域名的網(wǎng)站，是怎么實(shí)現(xiàn)的呢？我咨詢過其他人，他們的回答是這些網(wǎng)站收集了很多IP和域名的對(duì)應(yīng)關(guān)系，真實(shí)情況是這樣的嗎？

示例源碼

domain-spider

代碼已上傳至碼云和Github上，歡迎下載學(xué)習(xí)

Gitee

Github

GPU云服務(wù)器云服務(wù)器 ip地址反查域名 ip反查域名域名反查ip ip反查域名工具

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/77574.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

caohaoyu

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

CloudCone：便宜VPS年付$17.99起，洛杉磯MC機(jī)房，優(yōu)化線路

閱讀 3010·2021-10-08 10:18
前端每日實(shí)戰(zhàn)：143# 視頻演示如何用 CSS 的 Grid 布局創(chuàng)作一枚小松鼠郵票

閱讀 730·2019-08-30 15:54
CSS垂直居中，你會(huì)多少種寫法？

閱讀 1062·2019-08-29 18:43
Codepen 每周精選：本周最值得推薦的 23 個(gè)頁面特效（2018-5-28）

閱讀 2434·2019-08-29 15:33
前端基礎(chǔ)之CSS（1）

閱讀 1298·2019-08-29 15:29
javascript 理解和使用回調(diào)函數(shù)

閱讀 1599·2019-08-29 13:29
一個(gè)奇葩問題引發(fā)的"吐血"

閱讀 1022·2019-08-26 13:46
高級(jí) Angular 組件模式 (6)

閱讀 1693·2019-08-26 11:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

爬蟲實(shí)現(xiàn)：根據(jù)IP地址反查域名

相關(guān)文章

HTTP精簡(jiǎn)教程一：Web網(wǎng)絡(luò)基礎(chǔ)

HTTP精簡(jiǎn)教程一：Web網(wǎng)絡(luò)基礎(chǔ)

從URL輸入到頁面展現(xiàn)到底發(fā)生什么？

發(fā)表評(píng)論

0條評(píng)論

caohaoyu

男|高級(jí)講師

TA的文章

CloudCone：便宜VPS年付$17.99起，洛杉磯MC機(jī)房，優(yōu)化線路

前端每日實(shí)戰(zhàn)：143# 視頻演示如何用 CSS 的 Grid 布局創(chuàng)作一枚小松鼠郵票

CSS垂直居中，你會(huì)多少種寫法？

Codepen 每周精選：本周最值得推薦的 23 個(gè)頁面特效（2018-5-28）

前端基礎(chǔ)之CSS（1）

javascript 理解和使用回調(diào)函數(shù)

一個(gè)奇葩問題引發(fā)的"吐血"

高級(jí) Angular 組件模式 (6)

最新活動(dòng)