jsoup爬蟲工具的簡單使用

MRZYD 發布于2019-08-14 18:34 / 3170人閱讀

摘要：爬蟲工具的使用需要的包解決方案通過獲得對象，調用等方法獲得對象，調用等方法，獲得自己想要的內容。也可以使用增強型循環將它遍歷。其中方法是獲得該元素的某某屬性值，比如標簽的值。如果一次方法沒用選到具體的，可以多次使用該方法。

jsoup爬蟲工具的使用：

  *需要的jar包 --> Jsoup*

解決方案：
1.通過url 獲得doucment對象，
2.調用select()等方法獲得Elements對象，
3.調用.text()等方法，獲得自己想要的內容。

以下是第一步的三種方法，其中第一種是jsoup的提供的方法，二三兩種是java自帶的方法，
只是在方法結尾處用到了jsoup的Jsoup.parse()方法將String類型的對象轉化為Document對象，方便二三步驟使用Jsoup的解析。
1.1

public Document getDoc (String url){
    try {
        Document  doc = Jsoup.connect(url)
                .header("Accept-Encoding", "gzip, deflate")  
                .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0)Gecko/20100101 Firefox/23.0")  
                .maxBodySize(0)  
                .timeout(600000000)  
                .get();
        return doc;
    } catch (IOException e) {
        e.printStackTrace();
        return null;
    }
}

1.2

public Document getDoc(String  str) throws Exception    {
    URL url = new URL(str);
    HttpURLConnection conn = (HttpURLConnection)url.openConnection();
    conn.setRequestMethod("GET");
    conn.setConnectTimeout(5 * 1000);
    InputStream inStream =  conn.getInputStream();
    byte[] data = readInputStream(inStream);
    String htmlSource = new String(data);
    return Jsoup.parse(htmlSource);
}

1.3

 public Document getDoc(String url) throws Exception {
    String ret = "";
    WebClient webClient = new WebClient(BrowserVersion.CHROME);
    webClient.getOptions().setJavaScriptEnabled(true);
    webClient.getOptions().setCssEnabled(false);
    webClient.getOptions().setRedirectEnabled(true);
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    webClient.getOptions().setTimeout(10000);
    WebRequest webRequest = new WebRequest(new URL(url));
    webRequest.setHttpMethod(HttpMethod.GET);
    HtmlPage page = webClient.getPage(webRequest);
    webClient.waitForBackgroundJavaScript(1000);
    ret = page.asXml();
    webClient.close();
    return Jsoup.parse(ret );
}

2.看下面例子，這個select 方法在Document, Element,或Elements對象中都可以使用。Select方法將返回一個Elements集合。

doc是我們通過第一步獲得的doucmen對象。select括號里面的意思是class為content-item和expert的a標簽        元素。多個class記得要用逗號隔開。
其中的 “a” 可以是 “div”、“span”等標簽名。
    Elements  contentEs = doc.select("a.content-item,expert");
    
因為獲得的不是一個元素，所以使用get(index)方法，獲得對應的元素，以0開始。
    Element  contentE = contentEs.get(0);

也可以使用增強型for循環將它遍歷。其中.attr()方法是獲得該元素的某某屬性值，比如a標簽的href值。
    for(Element e : contentEs ){
            e.attr("href");
    }

如果一次select()方法沒用選到具體的，可以多次使用該方法。下面就調用了三次select()方法。
   Elements e = doc.select("div.menu-item,menu-skincare");
   Elements ee = e.select("div.column");
    for(int i=0 ; i
3.text()方法是將Element(s)對象轉化為String類型。
    String result  = eee.text();

以上只是我在爬某網站用到的，之前沒有接觸過jsoup，也是隨用隨學，除了這些在還有很多（來自jsoup中文幫助文檔） ：
Selector選擇器概述
?    tagname: 通過標簽查找元素，比如：a
?    ns|tag: 通過標簽在命名空間查找元素，比如：可以用 fb|name 語法來查找  元素
?    #id: 通過ID查找元素，比如：#logo
?    .class: 通過class名稱查找元素，比如：.masthead
?    [attribute]: 利用屬性查找元素，比如：[href]
?    [^attr]: 利用屬性名前綴來查找元素，比如：可以用[^data-] 來查找帶有HTML5 Dataset屬性的元素
?    [attr=value]: 利用屬性值來查找元素，比如：[width=500]
?    [attr^=value], [attr$=value], [attr*=value]: 利用匹配屬性值開頭、結尾或包含屬性值來查找元素，比如：[href*=/path/]
?    [attr~=regex]: 利用屬性值匹配正則表達式來查找元素，比如： img[src~=(?i).(png|jpe?g)]
?    *: 這個符號將匹配所有元素

Selector選擇器組合使用
?    el#id: 元素+ID，比如： div#logo
?    el.class: 元素+class，比如： div.masthead
?    el[attr]: 元素+class，比如： a[href]
?    任意組合，比如：a[href].highlight
?    ancestor child: 查找某個元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
?    parent > child: 查找某個父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body標簽下所有直接子元素
?    siblingA + siblingB: 查找在A元素之前第一個同級元素B，比如：div.head + div
?    siblingA ~ siblingX: 查找A元素之前的同級X元素，比如：h1 ~ p
?    el, el, el:多個選擇器組合，查找匹配任一選擇器的唯一元素，例如：div.masthead, div.logo

偽選擇器selectors
?    :lt(n): 查找哪些元素的同級索引值（它的位置在DOM樹中是相對于它的父節點）小于n，比如：td:lt(3) 表示小于三列的元素 
?    :gt(n):查找哪些元素的同級索引值大于n，比如： div p:gt(2)表示哪些div中有包含2個以上的p元素
?    :eq(n): 查找哪些元素的同級索引值與n相等，比如：form input:eq(1)表示包含一個input標簽的Form元素
?    :has(seletor): 查找匹配選擇器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素 
?    :not(selector): 查找與選擇器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 
?    :contains(text): 查找包含給定文本的元素，搜索不區分大不寫，比如： p:contains(jsoup)
?    :containsOwn(text): 查找直接包含給定文本的元素
?    :matches(regex): 查找哪些元素的文本匹配指定的正則表達式，比如：div:matches((?i)login)
?    :matchesOwn(regex): 查找自身包含文本匹配指定正則表達式的元素
?    注意：上述偽選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等

GPU云服務器云服務器爬蟲 jsoup jsoup爬蟲簡單的爬蟲 jsoup多線程爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/67094.html

Java爬蟲之利用Jsoup自制簡單的搜索引擎

摘要：的官方網址為，其使用手冊網址為本次分享將實現的功能為利用爬取某個搜索詞語暫僅限英文的百度百科的介紹部分，具體的功能介紹可以參考博客爬蟲自制簡單的搜索引擎。 ??Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數據。Jsoup的官方網址為： https:...

GHOST_349178 2019-08-15 15:11 評論0 收藏0
爬蟲實現：根據IP地址反查域名

摘要：域名解析與地址域名解析是把域名指向網站空間，讓人們通過注冊的域名可以方便地訪問到網站的一種服務地址是網絡上標識站點的數字地址，為了方便記憶，采用域名來代替地址標識站點地址。域名解析與IP地址域名解析是把域名指向網站空間IP，讓人們通過注冊的域名可以方便地訪問到網站的一種服務；IP地址是網絡上標識站點的數字地址，為了方便記憶，采用域名來代替IP地址標識站點地址。域名解析就是域名到IP...

caohaoyu 2019-08-19 11:38 評論0 收藏0
Java爬蟲之下載全世界國家的國旗圖片

摘要：介紹本篇博客將繼續上一篇博客爬蟲之使用的模塊爬取各國國旗的內容，將用來實現這個爬蟲，下載全世界國家的國旗圖片。介紹 ??本篇博客將繼續上一篇博客：Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗的內容，將用Java來實現這個爬蟲，下載全世界國家的國旗圖片。項目不再過多介紹，具體可以參考上一篇博客。??我們將全世界國家的名稱放在一個...

YancyYe 2019-08-16 12:40 評論0 收藏0
Jsoup爬蟲獲取自己網站在百度搜索中的實時排名

摘要：沒有結果返回百度搜索的可以指定頁碼，最多一頁個，使用后有效減少了連接次數。但親測下來設置過以后的結果與實際用戶在百度搜索的結果排序和個數都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個需求，希望看到自己網站在百度的實時的排名用過一些工具，要么反應遲鈍，要么結果不準確或不實時于是打算用jsoup...

陳偉 2019-08-16 14:38 評論0 收藏0
Java爬蟲：Jsoup + Phantomjs

摘要：一是一個開源解析器，可直接解析某個地址文本內容。通過或選擇器來查找取出數據，實現爬蟲。無頭瀏覽器一個完整的瀏覽器內核包括解析引擎渲染引擎請求處理等但是不包括顯示和用戶交互頁面的瀏覽器。（一）Jsoup Jsoup是一個Java開源HTML解析器，可直接解析某個URL地址、HTML文本內容。通過Dom或Css選擇器來查找、取出數據，實現爬蟲。 maven坐標 or...

songze 2019-08-22 15:32 評論0 收藏0