摘要:目前最新版是版本,在爬取只支持的站點會報錯目前作者說會在版本發布修復錯誤,目前的解決辦法是臨時適配方式,修改中的方法,重寫自己實現的,并設置到中。
目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站點會報錯
javax.net.ssl.SSLException: Received fatal alert: protocol_version at sun.security.ssl.Alerts.getSSLException(Alerts.java:208) at sun.security.ssl.Alerts.getSSLException(Alerts.java:154) at sun.security.ssl.SSLSocketImpl.recvAlert(SSLSocketImpl.java:2023) at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:1125) at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1375) at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1403) at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1387) at org.apache.http.conn.ssl.SSLConnectionSocketFactory.createLayeredSocket(SSLConnectionSocketFactory.java:394) at org.apache.http.conn.ssl.SSLConnectionSocketFactory.connectSocket(SSLConnectionSocketFactory.java:353) at org.apache.http.impl.conn.DefaultHttpClientConnectionOperator.connect(DefaultHttpClientConnectionOperator.java:141) at org.apache.http.impl.conn.PoolingHttpClientConnectionManager.connect(PoolingHttpClientConnectionManager.java:353) at org.apache.http.impl.execchain.MainClientExec.establishRoute(MainClientExec.java:380) at org.apache.http.impl.execchain.MainClientExec.execute(MainClientExec.java:236) at org.apache.http.impl.execchain.ProtocolExec.execute(ProtocolExec.java:184) at org.apache.http.impl.execchain.RetryExec.execute(RetryExec.java:88) at org.apache.http.impl.execchain.RedirectExec.execute(RedirectExec.java:110) at org.apache.http.impl.client.InternalHttpClient.doExecute(InternalHttpClient.java:184) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) at us.codecraft.webmagic.downloader.HttpClientDownloader.download(HttpClientDownloader.java:85)
目前作者說會在0.7.4版本發布修復錯誤,目前的解決辦法是:
臨時適配方式,修改HttpClientGenerator中的buildSSLConnectionSocketFactory方法,
return new SSLConnectionSocketFactory(createIgnoreVerifySSL(), new String[]{"SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"}, null, new DefaultHostnameVerifier())
重寫自己實現的HttpClientDownloader,并設置到Spider中。
作者原文:Https下無法抓取只支持TLS1.2的站點
我已經把源碼重新編譯打包了,如果自己懶得編譯可以用我打包好的這個:webmagic-core-0.7.3.jar
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/68958.html
摘要:但發現導出來的沒有高亮語法沒有語法高亮咋看啊,所以到這里我就放棄了,將就用一下博客園生成的吧爬蟲學習上面提供的接口是一個生成一個文件,我是不可能一個一個將鏈接和標題放上去生成的因為博客園上發的也將近篇了。 前言 只有光頭才能變強 之前有讀者問過我:3y你的博客有沒有電子版的呀?我想要份電子版的。我說:沒有啊,我沒有弄過電子版的,我這邊有個文章導航頁面,你可以去文章導航去找來看呀..然后...
摘要:是爬蟲框架中比較簡單易上手的一個。官網鏈接下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為引入配置如果項目已經引入記錄日志,則需要在中排除。 webmagic是java爬蟲框架中比較簡單易上手的一個。官網鏈接:http://webmagic.io/ 下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為:https://mybank.i...
摘要:優雅的使用框架,爬取唐詩別苑網的詩人詩歌數據同時在幾種動態加載技術中對比作選擇雖然差不多兩年沒有維護,但其本身是一個優秀的爬蟲框架的實現,源碼中有很多值得參考的地方,特別是對爬蟲多線程的控制。 優雅的使用WebMagic框架,爬取唐詩別苑網的詩人詩歌數據 同時在幾種動態加載技術(HtmlUnit、PhantomJS、Selenium、JavaScriptEngine)中對比作選擇 We...
前言 最近無意間在知乎專欄看到有人使用python爬取了mm131的圖片。想著自己也有過爬蟲的開發經驗(抱著學習的態度),故使用java也來寫個小爬蟲,爬蟲框架用的是webmagic,傳送門:https://github.com/code4craft/webmagic 實現 整個爬蟲項目如下圖,極其精簡,其中主要實現類是Mm131Spider showImg(http://pc3dvrbm9...
摘要:最后放效果圖感興趣的同學歡迎掃碼體驗喲手機長按不能進入小程序,需要在微信發現小程序搜索式神獵手進入結尾以上所有內容均已開源,歡迎大家參考后端式神獵手后端小程序端式神獵手小程序解決方案原文地址作者 0.序 玩陰陽師的肝帝們都知道,每天早上5點和下午6點會刷新兩次封印任務,每次做任務時最蛋疼的就是找各種怪物對應的副本以及神秘線索。 陰陽師提供了 網易精靈 可以進行一些數據查詢,但體驗實在太...
閱讀 1010·2021-11-22 13:52
閱讀 924·2019-08-30 15:44
閱讀 570·2019-08-30 15:43
閱讀 2424·2019-08-30 12:52
閱讀 3473·2019-08-29 16:16
閱讀 637·2019-08-29 13:05
閱讀 2943·2019-08-26 18:36
閱讀 1975·2019-08-26 13:46