摘要:今天我就來聊聊我關于函數(shù)集的使用心得,關于請求的問題。耗時這是不能容忍的。事實上內(nèi)部實現(xiàn)就是用的事件循環(huán)。通過函數(shù)創(chuàng)建下載器。四復雜的運用這就是用法在上面的例子中。動態(tài)的從下載器中取出已經(jīng)完成了的請求。函數(shù)實現(xiàn)的壓測工具。
一、引言
這段時間比較忙,已經(jīng)很久沒有寫博客了。今天我就來聊聊我關于curl_multi_*函數(shù)集的使用心得,關于http請求的問題。
當我們用戶php發(fā)起一個http請求的時候。我們會首先想到用什么?沒錯,我們會創(chuàng)建curl來請求。當我們在一次執(zhí)行中需要發(fā)起多個http請求呢。這簡單,對每一個URL發(fā)起一次url請求。請求玩第1個再請求第2個....這就完了?哪我們還說個啥。
官網(wǎng)鏈接:http://php.net/manual/zh/book.curl.php
二、多次簡單的curl請求弊端我們舉個栗子。現(xiàn)在有三個http請求。每個請求耗時2s。如果按照簡單的curl請求(圖1-(1))。耗時6s.這是不能容忍的。如果請求的個數(shù)越多耗時約多。
有沒有一種方式來縮小查詢時間?能不能三個http請求同時執(zhí)行(如圖1-(1))?有很多方法來解決這個問題,將耗時減少到2s。如:多進程、線程、事件循環(huán)、curl_multi_*等等。最簡單的方式就是通過curl_multi_*函數(shù)來完成。事實上curl_multi_*內(nèi)部實現(xiàn)就是用的事件循環(huán)。
三、簡單的curl_multi_*運用$value){ $options[$key] =$value; } if(!empty($postData) && is_array($postData)){ $options[CURLOPT_POST] = true; $options[CURLOPT_POSTFIELDS] = http_build_query($postData); } if(stripos($url,"https") === 0){ $options[CURLOPT_SSL_VERIFYPEER] = false; } $ch = curl_init(); curl_setopt_array($ch,$options); return $ch; } // 創(chuàng)建三個待請求的url對象 $chList = array(); $chList[] = getCurlObject("https://www.baidu.com"); $chList[] = getCurlObject("http://www.jd.com"); $chList[] = getCurlObject("http://www.jianshu.com/"); // 創(chuàng)建多請求執(zhí)行對象 $downloader = curl_multi_init(); // 將三個待請求對象放入下載器中 foreach ($chList as $ch){ curl_multi_add_handle($downloader,$ch); } // 輪詢 do { while (($execrun = curl_multi_exec($downloader, $running)) == CURLM_CALL_MULTI_PERFORM) ; if ($execrun != CURLM_OK) { break; } // 一旦有一個請求完成,找出來,處理,因為curl底層是select,所以最大受限于1024 while ($done = curl_multi_info_read($downloader)) { // 從請求中獲取信息、內(nèi)容、錯誤 $info = curl_getinfo($done["handle"]); $output = curl_multi_getcontent($done["handle"]); $error = curl_error($done["handle"]); // 將請求結(jié)果保存,我這里是打印出來 print $output; // print "一個請求下載完成! "; // 把請求已經(jīng)完成了得 curl handle 刪除 curl_multi_remove_handle($downloader, $done["handle"]); } // 當沒有數(shù)據(jù)的時候進行堵塞,把 CPU 使用權(quán)交出來,避免上面 do 死循環(huán)空跑數(shù)據(jù)導致 CPU 100% if ($running) { $rel = curl_multi_select($downloader, 1); if($rel == -1){ usleep(1000); } } if( $running == false){ break; } } while (true); // 下載完畢,關閉下載器 curl_multi_close($downloader); echo "所有請求下載完成!";
在該例子中,首先創(chuàng)建三個或多個要請求的url請求對象。通過curl_multi_*函數(shù)創(chuàng)建下載器。將請求寫入下載器中。最后輪詢。等待三個請求現(xiàn)在完成。做處理。
四、復雜的curl_multi_*運用這就是curl_multi_*用法?too yong too simple!在上面的例子中。下載器$downloader中的請求是一開始就添加好了的。我們能不能動態(tài)的向下載器中添加請求。動態(tài)的從下載器中取出已經(jīng)完成了的請求。想想。這是什么?這不就是爬蟲的核心部分-動態(tài)下載器。如何動態(tài)的添加?我們可以用多進程通過IPC添加。我們可以通過協(xié)程通過隊列添加等待。
curl_multi_*函數(shù)實現(xiàn)的HTTP壓測工具:
https://github.com/hirudy/phplib/blob/master/phpAb.php。curl_multi_*實現(xiàn)的http請求類:
https://github.com/hirudy/phplib
我這實現(xiàn)了一個通過協(xié)程+curl_multi_*的爬蟲框架。
Tspider:https://github.com/hirudy/Tspider。
單進程可處理請求2000-5000/min。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/22106.html
摘要:普通請求創(chuàng)建多個資源并發(fā)創(chuàng)建多個資源創(chuàng)建批處理句柄增加句柄待優(yōu)化點在執(zhí)行而整個批處理句柄沒有全部執(zhí)行完畢時,系統(tǒng)會不停地執(zhí)行函數(shù)。進行改動的方式是應用函數(shù)庫中的函數(shù),其函數(shù)原型如下阻塞直到批處理連接中有活動連接。 普通請求 curl_normal.php use time:0.830 s curl_multi并發(fā) curl_multi.php use time:0.259 s ...
摘要:根據(jù)獲取請求對象這個比較簡單可以看官方文檔將三個待請求對象放入下載器中輪詢一旦有一個請求完成,找出來,處理因為底層是,所以最大受限于從請求中獲取信息內(nèi)容錯誤把請求已經(jīng)完成了得刪除當沒有數(shù)據(jù)的時候進行堵塞,把使用權(quán)交出來,避免上面死循環(huán)空跑數(shù) class CurlMultiUtil { /** * 根據(jù)url,postData獲取curl請求對象,這個比較簡單,可以看官方...
摘要:本程序是抓取知乎的用戶數(shù)據(jù),要能訪問用戶個人頁面,需要用戶登錄后的才能訪問。經(jīng)過查閱資料得知,是因為知乎對圖片做了防盜鏈處理。最終的結(jié)果是,用了一個周末就抓取了萬的用戶數(shù)據(jù)。 代碼托管地址:https://github.com/hoohack/zhihuSpider 這次抓取了110萬的用戶數(shù)據(jù),數(shù)據(jù)分析結(jié)果如下:showImg(https://segmentfault.com/img...
摘要:編程中的并發(fā)周末去北京面了兩個公司,認識了幾位技術(shù)牛人,面試中聊了很多,感覺收獲頗豐。本文大約總結(jié)了編程中的五種并發(fā)方式,最后的的實現(xiàn)純屬無聊,可以無視。生成的可以中斷函數(shù),并用向發(fā)送消息。 PHP編程中的并發(fā) 周末去北京面了兩個公司,認識了幾位技術(shù)牛人,面試中聊了很多,感覺收獲頗豐。認識到了自己的不足之處,也堅定了自己對計算機學習的信心。本文是對其中一道面試題的總結(jié)。 面試中有一個問...
摘要:不支持多線程模式和回調(diào)處理,因此內(nèi)部腳本都是同步阻塞式的,如果你發(fā)起一個的請求,那么程序就會阻塞,直到請求返回結(jié)果,才會繼續(xù)執(zhí)行代碼。參考資料手冊手冊預定義常量中實現(xiàn)多線程請求詳解每次使用同時并發(fā)多少請求合適簡書多線程及原理 后端服務開發(fā)中經(jīng)常會有并發(fā)請求的需求,比如你需要獲取10家供應商的帶寬數(shù)據(jù)(每個都提供不同的url),然后返回一個整合后的數(shù)據(jù),你會怎么做呢? 在PHP中,最直觀...
閱讀 3464·2021-11-17 17:00
閱讀 3829·2021-08-09 13:46
閱讀 2872·2019-08-30 15:54
閱讀 637·2019-08-30 13:54
閱讀 2951·2019-08-29 17:13
閱讀 3228·2019-08-29 14:00
閱讀 2982·2019-08-29 11:11
閱讀 1392·2019-08-26 10:15