摘要:百度歌曲歌曲名歌手名開始寫代碼,解析頁面內(nèi)容,獲得歌曲編號歌曲名藝人名字收藏歌曲名收藏歌手名合并數(shù)組
使用php擴展curl爬取百度熱歌單曲
要求PHP擴展CURL
爬蟲主要是運用正則技術
半壺紗 之后生成php文件,格式為 */ class Fetch { function getData($url) { $data = array(); $str = $this->http($url); if($str) { $data = $this->parseHtml($str); } return $data; } function http($url) { //No.1 //開始寫代碼,根據(jù)所給鏈接抓取網(wǎng)站內(nèi)容 // $curl = $url; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //將curl_exec()獲取的信息以文件流的形式返回,而不是直接輸出。 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); $output = curl_exec($ch); return $output; //end_code } function parseHtml($str) { $ids = array(); //百度歌曲id $titles = array(); //歌曲名 $names = array(); //歌手名 //No.2 //開始寫代碼,解析頁面內(nèi)容,獲得歌曲編號、歌曲名、藝人名字 $pattern = "/href="/song/d*/"; preg_match_all($pattern, $str, $matches); foreach ($matches[0] as $v) { $ids[] = strtok($v, "href="/song/"); } $pattern = "/title="收藏D+" href="#">/"; //歌曲名 preg_match_all($pattern, $str, $matches); foreach ($matches[0] as $v) { $titles[] = strtr($v, array("title="收藏"=>"", "" href="#">"=>"")); } $pattern = "/author_list" title="D+">/"; //歌手名 preg_match_all($pattern, $str, $matches); foreach ($matches[0] as $v) { $names[] = strtr($v, array("author_list" title=""=>"", "">"=>"")); } //合并數(shù)組 foreach ($ids as $key => $value) { $coalesce[$key]["id"] = $ids[$key]; $coalesce[$key]["title"] = $titles[$key]; $coalesce[$key]["name"] = $names[$key]; } $url = array(); foreach ($coalesce as $v) { $url[] = "".$v["title"].""; } return $url; //end_code } } $url = "http://music.baidu.com/tag/%E7%83%AD%E6%AD%8C"; $fetch = new Fetch(); $data = $fetch->getData($url); print_r($data);
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/22921.html
摘要:由于公司網(wǎng)站配置的測試環(huán)境被百度爬蟲抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時,都會有一句由于文件存在限制指令無法提供內(nèi)容描述,于是便去學習了一波原來一般來說搜索引擎爬取網(wǎng)站時都會,先讀取下文件,并依照里面所設定的規(guī)則去爬取ps:由于公司網(wǎng)站配置的測試環(huán)境被百度爬蟲抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時,都會有一句由于robots.txt文件存在限制指令無法提供內(nèi)...
摘要:做了一個爬取的類可以獲取全國行政區(qū)域效果圖差不多有多行只要秒就可以爬完首先這個在阿里云市場是免費的每個人都可以用地址在這里要先注冊阿里云然后購買他這個一次只能買你可以買三四次應該就可以全部下載完畢了爬蟲思路初始化并將句柄添加進去執(zhí)行所有的句 做了一個爬取api的類.可以獲取2017全國行政區(qū)域. git: https://github.com/buffge/loa... 效果圖: s...
摘要:想辦法區(qū)分爬蟲程序和正常的用戶。爬蟲是工具性程序,對速度和效率要求較高。生態(tài)圈完善,是最大對手。最要命的是爬蟲需要經(jīng)常修改部分代碼。爬蟲分類通用爬蟲也就是百度搜狐等搜索引擎。原本是為測試來測試網(wǎng)站的,后來成了爬蟲工程師最喜愛的工具。 一、爬蟲的基本知識: 1. 什么是爬蟲 爬蟲的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者,從字面意思我們可以體會到:爬蟲就是把自己當做蜘...
摘要:可行性分析是通過來判定百度爬蟲并返回的。然而并沒有卵用參考資料如何解決百度爬蟲無法爬取搭建在上的個人博客的問題 本文最初發(fā)布于我的個人博客:咀嚼之味 我寫技術博客有兩個原因:一是總結自己近日的研究成果,二是將這些成果分享給大家。所以就我個人來說,還是比較希望寫出來的文章有更多的人能夠看到的。我最近注意到我的博客的流量大多來自于谷歌,而幾乎沒有來源于百度的。而本文就旨在提出這個...
摘要:從最大的同性社交平臺獲取數(shù)據(jù)好了,言歸正傳,回到題目。烏云密布的爬蟲百度網(wǎng)盤這件事,是我不想看到的,這類安全問題的一個共同特點用戶自身確實存在問題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網(wǎng)盤上看到上萬條車主個人信息,企業(yè)、政府高官信息、各種數(shù)據(jù)庫和無窮無盡的盜版》,一時間,這篇文章就火了,火爆程度另百度猝不及防。 其實呢,這事真不能全怪百度,畢竟用戶分享出去了。之所以引起這么...
閱讀 675·2021-09-30 09:47
閱讀 2869·2021-09-04 16:40
閱讀 853·2019-08-30 13:18
閱讀 3447·2019-08-29 16:22
閱讀 1551·2019-08-29 12:36
閱讀 583·2019-08-29 11:11
閱讀 1475·2019-08-26 13:47
閱讀 1128·2019-08-26 13:32