簡介
SEO、robot.txt、搜索引擎優化
在浩海的互聯網世界中:
互聯網 宛如 宇宙
站點 宛如 星系
網頁 宛如 星球
網頁內容 宛如 生靈萬物
而在互聯網世界漫游的搜索引擎爬蟲小蜘蛛,就好比一搜穿梭在宇宙里的星際漫游器,想想是不是還挺浪漫的。對于不同的星系有著自己的規則,如果不準守規則,小心自動防御功能把 漫游器 打壞哦~
小二幻想過這個世界如果是由代碼組成的,還是挺有意思的,很多靈異事件都可以解釋為 bug,有次和同學腦洞大開聊了一晚上,有機會可以找個時間來構筑一個代碼 世界觀。漫游器法則
每個星系的入口處即網站根目錄都會設置一個 robot.txt 又叫做漫游器法則,記錄漫游器應該準守的規則。漫游器法則 更多的是一個協定,并不是寫了所有的爬蟲都會準守這個規則。
很多公司或者個人在沒有內容輸出時,往往會通過 爬蟲 去爬取別人站點的數據,如果準守規則也可以叫其 漫游器,但是不準守規則肆無忌憚爬取的稱之為 海盜船。被爬取的站點,對于這些 海盜船 會做出一定的判斷,或者訪問評率限制來保護自己。
名單法則在 robot.txt 中通過 User-agent 來規定那些 漫游器 應該準守哪些規則,使用 * 星號表示允許所有 漫游器 都應該準守例如User-agent: *。也可以對特定的漫游器做出限制,例如對 百度漫游器 做出限制 User-agent: Baiduspider。在名單法則之下是與之對應的 允許法則 和 拒接法則:
允許法則通過 Allow: 配合路徑法則來告訴 漫游器 哪些鏈接是應該爬取訪問的。
拒接法則通過 Disallow: 配合路徑法則來告訴 漫游器 哪些鏈接是不應該爬取訪問的。
路徑法則對 pathname 組成 query 的路徑,配合上 * 和 $ 符號可以拼湊出一條網站路徑規則。下面給出幾個例子:
用戶列表 https://pushme.top/users 用路徑表達 /users
文章評論 https://pushme.top/posts/1/comments 用路徑表達 /posts/*/comments
樣式文件 https://pushme.top/assets/styles/main.css 用路徑表達 /assets/styles/*.css$
更多 URL 詳細內容可以查看 URL 大爆炸星系推薦法則
在 投懷送抱 中介紹了 sitemap 網頁地圖,用于告訴漫游器哪些網站哪些頁面值得訪問。通過 Sitemap: 來指定 Sitemap: https://pushme.top/sitemap.xml。
單雙號法則網站和現實生活一樣也有分 單雙號,漫游器 和 海盜船 爬取頁面也會占用到服務器的資源。如果占用太多資源會導致 正常用戶 無法訪問網站,所以利用 單雙號法則 來限制 漫游器 的訪問頻率:
Crawl-delay: n 每次抓取間隔n秒。
Request-rate: x/n 抓取x個頁面在n秒之內。
掘金漫游器法則在講完了整體的漫游器法則構成,讓我們一起閱讀一下 掘金漫游器法則。訪問 https://juejin.im/robots.txt 就可以看到如下內容:
User-agent: * Request-rate: 1/1 Crawl-delay: 5 Disallow: /timeline Disallow: /submit-entry Disallow: /new-entry Disallow: /edit-entry Disallow: /notification Disallow: /subscribe/subscribed Disallow: /user/settings Disallow: /reset-password Disallow: /drafts Disallow: /editor Disallow: /user/invitation Disallow: /user/wallet Disallow: /entry/*/view$ Disallow: /auth Disallow: /oauth Disallow: /zhuanlan/*?sort=newest Disallow: /zhuanlan/*?sort=comment Disallow: /search Disallow: /equation
可以看到掘金漫游器法則還是相對寬松的,限制了訪問評率和不應該訪問網頁,沒有對具體的 百度漫游器 和 谷歌漫游器 等作出限制,所以同學也可以寫 漫游器 來爬取掘金的部分內容。比如今天的沸點中就看到了:
SEO 相關內容H1 の 小秘密
SEO 初體驗
img の 小九九
千里姻緣一線牽
投懷送抱
漫游器法則
其他關于 robot.txt 生成的工具這里推薦 robots文件生成 簡單易用。
小二在這里只討論了一些力所能及 且 容易做到 的 SEO 內容,關于 SEO 相關的內容就討論到這里了。雖然 語義化標簽 這部分內容也對 SEO 有所幫助,但是實踐起來挺難做到的,如果小二有想簡單且容易理解的方法到時候再補上這篇。
一起成長在困惑的城市里總少不了并肩同行的 伙伴 讓我們一起成長。
如果您想讓更多人看到文章可以點個 點贊。
如果您想激勵小二可以到 Github 給個 小星星。
如果您想與小二更多交流添加微信 m353839115。
本文原稿來自 PushMeTop
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/103413.html
簡介 字符串、數字、數組、對象、時間、類型、等于 科學家發現,人腦中會分泌多種能讓人感到快樂、安全和成就感的物質,這些物質統稱為快樂素。通常情況下,快樂素的釋放水平很低,維持我們心情平靜。只有當我們完成了預設目標,作為獎勵,大腦才會增加快樂素的分泌,讓人感受到滿足和成功的喜悅。 這是之前看到的一篇關于 大腦獎勵機制 文章的一段話,為了要獲得獎勵我們需要有預設目標,而是每日 30 秒系列也是為了幫助...
簡介 無障礙、HTML 小細節、焦點、a11y、Accessibility、框架選擇 無障礙開發還是應該從 HTML 開始聊起,無論是盲人閱讀器還是瀏覽器等工具最核心的部分還是在 HTML,畢竟沒了 CSS 只是不美觀了,沒了 JavaScript 只是少了交互和無限擴展的可能性。 有的同學會說了產品和老板拿著鞭子在后頭趕馬車哪里有時間寫這些。現實是這樣的,但是在選擇UI框架的時候可以選擇 無障礙...
簡介 可視區域、頁面優化、DOM節點多、圖片懶加載、性能 可視區域是一個前端優化經常出現的名詞,不管是顯示器、手機、平板它們的可視區域范圍都是有限。在這個 有限可視區域 區域里做到完美顯示和響應,而在這個區域外少做一些操作來減少渲染的壓力、網絡請求壓力。在 每日 30 秒之 對海量數據進行切割 中的使用場景,我們就是利用了 有限可視區域 只渲染一部分 DOM 節點來減少頁面卡頓。 既然 可視區域 ...
showImg(https://segmentfault.com/img/remote/1460000018771130?w=900&h=500); 簡介 分頁、優化、可視區域、無限加載 寫前端頁面時最經常遇到的開發需求之一就是 渲染后端數據返回的數據對象,當數據對象數量極多的時候便需要進行分頁。 常見的分頁方式有三種: 在頁面底部生成 上一頁、下一頁、頁面列表 按鈕。 用戶可以很直接的選擇...
閱讀 1107·2021-11-23 09:51
閱讀 1074·2021-10-18 13:31
閱讀 2966·2021-09-22 16:06
閱讀 4256·2021-09-10 11:19
閱讀 2195·2019-08-29 17:04
閱讀 425·2019-08-29 10:55
閱讀 2472·2019-08-26 16:37
閱讀 3368·2019-08-26 13:29