谷歌發(fā)布了一份新的 Robots.txt 指南,解釋了 Robots.txt 如何幫助出版商和搜索引擎優(yōu)化人員控制搜索引擎爬蟲和其他機器人(服從 Robots.txt)。 該文檔包括阻止特定頁面(如購物車)、限制某些機器人以及使用簡單規(guī)則管理爬行行為的示例。

從基礎(chǔ)到高級
新文檔快速介紹了什么是 Robots.txt,并逐步介紹了出版商和搜索引擎優(yōu)化人員可以使用 Robots.txt 做哪些事情,以及 Robots.txt 如何使他們受益。
文檔第一部分的主要內(nèi)容是介紹 Robots.txt 是一個穩(wěn)定的網(wǎng)絡(luò)協(xié)議,已有 30 年的歷史,受到搜索引擎和其他爬蟲的廣泛支持。
如果缺少 Robots.txt,谷歌搜索控制臺會報告 404 錯誤信息。 出現(xiàn)這種情況并無大礙,但如果你覺得在 GSC 中看到這種情況很煩,可以等待 30 天,警告就會消失。 另一種方法是創(chuàng)建一個空白的 Robots.txt 文件,這也是 Google 可以接受的。
谷歌的新文檔解釋道:
“You can leave your robots.txt file empty (or not have one at all) if your whole site may be crawled, or you can add rules to manage crawling.”
從這里開始,它涵蓋了限制特定頁面或部分的自定義規(guī)則等基礎(chǔ)知識。
Robots.txt 的高級用法涵蓋了這些功能:
- 可針對特定爬蟲使用不同規(guī)則。
- 可阻止 PDF 或搜索頁面等 URL 模式。
- 實現(xiàn)對特定機器人的細粒度控制。
- 支持內(nèi)部文檔注釋。
新文檔最后介紹了編輯 Robots.txt 文件的簡單方法(這是一個規(guī)則簡單的文本文件),因此只需一個簡單的文本編輯器即可。 許多內(nèi)容管理系統(tǒng)都有編輯 Robots.txt 文件的方法,還有一些工具可用于測試 Robots.txt 文件是否使用了正確的語法。
無天博客
掃一掃加微信 


最新評論
通過 systemctl 管理 firewalld 服務(wù): # 啟動防火墻 systemctl start fire
firewalld 常用命令: # 查看當前狀態(tài) firewall-cmd --state # 查看所有規(guī)則 f
轉(zhuǎn)自寶塔平臺,留存?zhèn)溆?/span>
來源通義千問
$viewrnd=rand(2,5); 這個是重點
多年前親測有用,現(xiàn)在你只能網(wǎng)上再找找了,注意版本號
親測無效。。
復(fù)制了兩段代碼后直接前后臺都你的網(wǎng)站遇到致命錯誤。。。