Robots.txt 的高级配置：如何精细控制爬虫行为

自由看

2020年11月10日

robots.txt 文件是位于网站根目录下的文本文件，用于指导搜索引擎爬虫（如 Googlebot）哪些页面可以访问，哪些应该避免。

Disallow 指令的常见用途：

使用 Disallow 规则来阻止爬虫抓取特定的低价值或重复性内容，以节省爬虫预算 (Crawl Budget)。

您可以使用 * 作为通配符来匹配多种 URL 模式：

User-agent: Googlebot


Disallow: /private/ # 阻止访问 /private/ 目录
Disallow: /*?sort= # 阻止所有包含 ?sort= 参数的 URL

注意： robots.txt 只能阻止抓取，而不能阻止索引。如果页面没有被其他网站链接，但您想确保它不被索引，必须使用 <meta name="robots" content="noindex">。