Robots.txt 的高级配置:如何精细控制爬虫行为

Robots.txt 的高级配置:如何精细控制爬虫行为

robots.txt 文件是位于网站根目录下的文本文件,用于指导搜索引擎爬虫(如 Googlebot)哪些页面可以访问,哪些应该避免。

Disallow 指令的常见用途:

使用 Disallow 规则来阻止爬虫抓取特定的低价值或重复性内容,以节省爬虫预算 (Crawl Budget)。

  • 管理后台(/wp-admin/)。
  • 带有会话 ID 或追踪参数的 URL。
  • 搜索结果页面或筛选页面。
  • 测试或开发环境的路径。

高级配置:通配符与 User-agent

您可以使用 * 作为通配符来匹配多种 URL 模式:

User-agent: Googlebot


Disallow: /private/ # 阻止访问 /private/ 目录
Disallow: /*?sort= # 阻止所有包含 ?sort= 参数的 URL

注意: robots.txt 只能阻止抓取,而不能阻止索引。如果页面没有被其他网站链接,但您想确保它不被索引,必须使用 <meta name="robots" content="noindex">

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注