
robots.txt 文件是位于网站根目录下的文本文件,用于指导搜索引擎爬虫(如 Googlebot)哪些页面可以访问,哪些应该避免。
Disallow 指令的常见用途:
使用 Disallow 规则来阻止爬虫抓取特定的低价值或重复性内容,以节省爬虫预算 (Crawl Budget)。
- 管理后台(/wp-admin/)。
- 带有会话 ID 或追踪参数的 URL。
- 搜索结果页面或筛选页面。
- 测试或开发环境的路径。
高级配置:通配符与 User-agent
您可以使用 * 作为通配符来匹配多种 URL 模式:
User-agent: Googlebot
Disallow: /private/ # 阻止访问 /private/ 目录
Disallow: /*?sort= # 阻止所有包含 ?sort= 参数的 URL
注意: robots.txt 只能阻止抓取,而不能阻止索引。如果页面没有被其他网站链接,但您想确保它不被索引,必须使用 <meta name="robots" content="noindex">。
