robots.txt 写法，禁止抓取不相关页面

2026.03.09 | 5716944 | 14次围观

优化网站抓取效率：详解 robots.txt 的正确写法与禁止抓取不相关页面策略

在网站管理与搜索引擎优化中,robots.txt 文件扮演着“交通指挥员”的角色，它通过简单的文本指令，引导搜索引擎爬虫抓取或禁止抓取特定页面，正确配置 robots.txt 不仅能提升网站抓取效率，还能避免不相关页面被索引，从而节省服务器资源并保护敏感内容。

robots.txt 的核心写法
该文件需放置在网站根目录（如 https://example.com/robots.txt），基本语法包括：

禁止所有爬虫访问后台管理页面和临时文件：

User-agent: *
Disallow: /admin/
Disallow: /tmp/

禁止抓取不相关页面的策略
不相关页面通常指对用户搜索无价值的内部内容，如测试页面、重复内容、参数化URL或动态生成的临时文件，抓取这些页面会浪费爬虫配额，导致重要页面未被及时收录，优化建议：

明确禁止路径：使用 Disallow 精准屏蔽不必要目录，如 /search?、/print/。
利用通配符：用屏蔽动态参数，如 Disallow: /*?sort= 可避免排序页面被抓取。
区分爬虫类型：针对特定爬虫设置规则，如对图片爬虫单独开放图片目录。
结合站点地图：在 robots.txt 末尾添加 Sitemap: https://example.com/sitemap.xml，主动引导爬虫抓取重要页面。

注意事项

合理编写 robots.txt 是网站基础运维的关键一步，通过禁止抓取不相关页面，网站能更高效地利用爬虫资源，提升核心内容的收录速度与搜索排名，最终优化用户体验。

本文系作者授权妙妙经验网发表，未经许可，不得转载。