什么是Robots协议?
Robots协议(又称爬虫协议、机器人规则)是网站与搜索引擎爬虫之间的约定,通过文本指令明确哪些内容允许被抓取,哪些禁止抓取。它本质上是国际互联网界公认的道德规范,核心目的是保护网站敏感数据及用户隐私。
一、Robots.txt存储位置
必须存放于网站根目录下,且文件名需统一为小写(`robots.txt`)。原因有三:
1. 爬虫抓取逻辑起点:搜索引擎蜘蛛访问网站时,优先检查根目录是否存在该文件。若存在,则严格按规则抓取;若不存

2. 路径大小写敏感:部分系统对URL大小写敏感,统一小写文件名可避免识别错误。
3. 访问验证方式:用户可直接通过 `域名/robots.txt` 查看任意网站的协议内容。
二、Robots与Nofollow的区别
尽管两者均用于控制爬虫行为,但机制和效果差异显著:
| 维度 | Robots协议 | Nofollow属性 |
| 作用范围 | 禁止搜索引擎索引目标页面 | 仅禁止传递当前链接的权重 |
| 抓取可能性 | 完全屏蔽页面被抓取 | 页面仍可能通过其他路径被抓取 |
| 实现方式 | 根目录文本文件全局生效 | 单页面HTML标签(例:``) |
| 核心目的 | 保护隐私/敏感数据 | 减少无关链接的权重流失 |
> ? 关键结论:
> Robots协议能系统性阻止页面被索引(搜索结果中不可见),而nofollow仅声明“不投票”,不保证页面不被收录。
三、Robots语法规则
协议通过指令组合定义爬虫权限,核心语法如下:
1. 基础指令
2. 通配符与符号规则
> ?? 冲突处理:
> 若`Allow`与`Disallow`范围重叠,按字符长度优先执行(例:`Allow: /blog` 和 `Disallow: /blog/` 冲突时,后者生效)。
四、Robots协议的核心应用
1. 提升网站安全性
2. 优化服务器性能
```
Disallow: /videos/
Disallow: /images/.mp4$
```
3. 引导高效抓取
> ?? 行业共识:
> 尽管Robots协议无法律强制力,但违反者将破坏行业信任。如中国工程院院士高文指出,遵守该规则关乎中国互联网企业的国际声誉与长远发展。