robots.txt文件是网站用于与搜索引擎蜘蛛(爬虫)和其他自动化代理进行通信的标准。 它是放置在网站根目录中的文本文件,它通常包含特定格式的指令,通知搜索引擎爬虫允许或禁止访问哪些页面或目录。 该协议帮助网站所有者控制搜索引擎与其网站交互的方式,并防止某些页面被索引或显示在搜索结果中。
robots.txt文件基本结构的示例:
User-agent: [user-agent name]
Disallow: [URL path(s)]
Allow: [URL path(s)]
“User-agent”(标识特定的爬虫或用户代理),字段指定指令适用的特定搜索引擎爬虫或用户代理。 例如,“*”是代表所有用户代理的通配符,意味着该指令适用于所有爬虫。
“Disallow”(指定不应爬行的路径或目录),字段表示不允许抓取的URL路径或目录。 它告诉搜索引擎爬虫不要访问或索引这些页面。 多个“Disallow”指令可用于阻止不同的 URL 路径或目录。
“Allow”(覆盖某些页面或目录的特定“禁止”规则),字段用于指定不允许的路径的例外情况。 它可用于覆盖特定的禁止规则并允许访问某些页面或目录。 与“Disallow”一样,也可以使用多个“Allow”指令。
以一个示例做一个简单说明:
User-agent: *
Disallow: /private/
Disallow: /admin/
Allow: /public/
在上面的示例中,指令适用于所有用户代理(用“*”表示)。 “/private/”和“/admin/”目录不允许抓取,“/public/”目录允许抓取。
robots.txt文件充当对搜索引擎爬虫的请求,并且合规爬虫通常会遵守其指令。 但是,它不提供安全性或阻止访问受限内容。 明智的爬虫不会访问不允许的页面,但恶意或不合规的爬虫可能会忽略这些指令。
此外,如果某些搜索引擎从其他网站链接或在指令到位之前对页面进行了索引,则某些搜索引擎可能仍会对robots.txt文件中不允许的页面进行索引。 因此,可能需要采取其他措施(例如密码保护或其他访问控制)来限制对敏感内容的访问。
robots.txt文件的基本结构包括特定指令,例如“User-agent”(标识特定的爬虫或用户代理)、“Disallow”(指定不应爬行的路径或目录)以及 “Allow”(覆盖某些页面或目录的特定“禁止”规则)。
不允许google蜘蛛Googlebot抓取网页的示例:
User-agent: Googlebot
Disallow: /admin/
允许百度蜘蛛Baiduspider抓取网页的示例(注意,这是一个错误的示例,日常中有可能被犯的错误):
User-agent: Baiduspider
Allow: /public/
请注意,robots.txt协议中默认支持所有搜索引擎爬虫爬取所有页面,只使用“Allow”指令没有意义。 大多数爬虫将缺少“禁止”解释为抓取特定URL的权限,因此,如果您没有为搜索引擎爬虫设置任何“禁止”指令,则默认情况下它应该能够抓取您的整个网站。
正确的命名用示例,有禁止(Disallow)再有允许(Allow)才有意义:
User-agent: Baiduspider
Disallow: /admin/
Allow: /public/
所以“Allow”字段用于指定不允许的路径的例外情况,而不是允许抓取的URL或目录。
上一篇:响应式网站
下一篇:静态URL和动态URL