如何编写robots.txt robots.txt协议

全文2899字,预计阅读时间8分钟。

robots.txt 文件是一个文本文件,可以使用任何常见的文本编辑器(例如 Windows 自带的记事本)创建和编辑。 robots.txt 是一个协议,而不是命令。 robots.txt 是搜索引擎在访问网站时首先查看的文件。 robots.txt 文件告诉蜘蛛它可以查看服务器上的哪些文件。

robots.txt协议是当搜索蜘蛛访问一个站点时,首先会检查该站点的根目录下是否有robots.txt,如果有 存在,搜索机器人会根据这个文件的内容来判断访问范围; 如果此文件不存在,所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。 百度官方建议,如果您的网站包含您不希望被搜索引擎索引的内容,您只需要使用 robots.txt 文件。 如果您希望搜索引擎为您网站上的所有内容编制索引,请不要创建 robots.txt 文件。

robots.txt的写法:robots.txt写视频 教程

robots.txt的作用是告诉蜘蛛哪些文件可以抓取,哪些文件不能抓取。

User-agent: *这里*代表所有搜索引擎类型,*是通配符

Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

< p >

Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

Disallow: /cgi-bin/*. htm 无法访问 /cgi-bin/ 目录中的所有内容都以

Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。

允许:/cgi-bin/ 这里的定义是允许爬取cgi-bin目录下的目录

Allow: 这里定义/tmp 允许爬取tmp的整个目录

Allow: .htm$ 只允许访问,网站有三个目录限制搜索引擎访问,也就是搜索引擎不会访问这三个目录。

需要注意的是,每个目录都要单独声明,而不是“Disallow: /cgi-bin/ /tmp/”。

User-agent:后面的*有特殊含义,代表“任何机器人”,所以不能有“Disallow: /tmp/*”或“Disallow :*. gif”出现。

用户代理:*

不允许:/cgi-bin/

不允许:/tmp/

不允许:/~joe/

机器人特殊参数:

允许 Googlebot:

如果您想阻止除 Googlebot 之外的所有机器人访问您的页面,您可以使用以下语法:< /p>

用户代理:

不允许:/

用户 - agent: Googlebot

Disallow:

Googlebot 遵循指向自身而不是所有机器人的线。

“允许”扩展:

Googlebot 可识别名为“允许”的 robots.txt 标准扩展。 其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎来查找它。 “允许”行与“禁止”行完全一样。 只需列出您要允许的目录或页面。

您也可以同时使用“禁止”和“允许”。 例如,要阻止子目录中除一页以外的所有页面,可以使用以下条目:

User-agent: Googlebot

Allow: /folder1/myfile.html

Disallow: /folder1/

这些条目会阻塞在里面 folder1目录除 myfile.html 之外的所有页面。

如果您想阻止 Googlebot 并允许另一个 Google bot(如 Googlebot-Mobile),您可以使用“允许”规则来允许访问该 bot。 示例:

用户代理:Googlebot

不允许:/

p> User-agent: Googlebot-Mobile

允许:

使用*字符序列匹配:

您可以使用星号 (*) 来匹配字符序列。 例如,要阻止访问所有以 private 开头的子目录,请使用以下条目:User-Agent: Googlebot

Disallow: /private*/

p>

要阻止访问所有包含问号 (?) 的 URL,请使用以下条目:

用户代理:*

Disallow: /*?*

使用 $ 匹配 URL 结尾

< p> 您可以使用 $ 字符来指定匹配 URL 的结束字符。 例如,要阻止以 .asp 结尾的 URL,请使用以下条目:User-agent: Googlebot

Disallow: /*.asp$

< p> /p>

您可以将此模式与 Allow 指令匹配使用。 例如,如果? 表示会话 ID,您可以排除所有包含该 ID 的网址,以确保 Googlebot 不会抓取重复的页面。 但是,URL 以 ? 可能是您要包含的页面版本。 在这种情况下,robots.txt 文件可以设置如下:

User-agent: *

Allow: /*?$

不允许:/*?

不允许:/ *?

< /p>

行将阻止包含 ? (具体来说,它将阻止任何以您的域名开头,后跟任何字符串,然后是问号 (?),再后跟任何字符串的 URL)。

Allow: /*?$ 行将允许任何以 ? 结尾的 URL。 (具体来说,它将允许以您的域名开头的任何 URL,后跟任何字符串,然后是问号 (?),问号后没有任何字符的 URL)。

尽管 robots.txt 已经存在多年,但主要搜索引擎对它的解释方式略有不同。 谷歌和百度都在他们的站长工具中提供了机器人工具。 如果您编写 robots.txt 文件,建议您在这两种工具中对其进行测试,因为它们的解析实现确实存在细微差别 [1]。

小编为您节选更多关于这个问题的相关文章Array