robots.txt 文件是一个文本文件,可以使用任何常见的文本编辑器(例如 Windows 自带的记事本)创建和编辑。 robots.txt 是一个协议,而不是命令。 robots.txt 是搜索引擎在访问网站时首先查看的文件。 robots.txt 文件告诉蜘蛛它可以查看服务器上的哪些文件。
robots.txt协议是当搜索蜘蛛访问一个站点时,首先会检查该站点的根目录下是否有robots.txt,如果有 存在,搜索机器人会根据这个文件的内容来判断访问范围; 如果此文件不存在,所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。 百度官方建议,如果您的网站包含您不希望被搜索引擎索引的内容,您只需要使用 robots.txt 文件。 如果您希望搜索引擎为您网站上的所有内容编制索引,请不要创建 robots.txt 文件。
robots.txt的写法:robots.txt写视频 教程
robots.txt的作用是告诉蜘蛛哪些文件可以抓取,哪些文件不能抓取。
User-agent: *这里*代表所有搜索引擎类型,*是通配符
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录
Disallow: /require/ 这里的定义是禁止爬取require目录下的目录
< p >Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录
Disallow: /cgi-bin/*. htm 无法访问 /cgi-bin/ 目录中的所有内容都以
Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。
允许:/cgi-bin/ 这里的定义是允许爬取cgi-bin目录下的目录
Allow: 这里定义/tmp 允许爬取tmp的整个目录
Allow: .htm$ 只允许访问,网站有三个目录限制搜索引擎访问,也就是搜索引擎不会访问这三个目录。
需要注意的是,每个目录都要单独声明,而不是“Disallow: /cgi-bin/ /tmp/”。
User-agent:后面的*有特殊含义,代表“任何机器人”,所以不能有“Disallow: /tmp/*”或“Disallow :*. gif”出现。
用户代理:*
不允许:/cgi-bin/
不允许:/tmp/
不允许:/~joe/
机器人特殊参数:
允许 Googlebot:
如果您想阻止除 Googlebot 之外的所有机器人访问您的页面,您可以使用以下语法:< /p>
用户代理:
不允许:/
用户 - agent: Googlebot
Disallow:
Googlebot 遵循指向自身而不是所有机器人的线。
“允许”扩展:
Googlebot 可识别名为“允许”的 robots.txt 标准扩展。 其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎来查找它。 “允许”行与“禁止”行完全一样。 只需列出您要允许的目录或页面。
您也可以同时使用“禁止”和“允许”。 例如,要阻止子目录中除一页以外的所有页面,可以使用以下条目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
这些条目会阻塞在里面 folder1目录除 myfile.html 之外的所有页面。
如果您想阻止 Googlebot 并允许另一个 Google bot(如 Googlebot-Mobile),您可以使用“允许”规则来允许访问该 bot。 示例:
用户代理:Googlebot
不允许:/
p> User-agent: Googlebot-Mobile允许:
使用*字符序列匹配:
您可以使用星号 (*) 来匹配字符序列。 例如,要阻止访问所有以 private 开头的子目录,请使用以下条目:User-Agent: Googlebot
Disallow: /private*/
p>
要阻止访问所有包含问号 (?) 的 URL,请使用以下条目:
用户代理:*
Disallow: /*?*
使用 $ 匹配 URL 结尾
< p> 您可以使用 $ 字符来指定匹配 URL 的结束字符。 例如,要阻止以 .asp 结尾的 URL,请使用以下条目:User-agent: GooglebotDisallow: /*.asp$
< p> /p>
您可以将此模式与 Allow 指令匹配使用。 例如,如果? 表示会话 ID,您可以排除所有包含该 ID 的网址,以确保 Googlebot 不会抓取重复的页面。 但是,URL 以 ? 可能是您要包含的页面版本。 在这种情况下,robots.txt 文件可以设置如下:
User-agent: *
Allow: /*?$
不允许:/*?
不允许:/ *?
< /p>
行将阻止包含 ? (具体来说,它将阻止任何以您的域名开头,后跟任何字符串,然后是问号 (?),再后跟任何字符串的 URL)。
Allow: /*?$ 行将允许任何以 ? 结尾的 URL。 (具体来说,它将允许以您的域名开头的任何 URL,后跟任何字符串,然后是问号 (?),问号后没有任何字符的 URL)。
尽管 robots.txt 已经存在多年,但主要搜索引擎对它的解释方式略有不同。 谷歌和百度都在他们的站长工具中提供了机器人工具。 如果您编写 robots.txt 文件,建议您在这两种工具中对其进行测试,因为它们的解析实现确实存在细微差别 [1]。
小编为您节选更多关于这个问题的相关文章Array