如何编写robots.txt robots.txt协议-人人源码商城

全文2899字，预计阅读时间8分钟。

robots.txt 文件是一个文本文件，可以使用任何常见的文本编辑器（例如 Windows 自带的记事本）创建和编辑。 robots.txt 是一个协议，而不是命令。 robots.txt 是搜索引擎在访问网站时首先查看的文件。 robots.txt 文件告诉蜘蛛它可以查看服务器上的哪些文件。

robots.txt协议是当搜索蜘蛛访问一个站点时，首先会检查该站点的根目录下是否有robots.txt，如果有存在，搜索机器人会根据这个文件的内容来判断访问范围；如果此文件不存在，所有搜索蜘蛛将能够访问网站上不受密码保护的所有页面。百度官方建议，如果您的网站包含您不希望被搜索引擎索引的内容，您只需要使用 robots.txt 文件。如果您希望搜索引擎为您网站上的所有内容编制索引，请不要创建 robots.txt 文件。

robots.txt的写法：robots.txt写视频教程

robots.txt的作用是告诉蜘蛛哪些文件可以抓取，哪些文件不能抓取。

User-agent: *这里*代表所有搜索引擎类型，*是通配符

Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

Disallow: /cgi-bin/*. htm 无法访问 /cgi-bin/ 目录中的所有内容都以

Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。

允许：/cgi-bin/ 这里的定义是允许爬取cgi-bin目录下的目录

Allow: 这里定义/tmp 允许爬取tmp的整个目录

Allow: .htm$ 只允许访问，网站有三个目录限制搜索引擎访问，也就是搜索引擎不会访问这三个目录。

需要注意的是，每个目录都要单独声明，而不是“Disallow: /cgi-bin/ /tmp/”。

User-agent:后面的*有特殊含义，代表“任何机器人”，所以不能有“Disallow: /tmp/*”或“Disallow :*. gif”出现。

用户代理：*

不允许：/cgi-bin/

不允许：/tmp/

不允许：/~joe/

机器人特殊参数：

允许 Googlebot：

如果您想阻止除 Googlebot 之外的所有机器人访问您的页面，您可以使用以下语法：

用户代理：

不允许：/

用户 - agent: Googlebot

Disallow:

Googlebot 遵循指向自身而不是所有机器人的线。

“允许”扩展：

Googlebot 可识别名为“允许”的 robots.txt 标准扩展。其他搜索引擎的漫游器可能无法识别此扩展名，因此请使用您感兴趣的其他搜索引擎来查找它。 “允许”行与“禁止”行完全一样。只需列出您要允许的目录或页面。

您也可以同时使用“禁止”和“允许”。例如，要阻止子目录中除一页以外的所有页面，可以使用以下条目：

User-agent: Googlebot

Allow: /folder1/myfile.html

Disallow: /folder1/

这些条目会阻塞在里面 folder1目录除 myfile.html 之外的所有页面。

如果您想阻止 Googlebot 并允许另一个 Google bot（如 Googlebot-Mobile），您可以使用“允许”规则来允许访问该 bot。示例：

用户代理：Googlebot

不允许：/

p> User-agent: Googlebot-Mobile

允许：

使用*字符序列匹配：

您可以使用星号 (*) 来匹配字符序列。例如，要阻止访问所有以 private 开头的子目录，请使用以下条目：User-Agent: Googlebot

Disallow: /private*/

要阻止访问所有包含问号 (?) 的 URL，请使用以下条目：

用户代理：*

Disallow: /*?*

使用 $ 匹配 URL 结尾

您可以使用 $ 字符来指定匹配 URL 的结束字符。例如，要阻止以 .asp 结尾的 URL，请使用以下条目：User-agent: Googlebot

Disallow: /*.asp$

/p>

您可以将此模式与 Allow 指令匹配使用。例如，如果？表示会话 ID，您可以排除所有包含该 ID 的网址，以确保 Googlebot 不会抓取重复的页面。但是，URL 以 ? 可能是您要包含的页面版本。在这种情况下，robots.txt 文件可以设置如下：

User-agent: *

Allow: /*?$

不允许：/*?

不允许：/ *?

行将阻止包含 ? （具体来说，它将阻止任何以您的域名开头，后跟任何字符串，然后是问号 (?)，再后跟任何字符串的 URL）。

Allow: /*?$ 行将允许任何以 ? 结尾的 URL。（具体来说，它将允许以您的域名开头的任何 URL，后跟任何字符串，然后是问号 (?)，问号后没有任何字符的 URL）。

尽管 robots.txt 已经存在多年，但主要搜索引擎对它的解释方式略有不同。谷歌和百度都在他们的站长工具中提供了机器人工具。如果您编写 robots.txt 文件，建议您在这两种工具中对其进行测试，因为它们的解析实现确实存在细微差别 [1]。

小编为您节选更多关于这个问题的相关文章Array

人人源码

如何编写robots.txt robots.txt协议

最新资讯

微信公众号如何发布内容(微信公众号怎么发布内容微信公众号发布内容的操作方法)

小程序源码安装教程(小程序源码怎么导入小程序源码使用教程)

小程序源码如何开发(微信小程序源码开发及搭建)

成品APP漫画源码下载网站(拷贝漫画网页端登陆地址是什么?)

常见的论坛源码下载网站(比较正规的网格化管理系统源码交易平台有哪些)

免费源码资源源码站(免费源码有哪些网站)

抖音短剧分销系统开发(抖音分销平台叫啥)

源码交易网(比较正规的网格化管理系统源码交易平台有哪些)

火车头采集器怎么样(高铁采集器和火车头采集器有什么区别)

ai自动更新内容的平台(ai创作助手有哪些比较好用?ai人工智能写作好用吗?)

网站被百度降权怎么恢复？(网站被降权了怎么解除)

全球最赚钱的13个共享经济模式(共享经济这种新的商业模式有哪些案例?)

如何利用共享经济赚钱(云账户天津共享经济怎么赚钱)

共享棋牌室的经营模式(想要开设一家神雀手共享棋牌室,应该注意哪些经营细节?)

如何利用AI自动生成网站内容(写作ai有哪些?ai自动生成文案如何实现?)

热门标签