公众号可被搜索引擎抓取,微信或将变得更“互联”

共1999字,预计阅读时间5分钟。

虽然官方做出了回应,但这或许也是微信进一步“互联互通”的预兆。

微信公众号的内容只能在微信中查看,这在多年前可以说已经成为用户的共识。 不过近日有消息称,微信公众号的内容可以被Google、Bing等搜索引擎搜索到。

但腾讯方面很快给出了回应,称由于近期平台技术升级,公众号的robots协议存在漏洞,导致有可能 用于外部爬虫技术抓取公众号部分内容,但目前漏洞已修复。 按照这个说法,这次的情况只是技术操作失误。

那么,导致公众号内容出现在海外搜索引擎山上的“罪魁祸首”机器人协议到底是什么? 其实robots协议也叫robots.txt,是一个存放在网站根目录下的文件。 ASCII编码的文本文件,它唯一的作用就是告诉搜索引擎的用户代理(网络蜘蛛)网站中哪些内容不对搜索引擎蜘蛛开放,哪些内容可以被抓取。

作为控制搜索引擎抓取网站内容的策略,这个文件一般放在网站的根目录下,即/robots.txt . 因此,您可以直接在网站域名后添加/robots.txt来访问网站的robots协议页面。

以淘宝的“https://www.taobao.com/robots.txt”为例,可以看出这个电商网站采用的robots协议其实很简单,“ User-agent”主要作用是告诉网站服务器访问者使用什么工具请求,后面的“Baiduspider”就是著名的百度搜索引擎蜘蛛,最后一个“Disallow:/”,根据 robots协议,禁止被描述的搜索引擎蜘蛛(百度)访问网站的任何部分。

其实早在2008年9月,百度搜索引擎就已经被淘宝封杀,而这几行简单的代码也让淘宝掌握了竞争的战略 level 的主动性避免了流量被百度搜索引擎抢走,同时也避免了平台上的商家不得不为百度的竞价排名付费的可能,间接催生了淘宝的竞价排名系统。

微信也是如此。 此前,微信公众号的内容只能在应用程序的搜索功能或腾讯的搜狗搜索引擎中搜索。 这主要是因为用户上网的最终目的往往是为了消费内容,而内容,尤其是高质量的微信的原创内容是天然的流量来源,可以帮助微信形成封闭的商业生态。 因此,让用户在系统内只能访问微信公众号的内容,成为微信保护私域流量的关键。

那么问题来了,robots协议会不会有漏洞? 答案是肯定的。 机器人协议本质上是网站运营商提供的规则,但规则难免存在漏洞。 但是robots协议很难出问题,因为它的写法很简单,逻辑也很直白。 它可以清楚地表达允许搜索引擎爬虫访问哪些内容以及哪些内容。 特别是微信的协议规则非常简单,只对自己的应用内搜索和搜狗搜索开放的robots协议,基本上没有任何多余的内容。

更重要的一点是,robots协议本身其实是一个“君子协议”,是搜索引擎和网站之间的共识,不具有法律效力 . 也没有技术限制。 那么换句话说,这也意味着机器人协议在技术上无法对抗搜索引擎爬虫。

比如有些网站不想让爬虫占用他们宝贵的服务器资源,往往会直接在robots.txt文件中写这样的规则,“User-agent: Googlebot, Allow: /User -agent:*,Disallow:/”,表示本站只允许谷歌爬虫爬取,拒绝任何其他搜索引擎。

不过,有趣的事情来了,苹果在官网“Applebot”页面的声明中写道,“如果robots.txt中没有提到Applebot,但是提到了Googlebot,那么Applebot就会 follow Googlebot instructions”,言外之意是Applebot也是Googlebot。

其实robots协议不会经常修改,毕竟它的内容是 与内容一致 运营策略密切相关。 然而,在微信机器人协议顺利运行多年后,在监管部门要求互联网厂商互联互通时出现了“漏洞”。 这件事可以说是非常“巧合”了。

9月17日,应监管部门要求,各大互联网企业几年来筑起的“高墙”开始逐步倒塌。 尽管在要求“互联互通”一个月后,各大互联网厂商之间的壁垒并没有在一夜之间崩塌,但也有逐渐消融的迹象。

对于微信,公众号内容开放给外界可能是腾讯逐步实现互联互通的一个环节。 现在微信公众号的内容出现在谷歌和必应上,更像是微信在测试新的机器人协议。 毕竟他们之前的机器人协议可以说是非常的简单,只需要让搜狗搜索一个家庭就可以了,而现在却需要对外开放。

要知道国内的搜索引擎蜘蛛不只是大家比较熟悉的百度、搜狗、360,还有网易有道的YoudaoBot,一搜的EasouSpider 、YisouSpider、微软的Bingbot和Msnbot等大大小小的不知名爬虫。 因此,有观点认为,这将使微信机器人协议的编写难度急剧上升。