xiaoxuesuhe 发表于 2018-9-4 21:26:28

百度网站的Robots协议

无视robots协议,谁是不正当竞争?
  按照国际惯例,搜索引擎会自觉按照每个网站的“robots协议”给予自己的权限来进行抓取,包括百度、谷歌、雅虎在内的搜索引擎都会遵循这一协议。
  然而,据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索却无视这种设置,擅自实施了抓取行为。很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站robots.txt协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。
  对这一行为,360简单将其解释为“百度禁止360爬虫,是滥用Robots协议的恶意竞争行为”,实在有些避重就轻。
  就像资深互联网观察家洪波所说,“robots协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”
  知名意见领袖炳叔在他的一篇博文中发问,“企业,特别是掌握大数据的搜索企业,居然连这样一种简单的robot道德契约都不愿意遵守?那谁还敢、谁还愿意,尝试另一个国家开发的全球化应用呢?”

PCB抄板 发表于 2018-9-10 09:39:24

很多内容源网站禁止搜索引擎抓取的网页
页: [1]
查看完整版本: 百度网站的Robots协议