博主呓语:

评论:部分网站安全不到位 别拿Robots协议做挡箭牌

Posted by 破冰 on 2012-9-4 9:01 Tuesday

  以下为引用内容:

  近期,由于国内互联网上出现了一个新的搜索引擎竞争者,关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些人宣称:Robots协议是搜索领域的行业规范,触犯Robots协议是没有底线的行为,不禁不合法,而且还会泄露用户隐私。

  笔者也马马虎虎算是个IT工程师,不过主要研究方向是通信技术,在计算机和互联网领域,只能说是比外行人强点,但比内行人还差得多,充其量是个半专业人士。出于好奇,本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论,结果惊讶的发现,那些所谓的“专家”原来绝大多数都是“伪专家”,不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。

  虽然我顶多算是半个专业人士,但还是希望能说几句真话,希望能够帮助读者更加接近真相。

  Robots协议的由来

  早期的互联网主要是“用户-网站”模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当Google把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中,不再访问信息的源头或发布信息的网站。

  于是,为了维护自身的利益,一些欧美大型网站联合起来与Google谈判,要求Google必须做到“有所为有所不为”,于是就有了“Robots协议”。

  Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

  Robots协议的影响

  国内使用Robots协议最典型的案例,就是淘宝网和新浪微博拒绝百度搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。

  一些站长和程序员还把Robots协议当成偷懒的工具:对于那些本来需要加密保存的信息或限制访问的内容,他们只是写个了Robots.txt文件,要求搜索引擎不要去访问,之后便以为万事大吉。这不是典型的掩耳盗铃吗?

  不过,Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为,Google当年在制定这个协议时,特意留下了后手,即:协议中不仅包括是否允许搜索引擎进行搜索的内容,还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后,就利用这些排斥性规则挡住了后来的进入者。

  微软的必应,国产的搜狗、搜搜等搜索引擎,虽然运行多年,但搜索结果始终差强人意,并不是因为他们的技术能力真的不如百度,很大程度上就是受到了Robots协议的影响。

  Robots协议的误区

  有了前面的介绍,我们就可以来揭露那些“伪专家”们是如何误导技术知识有限的广大公众的。

  1)Robots协议不是行业规范,更不是国际标准

  所谓的Robots协议,其实就是Google自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似协议或声明。

  所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事来说,而不是真的当回事来做。

  不过客观的说,确实有一些网站站长误以为Robots协议是强制规范,误以为写了Robots.txt就万事大吉了。

  2)Robots协议和保护用户隐私毫不相干

  研究之后我才发现,最普遍,但也是最可笑的一种言论就是把Robots协议和用户隐私保护扯上关系,说什么违背Robots协议是泄漏用户隐私的主要原因。

  Robots协议即不是什么加密算法,也不是什么安全机制,怎么可能阻止外部用户访问相关数据呢?确切的说,Robots协议希望解决的,不是用户能不能访问的问题,而是用户是否可以通过搜索引擎来访问的问题。就算Robots协议挡得住搜索引擎,那也挡不住用户访问啊。只要用户能够从外部访问,那该“泄密”还是会“泄密”。

  想通过Robots协议来保护私密数据,实际上只是一些懒惰的站长们误解和滥用了Robots协议。所谓的搜索引擎泄露用户隐私,本质上说,还是网站本身安全性严重欠缺。

  到底有谁在遵守Robots协议

  到底谁遵守了Robots协议?这个问题很有挑战性。

  最近几天,百度和360相互揭底,各自爆出了不少对方违背Robots协议的案例。非常有趣的是,对于这些案例,双方采取的应对措施都是揭露对方的更多案例,而谁也没敢正面质疑对方提供案例的真实性。同时,在这些爆料中,包括Google在内其他一些国内国外主流搜索引擎也都或多或少的,不幸的躺着中枪。

  这些事情似乎在告诉我们,Robots协议只不过是某些人口中讨伐对手的工具而已,其实,起码在中国,谁也没太把Robots协议真的当回事,除非是自己的垄断地位受到威胁!

---------------------------------------------------------------------------------------------------------------------

  PS:上传到WEB服务器上的数据、文件如没设置访问权限,都可被访问到,基本是公开的;

  自己网站安全没做到位,别拿Robots协议做挡箭牌~~

  

发表评论: