有点击没咨询?钱花了没效果?排名一直上不去?来电浩排科技即可获得SEO排名解决方案。

当前位置:主页 > SEO快排 >

Twitter技术问题导致抓取和URL规范化问题

  6月27号Google工具条PR更新了一次,然后很多人注意到Twitter首页PR降为零。(Google首页也降到9,不过这不是重点。)7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息,这次更新PR貌似主要就是为了修正Twitter PR值的问题。

  今天看到SEL上Vanessa Fox的一篇文章,解释了为什么Twitter的一些技术失误导致Google抓取、URL规范化、PR计算等一系列问题,很值得一读,所以大致翻译一下供读者参考。

  为什么不是Google的错误,Google却这么上心,更新了PR呢?猜测原因有二,一是无论任何情况下Twitter首页PR为零,大家肯定是说Google有问题,而不是Twitter有问题,虽然其实确实是Twitter自己造成的。二是,在Google+推出的同时,Google与Twitter合作合同到期了,不能直接通过API抓数据了,这时候Twitter PR降为零,大家恐怕心里会嘀咕,这Google真是过了河马上就拆桥啊,Google不想背这个黑锅。

  言归正传。

  Google一位发言人回复SEL关于Twitter PR时说:

  最近Twitter不断修改它们的robots.txt文件和HTTP头信息,玩得太起劲了,暂时造成Google算法处理Twitter时的URL规范化问题。现在规范化问题差不多解决了,所以我们更新了工具条PR以反映最新数据。Twitter在Google索引库里一直有很高PR,没有惩罚。

  所以Vanessa Fox研究了一下Twitter到底有什么robots文件、服务器头信息、URL规范化问题。真是不看不知道,一看吓一跳。顺便提一下,Vanessa Fox是前Google员工,负责网管工具webmaster tools的。

  预感这篇帖子会比较长,才刚开始就这么长了…

  Vanessa Fox搜了一下自己名字“Vanessa Fox”,结果如下图:

  

  有URL,但没标题,没说明,也就是其实没抓取,只是部分索引。

  直接搜Vanessa Fox自己Twitter页面URL的结果是:

  

  为什么出现了大写?URL最后面那个点(.)又是什么东东?到底怎么回事呢?

  先来看看Twitter的robots.txt文件

  twitter.com和www.twitter.com的robots.txt文件居然是不一样的。twitter.com/robots.txt是这样的:

  #Google Search Engine Robot

  User-agent: Googlebot

  # Crawl-delay: 10 — Googlebot ignores crawl-delay ftl

  Allow: /*?*_escaped_fragment_

  Disallow: /*?

  Disallow: /*/with_friends

  #Yahoo! Search Engine Robot

  User-Agent: Slurp

  Crawl-delay: 1

  Disallow: /*?

  Disallow: /*/with_friends

  #Microsoft Search Engine Robot

  User-Agent: msnbot

  Disallow: /*?

  Disallow: /*/with_friends

  # Every bot that might possibly read and respect this file.

  User-agent: *

  Disallow: /*?

  Disallow: /*/with_friends

  Disallow: /oauth

  Disallow: /1/oauth

  www.twitter.com/robots.txt是这样的:

  User-agent: *

  Disallow: /

  也就是说:

      某些情况下,带与不带www的两个版本内容可能是不一样的。

      Twitter貌似为了规范和网址,禁止搜索引擎爬行www版本。

      所以虽然www版本做了301转向到不带www的版本,但Twitter禁止搜索引擎抓www版本,所以搜索引擎蜘蛛看不到那个301啊。杯具啊。

      连向Twitter的链接有的是链到www版本,有的是不带www的版本,既然www版本禁止爬行,看不到301,链接权重不能传递,浪费了。

26,324 家企业都在用浩排关键词排名优化,快速提升网站关键词排名,你还在等什么?

关键词要求:关键词当前排名最好在前5页,当然0排名的站只要收录了一样可以优化到首页前3,只是周期会稍长些一般3-15天左右

合作流程:告知你要做的词和网址及搜索引擎 --> 我们报价 --> 确认是否合作 --> 我们开始优化 --> 关键词达标后我们通知你 --> 你确认付款

咨询:184-7622-8955(微信同号)    QQ:27424369

浩排科技
微信联系