来源:本站日期:2013-7-4
纵观整个互联网,其实我们知道现在很多资料都是复制粘贴复制粘贴的,但是我们在复制的过程中,是不是只是复制来发布的呢?很显然做优化的人都知道这当然是不可行的,力洋网络的负责人告诉我们,应该在复制的时候做点应该做的,把优化做好才是最重要的。
纵观整个互联网,其实我们知道现在很多资料都是复制粘贴复制粘贴的,但是我们在复制的过程中,是不是只是复制来发布的呢?很显然做优化的人都知道这当然是不可行的,力洋网络的负责人告诉我们,应该在复制的时候做点应该做的,把优化做好才是最重要的。
首先,对于重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕显示设计的页面;商店物品被显示在(有时甚至是链接到)多种不同的 URL 上,等等。目前,有些网站确实是为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。对于这样的,就是复制内容,而对于一些网站来说会有不一样的算法,像是谷歌,谷歌网站有方便易用的翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心你文章中对其他文章小片段的引用认定为重复内容。而对于谷歌来说,户使用 Google 时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到 Google 给出一些复杂的 URL 。但是在复制的和搜索引擎抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,好像谷歌,如果你的网站有文章的正常版和打印版,并且你没有在 robots.txt 里设定 noindex 标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上,因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。
再次我们来了解一下网站管理员如何主动处理内容复制问题。第一,阻止搜索引擎访问。也就是与其让我们的算法来确定一个文件的“最佳”版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的 robots.txt 文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。其次就是使用 301 重定向,或者让你的内部链接保持一致, 不要既有 /page/ ,又有 /page 和 /page/index.htm 的内部链接。而上面提到重构,如果你已经重构你的网站,请在你的原网站的 .htaccess 中使用 301 重定向(永久性重定向)来重定向你的用户、Google 爬虫以及其他搜索引擎蜘蛛等。
也就是在这大体上,我们需要对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站。