今天

       当我看到富士康员工第十跳的时候,我同时打开另一个新闻,美国合成单细胞生物 世界首个"人造生命"诞生。又一个时代的开始,我们没有经历工业革命,我们却始终没有跳出工业革命的思维。生物体的革命快要开始,这是人类自身的又一次变革。我伟大而又贫穷的祖国,你离它是如此的近,却又是如此的遥远。

google 的良苦用心:网站管理员工具(转)

2005年的google做了大量的调整,因为到了05年,很多SEO的方法慢慢泛滥了起来。同时很多网站主对google如何对待他们的网站一直没有明确的途径去了解。google应对这个局面的方法非常的开放,也非常聪明,就是希望和网站主达成一种双赢的局面。所以有了google w

2005年的google做了大量的调整,因为到了05年,很多SEO的方法慢慢泛滥了起来。同时很多网站主对google如何对待他们的网站一直没有明确的途径去了解。google应对这个局面的方法非常的开放,也非常聪明,就是希望和网站主达成一种双赢的局面。所以有了google webmaster tools (网站管理员工具)这个工具。

这个工具从推出到现在,经历了很多次的增增减减,它努力追求让这个工具越来越对站长有利。一直以来,我都看到很多人对它的认识还不够深刻,所以单独来讲一讲这个工具是很有必要的。

利用Google Search Appliance 服务器做SEO》一文中,我曾经说:“会把GSA后台的操作也讲述一下。到时候你会对google webmaster tool这个工具有更深一层的理解。”  GSA就是一台把google整个硬件和软件打包在一起的服务器。这台服务器就是一个小型的google搜索引擎,它以前的版本的名字就叫 google mini , 能形象的说明这个服务器的性质。

黄色的是GSA,蓝色的是google mini

黄色的是GSA,蓝色的是google mini

 

现在我就把GSA后台的截图发出来,大家一定能发现点什么。

GSA后台

GSA后台

这个后台对很多人来说一定有似曾相识的感觉,因为在google webmastel tools里,不光界面和这个相似,里面的很多功能其实都已经有了。

google webmastel tools的前身是google sitemaps,以前主要的用途是让网站主解决爬虫的抓取故障和提交sitemap。这两大功能其实只解决了google爬虫抓取的局限性,这主要只解决了google自己的问题。而那时SEO越来越流行,很多网站甚至用作弊的方法来做SEO。大家这么忙活,无非是想从google上面多拉一点流量,这个是广大网站主需要解决的问题。

本来,SEO看起来和搜索引擎是矛盾的。百度对SEO的认识就是这样,所以它仇视SEO,把自己和很多做SEO的网站主搞得处于对立的局面。

但是google不这么认为的。因为搜索引擎需要大量的网站来供应内容,它的期望是内容主次分明,越优质越好。而网站主希望能从搜索引擎获取流量,期望值是流量不光越多越好,还要越匹配越好的。那两者之间其实可以达成双赢的局面。

我做了很多年SEO,虽然从google获得了大量的流量。但是也越来越发现我是在给google打工的。因为我把一个网站的结构理顺了,把重要的内容突出了,google就知道了我网站有些什么内容,也知道了这些内容中的重点。这样,至少在判断我这个网站讲了什么内容的时候,google是很有把握的。而当很多网站都这么做的时候,google的内容质量整体就上升了一个等级。用户从google搜索到的内容更符合他们的需求了。同时,网站主凭借着主次分明的内容拿到的流量也是匹配网站主需求的优质的流量。

google从一开始就会这样说:“好吧,网站主,既然你想得到你想要的流量,那你提供相关的内容给我。你如果不知道什么是相关的内容,那么我来告诉你,还告诉你怎么来突出重点。”

所以《google网站质量指南》里的几百篇文章,以及google webmastel tools都是来告诉你要如何提供什么内容给搜索引擎。在我看来,google webmastel tools是google提供的最好的SEO工具,里面的每一个功能都是和SEO相关的,google在里面告诉你了要如何做SEO。

GSA的硬件和google现在用的服务器是一样的,包括传说中的自带电源和从没向外界说过的几公斤重的散热片。

google的专利-自带电源

google的专利-自带电源

这个GSA的软件部分,后台应该是google.com的老版本的一个子集。所以你可以简单的认为google的后台也是这样的。为了能尽量为网站主着想,google陆陆续续的把后台的一些功能都放进了google webmastel tools里。对于google来说,只要不泄露自己的核心机密,很多的数据和工具,如果能对网站主做好SEO有帮助的话,就把它开放出来让大家使用。

我就不一一说明每个功能在SEO上的作用,因为这个里面的很多细节都繁琐得可以写成一篇文章。以下就讲几个最近在google webmastel tools增减的功能,看看google是出于什么目的来调整的。

1,google webmastel tools 里有个控制爬虫“抓取速度”的选项,以前只能控制三个速度,就是“更快”、“正常”、“更慢”。而在我以前操作的google mini(GSA的老版本)中,也有这样一个调节爬虫抓取速度的选项,但是是一个拉动的滑块,可以调节出非常精确的抓取速度来。某一天,当我验证完一个新站的时候,发现google webmastel tools也已经是这样的了。

调节抓取速度

调节抓取速度

 这个对于很多网站来说是很有好处的,因为那些网站不怕你爬虫来得多了把服务器爬死,就怕你不经常来。

2,最近增加的“像 Googlebot 一样抓取”的功能,在GSA的后台也是有的,只是不是这种表现形式。为什么要加一个这样的功能呢?这是因为google在抓取很多网站的时候碰到的一些问题越来越多才加这个功能的。

模拟google爬虫

模拟google爬虫

同一个网页,搜索引擎爬虫看到的和你用浏览器看到的其实是不一样的。因为浏览器有很大的容错性,你少一个<div>,或者html标签没有关闭,只要不错得离谱的话,网页看起来还是很正常的。 但是搜索引擎爬虫是不会这样的,你在CMS上或者代码上有什么问题,会让爬虫看不到你的页面。所以你需要模拟搜索引擎爬虫去访问你的网页,看看搜索引擎访问到的源代码是不是你真实的源代码。这个google模拟爬虫,还可以查看一个网页的返回码。这是因为一个网页,如果你给搜索引擎返回多个返回码,根据各种情况,搜索引擎要么不收录你的网页,要么你的用户从搜索引擎点进你的网站会出现500错误(服务器内部错误)。

我在《Lynx浏览器在SEO上的应用》一文中建议大家用Lynx去访问你的网页也有这样的原因, 那个工具也可以实现这样的功能。可惜的是尽管google在《网站质量指南》里力荐这个浏览器,但是还是很多人不会去用,所以google干脆把这个功能放在google webmastel tools里了。

3,我还是低估了google的良苦用心程度。当我前几天看到新推出的这个“参数处理”的功能的时候,几乎要感动得哭了。

参数调节功能

参数调节功能

大家可能对URL静态化是有一些疑虑的。因为很久以前google说URL要静态化,而google年初的时候又说不要静态化了。为什么会有这么截然不同的说法呢? 其实URL静不静态化根本不是问题的核心,核心问题是出在URL的参数上。如果有人仔细去看《HTTrack 在SEO上的应用》一文,并不断地去使用这个工具的话,就会发现:是因为URL上的参数复杂,才导致了爬虫陷入死循环的。现在即使你把URL静态化,如果没有处理好的话,和没有去静态化是一样的效果。关于这点以后还要写一篇文章才能说得清楚。

google当然清楚是由参数引起的,所以在以前,它都是有一套自己的方法过滤参数的。但是,这个过滤方法并不一定很准,可能你觉得不是参数的重要的页面,google把你过滤了,那就不会收录了。所以google就干脆让你自己来调节,先自动过滤一些参数,然后让你看看哪些参数过滤错了,或者还有哪些参数没有过滤,就由你来告诉google。

这篇文章太长了,更多内容以后再写。