百度蜘蛛的爬行规律

类似下面的日志格式,如下:

  03:28:34 GET /goods.php 202.108.7.205 200 34696 390

  第一 03:28:34 访问时间

  第二 GET /goods.php 访问的页面 get表示获取

  第三 202.108.7.205 访问网站的源IP

  第四 200 成功访问

  第五 34696 390 表示记录的内容大小

  都是这种格式的日志如何去分析了,一个一个看的头都大了。
经过长期观察发现,百度的蜘蛛的来源服务器IP地址都是属于一个域下面的通个网段。什么意思了,就是全部都是以202.108开头的IP,IP地址都是类似于202.108.X.X。这个网段的IP地址是位于北京网通电报大楼,属于全国互联网核心骨干机房,现在此IP段已经绝迹了。(基本上全被大网站使用了,如新浪、雅虎等)

虚拟空间首页需设置正确,否则百度蜘蛛会返回301错误

做了个新站,百度一直不收录,很奇怪!

看logs记录,百毒蜘蛛返回了很多301错误,仔细查资料才弄明白。原来空间默认首页设置成了index.php,实际首页是index.html

所以百度蜘蛛老是返回转向错误301提示。

刚才更改了,郁闷,怎么会犯这么低级的错误!

更改默认首页之后,再也不返回301错误了!