百度蜘蛛(Baiduspider+)爬行返回代码的含义。

2XX 成功

  200 正常;请求已完成。

  201 正常;紧接 POST 命令。

  202 正常;已接受用于处理,但处理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;无响应 — 已接收请求,但不存在要回送的信息。

  3XX 重定向

  301 已移动 — 请求的数据具有新的位置且更改是永久的。

  302 已找到 — 请求的数据临时具有不同 URI。

  303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

  304 未修改 — 未按预期修改文档。

  305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

  306 未使用 — 不再使用;保留此代码以便将来使用。

  4xx 客户机中出现的错误

  400 错误请求 — 请求中有语法问题,或不能满足请求。

  401 未授权 — 未授权客户机访问数据。

  402 需要付款 — 表示计费系统已有效。

  403 禁止 — 即使有授权也不需要访问。

  404 找不到 — 服务器找不到给定的资源;文档不存在。

  407 代理认证请求 — 客户机首先必须使用代理认证自身。

  410 请求的网页不存在(永久);

  415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

  5xx 服务器中出现的错误

  500 内部错误 — 因为意外情况,服务器不能完成请求。

  501 未执行 — 服务器不支持请求的工具。

  502 错误网关 — 服务器接收到来自上游服务器的无效响应。

  503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

转载自:http://www.guang58.com

  举例:
  2008-07-24 15:09:52 HEAD /index.html 220.181.32.22 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) – 200 322 151
  说明该页蜘蛛已经收录入库,具体200后面数字的含义还未找到解释。 

网页加速的14条优化法则

最近,在做Web应用性能优化,在网上发现了文章High Performance Web Sites: The Importance of Front-End Performance,感觉其14条优化法则很实用,操作性很强。因此发出来,供大家参考。

Web应用性能优化黄金法则:先优化前端程序(front-end)的性能,因为这是80%或以上的最终用户响应时间的花费所在。<o:p></o:p>

法则1. 减少HTTP请求次数

80%的最终用户响应时间花在前端程序上,而其大部分时间则花在各种页面元素,如图像、样式表、脚本和Flash等,的下载上。减少页面元素将会减少HTTP请求次数。这是快速显示页面的关键所在。

一种减少页面元素个数的方法是简化页面设计。但是否存在其他方式,能做到既有丰富内容,又能获得快速响应时间呢?以下是这样一些技术:

Image maps组合多个图片到一张图片中。总文件大小变化不大,但减少了HTTP请求次数从而加快了页面显示速度。该方式只适合图片连续的情况;同时坐标的定义是烦人又容易出错的工作。

CSS Sprites是更好的方法。它可以组合页面中的图片到单个文件中,并使用CSS的background-image和background-position属性来现实所需的部分图片。

Inline images使用data: URL scheme来在页面中内嵌图片。这将增大HTML文件的大小。组合inline images到你的(缓存)样式表是既能较少HTTP请求,又能避免加大HTML文件大小的方法。

Combined files通过组合多个脚本文件到单一文件来减少HTTP请求次数。样式表也可采用类似方法处理。这个方法虽然简单,但没有得到大规模的使用。10大美国网站每页平均有7个脚本文件和2个样式表。当页面之间脚本和样式表变化很大时,该方式将遇到很大的挑战,但如果做到的话,将能加快响应时间。

减少HTTP请求次数是性能优化的起点。这最提高首次访问的效率起到很重要的作用。据Tenni Theurer的文章Browser Cache Usage – Exposed!描述,40-60%的日常访问是首次访问,因此为首次访问者加快页面访问速度是用户体验的关键。

法则2. 使用CDN(Content Delivery Network, 内容分发网络)

用户离web server的远近对响应时间也有很大影响。从用户角度看,把内容部署到多个地理位置分散的服务器上将有效提高页面装载速度。但是该从哪里开始呢?

作为实现内容地理分布的第一步,不要试图重构web应用以适应分布架构。改变架构将导致多个周期性任务,如同步session状态,在多个server之间复制数据库交易。这样缩短用户与内容距离的尝试可能被应用架构改版所延迟,或阻止。

我们还记得80-90%的最终用户响应时间花在下载页面中的各种元素上,如图像文件、样式表、脚本和Flash等。与其花在重构系统这个困难的任务上,还不如先分布静态内容。这不仅能大大减少响应时间,而且由于CDN的存在,分布静态内容非常容易实现。

CDN是地理上分布的web server的集合,用于更高效地发布内容。通常基于网络远近来选择给具体用户服务的web server。

一些大型网站拥有自己的CDN,但是使用如Akamai TechnologiesMirror Image Internet, 或 Limelight Networks等CDN服务提供商的服务将是划算的。在Yahoo!把静态内容分布到CDN减少了用户影响时间20%或更多。切换到CDN的代码修改工作是很容易的,但能达到提高网站的速度。

法则3. 增加Expires Header

网页内容正变得越来越丰富,这意味着更多的脚本文件、样式表、图像文件和Flash。首次访问者将不得不面临多次HTTP请求,但通过使用Expires header,您可以在客户端缓存这些元素。这在后续访问中避免了不必要的HTTP请求。Expires header最常用于图像文件,但是它也应该用于脚本文件、样式表和Flash。

浏览器(和代理)使用缓存来减少HTTP请求的次数和大小,使得网页加速装载。Web server通过Expires header告诉客户端一个元素可以缓存的时间长度。

如果服务器是Apache的话,您可以使用ExpiresDefault基于当期日期来设置过期日期,如:

ExpiresDefault “access plus 10 years” 设置过期时间为从请求时间开始计算的10年。

请记住,如果使用超长的过期时间,则当内容改变时,您必须修改文件名称。在Yahoo!我们经常把改名作为release的一个步骤:版本号内嵌在文件名中,如yahoo_<st1:chsdate w:st="on" isrocdate="False" islunardate="False" day="30" month="12" year="1899">2.0.6</st1:chsdate>.js。

法则4. 压缩页面元素

通过压缩HTTP响应内容可减少页面响应时间。从HTTP/1.1开始,web客户端在HTTP请求中通过Accept-Encoding头来表明支持的压缩类型,如:

Accept-Encoding: gzip, deflate.

如果Web server检查到Accept-Encoding头,它会使用客户端支持的方法来压缩HTTP响应,会设置Content-Encoding头,如:Content-Encoding: gzip。

Gzip是目前最流行及有效的压缩方法。其他的方式如deflate,但它效果较差,也不够流行。通过Gzip,内容一般可减少70%。如果是Apache,在1.3版本下需使用mod_gzip模块,而在2.x版本下,则需使用mod_deflate

Web server根据文件类型来决定是否压缩。大部分网站对HTML文件进行压缩。但对脚本文件和样式表进行压缩也是值得的。实际上,对包括XML和JSON在内的任务文本信息进行压缩都是值得的。图像文件和PDF文件不应该被压缩,因为它们本来就是压缩格式保存的。对它们进行压缩,不但浪费CPU,而且还可能增加文件的大小。

因此,对尽量多的文件类型进行压缩是一种减少页面大小和提高用户体验的简便方法。

法则5. 把样式表放在头上

我们发现把样式表移到HEAD部分可以提高界面加载速度,因此这使得页面元素可以顺序显示。

在很多浏览器下,如IE,把样式表放在document的底部的问题在于它禁止了网页内容的顺序显示。浏览器阻止显示以免重画页面元素,那用户只能看到空白页了。Firefox不会阻止显示,但这意味着当样式表下载后,有些页面元素可能需要重画,这导致闪烁问题。

HTML规范明确要求样式表被定义在HEAD中,因此,为避免空白屏幕或闪烁问题,最好的办法是遵循HTML规范,把样式表放在HEAD中。

法则6. 把脚本文件放在底部

与样式文件一样,我们需要注意脚本文件的位置。我们需尽量把它们放在页面的底部,这样一方面能顺序显示,另方面可达到最大的并行下载。

浏览器会阻塞显示直到样式表下载完毕,因此我们需要把样式表放在HEAD部分。而对于脚本来说,脚本后面内容的顺序显示将被阻塞,因此把脚本尽量放在底部意味着更多内容能被快速显示。

脚本引起的第二个问题是它阻塞并行下载数量。HTTP/1.1规范建议浏览器每个主机的并行下载数不超过2个。因此如果您把图像文件分布到多台机器的话,您可以达到超过2个的并行下载。但是当脚本文件下载时,浏览器不会启动其他的并行下载,甚至其他主机的下载也不启动。

在某些情况下,不是很容易就能把脚本移到底部的。如,脚本使用document.write方法来插入页面内容。同时可能还存在域的问题。不过在很多情况下,还是有一些方法的。

一个备选方法是使用延迟脚本(deferred script)。DEFER属性表明脚本未包含document.write,指示浏览器刻继续显示。不幸的是,Firefox不支持DEFER属性。在IE中,脚本可能被延迟执行,但不一定得到需要的长时间延迟。不过从另外角度来说,如果脚本能被延迟执行,那它就可以被放在底部了。

法则7. 避免CSS表达式

CSS表达式是功能强大的(同时也是危险的)用于动态设置CSS属性的方式。IE,从版本5开始支持CSS表达式,如backgourd-color: expression((new Date()).getHours()%2?”#B8D4FF”:”#F<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="8" unitname="a">08A</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="0" unitname="”">00”</st1:chmetcnv>),即背景色每个小时切换一次。

CSS表达式的问题是其执行次数超过大部分人的期望。不仅页面显示和resize时计算表达式,而且当页面滚屏,甚至当鼠标在页面上移动时都会重新计算表达式。

一种减少CSS表达式执行次数的方法是一次性表达式,即当第一次执行时就以明确的数值代替表达式。如果必须动态设置的话,可使用事件处理函数代替。如果您必须使用CSS表达式的话,请记住它们可能被执行上千次,从而影响页面性能。

法则8. 把JavaScript和CSS放到外部文件中

上述很多性能优化法则都基于外部文件进行优化。现在,我们必须问一个问题:JavaScript和CSS应该包括在外部文件,还是在页面文件中?

在现实世界中,使用外部文件会加快页面显示速度,因为外部文件会被浏览器缓存。如果内置JavaScript和CSS在页面中虽然会减少HTTP请求次数,但增大了页面的大小。另外一方面,使用外部文件,会被浏览器缓存,则页面大小会减小,同时又不增加HTTP请求次数。

因此,一般来说,外部文件是更可行的方式。唯一的例外是内嵌方式对主页更有效,如Yahoo!My Yahoo!都使用内嵌方式。一般来说,在一个session中,主页访问此时较少,因此内嵌方式可以取得更快的用户响应时间。

法则9. 减少DNS查询次数

DNS用于映射主机名和IP地址,一般一次解析需要20~120毫秒。为达到更高的性能,DNS解析通常被多级别地缓存,如由ISP或局域网维护的caching server,本地机器操作系统的缓存(如windows上的DNS Client Service),浏览器。IE的缺省DNS缓存时间为30分钟,Firefox的缺省缓冲时间是1分钟。

减少主机名可减少DNS查询的次数,但可能造成并行下载数的减少。避免DNS查询可减少响应时间,而减少并行下载数可能增加响应时间。一个可行的折中是把内容分布到至少2个,最多4个不同的主机名上。

法则10. 最小化JavaScript代码

最小化JavaScript代码指在JS代码中删除不必要的字符,从而降低下载时间。两个流行的工具是JSMin 和YUI Compressor

混淆是最小化于源码的备选方式。象最小化一样,它通过删除注释和空格来减少源码大小,同时它还可以对代码进行混淆处理。作为混淆的一部分,函数名和变量名被替换成短的字符串,这使得代码更紧凑,同时也更难读,使得难于被反向工程。Dojo Compressor (ShrinkSafe)是最常见的混淆工具。

最小化是安全的、直白的过程,而混淆则更复杂,而且容易产生问题。从对美国10大网站的调查来看,通过最小化,文件可减少21%,而混淆则可减少25%。

除了最小化外部脚本文件外,内嵌的脚本代码也应该被最小化。即使脚本根据法则4被压缩后传输,最小化脚本刻减少文件大小5%或更高。

法则11. 避免重定向

重定向功能是通过301和302这两个HTTP状态码完成的,如:

      HTTP/1.1 301 Moved Permanently      Location: http://example.com/newuri      Content-Type: text/html

<o:p> </o:p>

浏览器自动重定向请求到Location指定的URL上,重定向的主要问题是降低了用户体验。

一种最耗费资源、经常发生而很容易被忽视的重定向是URL的最后缺少/,如访问http://astrology.yahoo.com/astrology将被重定向到http://astrology.yahoo.com/astrology/。在Apache下,可以通过Alias,mod_rewrite或DirectorySlash等方式来解决该问题。

法则12. 删除重复的脚本文件

在一个页面中包含重复的JS脚本文件会影响性能,即它会建立不必要的HTTP请求和额外的JS执行。

不必要的HTTP请求发生在IE下,而Firefox不会产生多余的HTTP请求。额外的JS执行,不管在IE下,还是在Firefox下,都会发生。

一个避免重复的脚本文件的方式是使用模板系统来建立脚本管理模块。除了防止重复的脚本文件外,该模块还可以实现依赖性检查和增加版本号到脚本文件名中,从而实现超长的过期时间。

法则13. 配置ETags

ETags是用于确定浏览器缓存中元素是否与Web server中的元素相匹配的机制,它是比last-modified date更灵活的元素验证机制。ETag是用于唯一表示元素版本的字符串,它需被包括在引号中。Web server首先在response中指定ETag:

      HTTP/1.1 200 OK      Last-Modified: Tue, 12 Dec 2006 03:03:59 GMT      ETag: "<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="10" unitname="C">10c</st1:chmetcnv>24bc-4ab-457e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="1" unitname="C">1c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="1" unitname="F">1f</st1:chmetcnv>"      Content-Length: 12195

后来,如果浏览器需要验证某元素,它使用If-None-Match头回传ETag给Web server,如果ETag匹配,则服务器返回304代码,从而节省了下载时间:

      GET /i/yahoo.gif HTTP/1.1      Host: us.yimg.com      If-Modified-Since: Tue, 12 Dec 2006 03:03:59 GMT      If-None-Match: "<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="10" unitname="C">10c</st1:chmetcnv>24bc-4ab-457e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="1" unitname="C">1c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="1" unitname="F">1f</st1:chmetcnv>"      HTTP/1.1 304 Not Modified

ETags的问题在于它们是基于服务器唯一性的某些属性构造的,如Apache1.3和2.x,其格式是inode-size-timestamp,而在IIS5.0和6.0下,其格式是Filetimestamp:ChangeNumber。这样同一个元素在不同的web server上,其ETag是不一样的。这样在多Web server的环境下,浏览器先从server1请求某元素,后来向server2验证该元素,由于ETag不同,所以缓存失效,必须重新下载。

因此,如果您未用到ETags系统提供的灵活的验证机制,最好删除ETag。删除ETag会减少http response及后续请求的HTTP头的大小。微软支持文章描述了如何删除ETags,而在Apache下,只要在配置文件中设置FileETag none即可。

法则14. 缓存Ajax

性能优化法则同样适用于web 2.0应用。提高Ajax的性能最重要的方式是使得其response可缓存,就象“法则3增加Expires Header”讨论的那样。以下其他法则同样适用于Ajax,当然法则3是最有效的方式:

法则4. 压缩页面元素

法则9. 减少DNS查询次数

法则10. 最小化脚本文件

法则11. 避免重定向

法则13. 配置ETags.

转载自:http://www.guang58.com/

百度排名下降的(降权)10大因素

1.标题频繁性更改。尤其是修改为与之前标题丝毫不相关的标题。频繁改动标题导致的降权通常需要整整30天才能恢复。

2.站内关键词多度堆砌。在这里用过度2字是因为目前主流的搜索引擎都比较智能的不再很重的依赖关键词的密度作为权重判别标准,所以堆砌现象不一定导致被K,而过度堆砌则需要小心了。事实上这对百度优化来说没啥好处。

3.服务器不稳定。因为服务器不稳定导致的SEO失败是很可悲的,当然在中国摊上一个垃圾服务器供应商的事是很正常的。我的博客在第一次使用便宜空间之后,一个月之内没收录,收录之后又因为收录问题被降权一个多月,哭笑不得!无奈只好更换空间。

4.友情链接被搜索引擎重度惩罚。这里所说的重度惩罚是指被K,被拔毛,首页被降权等严重处罚手段,这种情况对做百度优化的网站来说,影响很大很大。是一个非常值得重视的方面。尤其是新站,这直接关系到你的站点的命运。

5.添加大量采集内容。这里建议就是内容需要有一定比率的原创,这个比率请自己设定。实在不行,请使用百度暂不能识别的伪原创方法造文章吧!注意,是百度不能识别的伪原创方法。

6.被挂黑链。这个不用太多解释吧!许多高权重政府站,门户站,都在黑链的嚣张身影中淡出了搜索引擎。

7.外链丢失率过高。这是搜索引擎的高明之处,通过这种方式能够轻松的查找到许多采用“非常手段”优化的网站,将其消失于无形。

8.过度环链。恩,近年来屡见不鲜,人工封杀最是可怕。

9.大量友情链接被撤除导致降权。这应该属于第7条,不过将其单独拿出来说,是因为有许多网站改版的时候偶尔并没有顾及到友情链接那个小木块,许多站长发现自己的友情链接没有后也会马上删除对方,这也就导致大量友情链接同时被撤除的现象会产生。

10.大量的子域名和内容雷同页面。许多不合理的子域名、泛解析等方式会导致百度严重降权。内容页面的大量URL内容雷同会被搜索引擎进行很大的剥离去重,甚至进行降权。

Godaddy空间开启gzip输出 速度更快

GoDaddy Deluxe Hosting – Linux 空间不支持mod_gzip、mod_deflate模块,若想通过GZIP压缩网页内容,可以考虑两种方式,开启zlib.output_compression或者通过ob_gzhandler编码的方式。

zlib.output_compression是在对网页内容压缩的同时发送数据至客户端,ob_gzhandler是等待网页内容压缩完毕后才进行发送,相比之下godaddy使用后者效率更高,但需要注意的是,两者不能同时使用,只能选其一,否则将出现错误。

本文仅针对GoDaddy Deluxe Hosting – Linux 空间,对两者的实现方式做简单描述。

在默认情况下,zlib.output_compression是关闭的,如需开启需编辑php5.ini文件,加入以下内容:

zlib.output_compression = On
zlib.output_compression_level = 6

第2个参数的值从1到9,越大代表压缩率越大,一般设为6。Gzip功能会极轻微的加重服务器负担。

对于绑定了多个域名的godaddy主机,只需要设置一次即可,就是主机的总的根目录下的php5.ini。

将php5.ini上传到FTP根目录下,剩下的事请就是等待它生效,这可能需要一段时间,可以通过phpinfo()函数检测结果:

Directive Local Value Master Value
zlib.output_compression On On
zlib.output_compression_level 6 6

当zlib.output_compression的Local Value和MasterValue的值同为On时,表示已经生效,这时候访问的PHP页面(包括伪静态页面)已经GZIP压缩了,通过Firebug或者在线网页GZIP压缩检测工具可检测到压缩的效果。

如果需要使用ob_gzhandler,则需关闭zlib.output_compression,把php5.ini文件内容更改为:

zlib.output_compression = Off
zlib.output_compression_level = -1

ob_gzhandler是GoDaddy官网推荐的用法,通过在PHP文件中插入相关代码实现GZIP压缩,以下是GoDaddy帮助中心所提到的:

GZIP Compression

Smaller pages load faster, regardless of your Internet connection speed. You can make your pages smaller by compressing them with GZIP. For more information about GZIP and our hosting, see Compressing Web Pages for Faster Load Times.

《Compressing Web Pages for Faster Load Times》文中提到,将以下PHP代码加入到PHP文件顶部,即可实现GZIP压缩。

<?php if (substr_count($_SERVER[‘HTTP_ACCEPT_ENCODING’], ‘gzip’)) ob_start("ob_gzhandler"); else ob_start(); ?>

不管是zlib.output_compression还是ob_gzhandler,都仅能对PHP文件进行GZIP压缩,对于HTML、CSS、JS等静态文件只能通过调用PHP的方式实现,可以参照文章《加速blog:GZIP压缩传输你的文件》中的“静态文本调用PHP压缩模块实现GZIP压缩效果”。

最后想说的是,现在主流的浏览器默认使用的是HTTP1.1协议,基本都支持GZIP压缩,对于IE而言,假如你没有选中其菜单栏工具->Internet 选项->高级->HTTP 1.1 设置->使用 HTTP 1.1,那么,你将感受不到网页压缩后的速度提升所带来的快感!

经过我的测试,zlib.output_compression和ob_gzhandler这两种方式,godaddy空间使用ob_gzhandler方式,访问速度有明显的提高,前者效率很差。另外,有一种传说中没尝试过的方法。如下:

下面这种说法没测试过,有空的朋友试试:

给godaddy 开启网页GZIP压缩,速度传输提升50%。godaddy默认是支持Gzip的,修改你的程序即可实现。

Win空间:

web.config文件加入代码:

<system.webServer>
   <urlCompression doStaticCompression="true" doDynamicCompression="true" />
</system.webServer>

Linux空间:

.htaccess 加入代码:

<ifmodule mod_deflate.c>
AddOutputFilterByType DEFLATE text/html text/css text/plain text/xml application/x-httpd-php application/x-javascript
</ifmodule>

转自: 逛我吧http://www.guang58.com

查看godaddy的网站日志文件(log文件)

     GoDaddy日志文件里有统计拜访记载,包括蜘蛛匍匐记载, 拜访错误记载等外容, 很利于seo以及察看本人网站的运转情况,如今教大家如何检查godaddy空间的日志文件

      首先需求用阅读器拜访yourdomain.com/stats/logs再用主机的主ftp用户名登录就可以进入了。这里的”yourdomain.com”要用你的主机的主域名替代。

       另外假如间接用阅读器拜访yourdomain.com/stats 还能进入一个片面的报告面板,这里有你的空间的一些运用状况,有每天的报告,还有周的,月的,十分片面。

   赶忙去godaddy试试吧!

SEO之关于百度蜘蛛Baiduspider

1. 什么是Baiduspider

Baiduspider是百度搜索引擎的一个自动顺序,它的作用是访问互联网上的网页,树立索引数据库,运用户能在百度搜索引擎中搜索到您网站上的网页。

2. Baiduspider的user-agent是什么?

百度各个产品运用不同的user-agent:

产品称号对应user-agent无线搜索Baiduspider-mobile图片搜索Baiduspider-image视频搜索Baiduspider-video旧事搜索Baiduspider-news百度搜藏Baiduspider-favo百度联盟Baiduspider-cpro商务搜索Baiduspider-ads网页以及其他搜索Baiduspider3. Baiduspider对一个网站效力器构成的访问压力如何?

Baiduspider会自动根据效力器的负载才干调理访问密度。在延续访问一段日子后,Baiduspider会暂停一会,以防止增大效力器的访问压力。所以在普通情况下,Baiduspider对您网站的效力器不会构成过大压力。

4. 为什么Baiduspider不停的抓取在下的网站?

关于您网站上新发作的或许持续更新的页面,Baiduspider会持续抓取。此外,您也可以反省网站访问日志中Baiduspider的访问能否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 假设您发现Baiduspider非正常抓取您的网站,请经过赞扬平台反响给俺们,并请尽量给出Baiduspider对贵站的访问日志,以便于俺们跟踪处置。

5. 如何判别能否冒充Baiduspider的抓取?

您可以运用host ip命令反解ip来判别Baiduspider的抓取能否冒充。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
$ host 123.125.66.120 
120.66.125.123.in-addr.arpa domain name pointer 
baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254
254.195.63.119.in-addr.arpa domain name pointer 
BaiduMobaider-119-63-195-254.crawl.baidu.jp.

6. 在下不想在下的网站被Baiduspider访问,在下该怎样做?

Baiduspider遵守互联网robots协议。您可以使用robots.txt文件完全制止Baiduspider访问您的网站,或许制止Baiduspider访问您网站上的部分文件。 留意:制止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及一切百度提供搜索引擎效力的搜索引擎中无法被搜索到。关于robots.txt的写作方法,请参看俺们的引见:robots.txt写作方法 

您可以根据各产品不同的user-agent设置不同的抓取规则,假设您想完全制止百度一切的产品收录,可以直接对Baiduspider设置制止抓取。

以下robots完成制止一切来自百度的抓取:
User-agent: Baiduspider
Disallow: /

以下robots完成仅制止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /

以下robots完成制止一切来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

请留意:

Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户商定的操作,所以不遵守robots协议,假设Baiduspider-cpro给您构成了困扰,请联络union1@baidu.com。

Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户商定的操作,所以不遵守robots协议,假设Baiduspider-ads给您构成了困扰,请联络您的客户效力专员。

7. 为什么在下的网站已经加了robots.txt,还能在百度搜索出来?

由于搜索引擎索引数据库的更新需求日子。虽然Baiduspider已经中止访问您网站上的网页,但百度搜索引擎数据库中已经树立的网页索引信息,可以需求数月日子才会肃清。另外也请反省您的robots配置能否正确。
假设您的拒绝被收录需求非常急迫,也可以经过百度赞扬平台反响央求处置。

8. 在下希望在下的网站内容被百度索引但不被保管快照,在下该怎样做?

Baiduspider遵守互联网meta robots协议。您可以使用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,由于搜索引擎索引数据库的更新需求日子,所以虽然您已经在网页中经过meta制止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中假设已经树立了网页索引信息,可以需求二至四周才会在线上生效。

9. Baiduspider多长日子之后会重新抓取在下的网页?

百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,Baiduspider会重新访问和更新一个网页。

10. Baiduspider抓取构成的带宽堵塞?

Baiduspider的正常抓取并不会构成您网站的带宽堵塞,构成此现象可以是由于有人冒充Baiduspider恶意抓取。假设您发现有名为Baiduspider的agent抓取并且构成带宽堵塞,请尽快和俺们联络。您可以将信息反响至赞扬平台,假设可以提供您网站该时段的访问日志将愈加有利于俺们的分析。

godaddy PHP4切换到PHP5方法

今天安装一个 网站系统,提示错误,估计是版本问题所以去godaddy管理后台看了一下,发现后台显示的版本是5.X。
然后又上传了一个PHP探针测试出来空间PHP版本却是4.4.9。

跟godaddy的客服沟通了来回三四天,结果都无法解决问题,那客服确实比较白痴。

终于,我看到一个神贴,就此解救我。

PHP4切换到PHP5方法

首先打开.htaccess打开添加以下内容:

复制内容到剪贴板代码:AddHandler x-httpd-php5 .php
AddHandler x-httpd-php .php4

然后再将php.ini改为php5.ini 即可从PHP4切换到PHP5。

然后将:.htaccess和php5.ini 上传到根目录就可以了!立马生效

哎,浪费了我很久时间!

度娘,最近有点烦啊

      Google狗哥宣布加入中国之后,百度并没有如之前意料的开展势不可当,反而是费事不时,先是百度mp3搜索和百度文库由于版权成绩遭到中国音协和韩寒、郭敬明等署名的50名作家联名抗议,最近又传出当当网中止百度广告和搜索投放的音讯,加上之前被CCTV广为诟病和曝光的竞价排名,度娘可以讲是最近真的有点烦,众矢之的呀!

       在下只要在狗哥音乐上找不到的时分,才无法的上百度音乐。要讲版权,其实在下用脚趾头算,也晓得百度上有几个是正版音乐,那音质跟Google狗哥的音乐质量压根不能比。伤耳朵!

       3月15日贾平凹、刘心武、韩寒、郭敬明等50名作家联名发布了由慕容雪村执笔的《三一五中国作家讨百度书》,摘录两段:

中国有个百度网,百度网有个百度文库,百度文库收录了俺们简直全部的作品,并对用户收费开放,任何人都可以下载阅读,但它却没有获得俺们任何人的受权。不告而取谓之偷,百度曾经彻底蜕化成了一个窃贼公司,它偷走了俺们的作品,偷走了俺们的权益,偷走了俺们的财物,把百度文库变成了一个贼赃市场。

……

再让俺们回忆历史:在更早以前,百度打着自在、宽容的旗帜,卑劣地排斥走了比它更自在、更宽容的谷歌。然后大肆推销它的竞价排名,向亿万中国人推销数以亿万计的假药、假酒和各种卑劣的产品。俺们可以这么讲:百度是中国最大的黑心广告商。

 度娘,最近有点烦啊 - 小男生 - 小男生的博客

言辞不是普通剧烈,对包括百度文库、百度音乐和百度竞价排名等停止了口诛笔伐,更风趣的是百度竟然还收录了这篇文章。

3月18日,当当网宣布中止在百度投放广告。无独有偶,百姓网在年终也宣布中止在百度旗下的hao123投放名站导航广告,而将省下的每个月仅百万的广告费以梦想成真活动的方式回馈用户,以抽奖的方式送iphone、ipad 或许其他礼物,再向前推,早在08年底,阿里巴巴就宣布中止在百度投放广告,理由是由于其流量质量不高。

度娘,最近有点烦啊 - 小男生 - 小男生的博客

 

3月19 日,十三月唱片公司结合周云蓬、沈庆、川子、马条、钟立风等音乐人向凡客、安踏、91游戏文娱门户等企业收回地下信,呼吁他们中止在百度MP3保持盗版前,中止在百度MP3投放广告。

当Google狗哥斥巨资举行探月竞赛、大先生创新设计大赛、全球编程应战赛、国际少年绘画大赛等创意性活动的时分,试问躲在角落的百度,可否做过一件无益于社会无益于将来的事吗?

成人内容网站域名.xxx批准开放年费60美元

北京时间3月20日消息,据国外媒体报道,互联网域名和地址分配机构(以下简称“ICANN”)上周五正式批准将.xxx作为成人内容网站专用域名,由此结束了有关是否成立“网络红灯区”的长达十年的争论。

也许对于中国,这是一件好事。直接屏蔽.xxx后缀的域名就行了,省的一个一个审查添加了。

ccav.xxx

baidu.xxx

google.xxx

抢注中