M$ |2 H) c U7 P, o O
大家看看,在这一天,我的这个样例网站,百度过来抓取了多少词,8000多次是吧。这个对于一个日UV上万的网站来说,对于几个拥有几万产品和几百万页面的的网站来说,这个次数不算多。为什么爬虫来的不多呢,会不会是我们更新不及时,时效性不够,外部权重不高,内容价值不彪悍,用户行为不好,服务器不稳定?SEO,一定是精益化SEO,才能取得真正的效果。, I3 V, h& |) v. n
1 F2 b' |0 p# i0 o我们就来看看这8000多次抓取吧,先看看有哪些噪音行为。我们最害怕的是404,般404怎么产生的呢?$ Q% ~* ?* r7 z! ~
1、死链# Q `- r2 N+ g. J. b2 K
2、页面被删除 ) `4 b4 j2 _% a3、服务器不稳定,页面打不开: j/ P. ~6 ?$ p t* ^" J( R7 Q" I
4、技术人员人为设置% ]1 h! a9 i. ]3 F+ x( Q
基本就这样几种情况,其中,特别是死链,是SeO的大敌,你的网站中如果存在大量的死链。那么,会降低搜索引擎对你的评价。6 n6 x' a$ O3 N
. c* m. I9 [; h* V- l6 f我们第一件事,心里很忐忑。看看,我们的404页面多吗?我搜索看看:% v; P) w* Q' Q+ m; Q
5 X% l5 i( A0 j+ H* [& l2 M- h; ]' d) M我是不赞成这样做的。屏蔽掉JS和CSS会影响到整个网站的SEO表现,搜索引擎也很难去理解布局,查明作弊。那么不屏蔽,我们应该怎么做呢,。JS该合并的合并,该减少的减少,该外调的外调,CSS该精简的精简,CSS为了加快网页性能,还能使用图片精灵,这个是拓展阅读。至于什么事图片精灵,大家问度娘。经过一番折腾,JS的抓取退回到正常范围内了,看看还有那些比较大的耗费爬虫精力的因素。+ B4 P/ S: o4 E6 n$ q5 O6 [
# i; M/ A2 v/ e8 F q& g
这里,我一定要插一句话,爬虫纠偏,一定要在完善目标页面的质量的基础上去纠偏,不然,你即使“逼迫”爬虫转向,爬虫也可能会因为你的目标页面质量不高,更新不及时,而放弃抓取,从而会降低对你网站的爬虫策略,减少爬虫数量。这个大家要理解呢。不能盲目纠偏,次序不能错。那么,我们接着看看,还有那些,影响到爬虫精力了。, a# q6 [# d. `% T- ?( x
" x4 F6 v3 j5 o
通过搜索,我发现,爬虫竟然有3000多次,抓取了站内搜索的搜索结果页面。于是,我又要开始了去评定站内搜搜页面内容价值以及评判是否爬虫需要放这么大精力在这个频道的工作。 5 R+ Z6 p/ C8 Q) v/ s: o- b, w6 k' q0 y. C
刚才,我们通过了对404,301这些特征返回码的分析,找到了一个关于产品逻辑的错误,这个不赘述了。 # ~0 u5 W _( s' |5 {" v c1 { $ h; q2 [9 W9 I# ~. Y- G- \
第二个,我们通过对爬虫抓取偏好的分析,找到了我们重要的页面却不受爬虫青睐的原因,并且找到了哪些牵扯爬虫精力的页面都有哪些,应该如何解决。; @- c$ \9 Y0 e/ C& G+ y; W; ~
: O0 o& R, q$ X
接下来,我要说一下话题。关于返回码的。我们一定要熟知,除了熟知各个返回码的含义外,还要清楚的知道,百度看到这些返回码,都会有相应的什么反应,这是非常重要的,我们接下来就说说,比如404页面。 4 j w. n5 K! V: w9 o3 ^ 4 u/ `( \5 f3 x9 s6 S8 H. O
很多人的404设置,是页面上是404,但是返回码是200。这就适得其反了。搜索引擎还会认为是有效页面,从而抓取并且造成大量重复页面。页面404不仅仅是页面本身写上404几个字,还需要在http返回码中返回404,是不是发送不过去?当百度看到我们的页面返回404的时候,他会有什么反应呢?他的反应是,会认为这个页面已经不存在了,会在数据库中删除,并且短期内再看到这个URL就不会抓取了。所以说,别乱设置404.特别是下架商品,你设置了404,再上线,再生成,再让百度抓取,就很麻烦了。/ `" o* e) L, H- b0 b
1 ?# y j; x& A. }. b
如果我们碰上了503呢,百度会认为网页暂时不可访问。会在隔断时间内再来访问几次,如果再是无效的,则会删除数据库。一般,网站临时关闭,会设置成503。如果是403呢,返回码是403呢,是基于隐私禁止访问。这种情况,如果是一个新的URL,百度呢,不会收录,如果是老的URL,百度也不会删除,仍在在隔一段时间继续访问几次,如果再无效,就删除了。8 R0 m1 @* h$ w9 y8 m! h# c# z- Y/ \
. }2 n/ c' `( I! ~. T7 z# B I如果是301呢,301代表永久跳转。A网页301到B网页,百度会认为A网页不存在了,直接把一切权重都给了B网页,B网页作为A网页的继承者,集成了A网页的权重。百度就会通过301的指示,把权重传递过去,但是还是要说一下,百度301处理的会有点慢。那么,知道这些常用返回码的百度反应,我们就有了一些最基本的常识,比如说:网站改版了,就用301跳转。网站暂时关闭了,可别用404,用503吧。网页新页面基于隐私不能范文,返回403肯定是没错的。网页一切没有问题,就200啦,这样说下来,大家也许会返回码有了个初步的了解。我们通过分析日志的返回码。也可以和我们的期望对照一下,看看是不是返回了我们不愿意看到的返回码,同时,赶快做出调整。这是非常重要的。% i3 P y5 }2 o$ D
) Z X) l8 Y8 s/ A好的,返回码的讲述完成了,我们接着讲那13点。第1,2,3,4我们都讲了,关于爬虫纠偏,处理噪音页面,减少抓取重复性,简化URL参数,我们在前面都有过提及,接下来,我们说第五点。" \, `% x' r4 O1 ^( n
7 e9 K/ o$ G- a. ~; m6 b第五点,这是一个提高网页性能的话题。让爬虫多时间抓取有效页面是肯定的思路,如果能够减少爬虫的单页面抓取时间,那么毕竟多出来时间抓取其他页面。给大家一个工作,咱们可以对网页性能做个判断,火狐的插件。顺便说一下,做SEO的,火狐浏览器是必备的。3 M n' w, u0 t* _ n
G2 Z, K- K$ R4 F
第三点,看完百度建议后,我们还怎么提升网页性能呢?精简代码,这是必须的。剩下的,就去问问技术人员吧,还怎么提升,他们是清楚的。通常,提升网页性能是我必做的一部。通过这样的优化,可以让爬虫抓取更多的页面。这点,在日志中,是有反应的。 {4 \9 P& T3 M. R" m 5 n$ T0 R/ f$ H