|
首先,我们通过分析网站日志要达到什么目的?3 p8 U* ^& U" v* e0 i* Y. y8 {- j
' z- Q) |: a2 R1、我们希望重要的频道(大量流量着陆页面,高转化率,用户直接交易页面等)有更多的爬虫来抓取;
$ u; z4 l+ _7 v, z2、我们希望在爬虫一定的抓取时间内,尽量少花精力放在一些无用的噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面,低转化页面等);! {- W3 e: B3 C6 C
3、我们希望爬虫在抓取页面的时候,尽量增加抓取的有效性,而不是重复抓取几篇相同的页面;
4 i4 H1 R9 i: \, g4、我们希望爬虫不会被繁杂的URL参数所扰,不会进入无休止的爬虫陷阱中;9 J( V4 t, u$ |0 G; a( n
5、我们希望每个页面的下载时间足够的快,这样,可以让爬虫在时间一定的基础上能够更多的抓取页面;7 t i7 m+ x# L0 l3 B5 m% h; k9 H
6、我们希望爬虫都能够完整的抓到我们想让他抓的页面,不要抓到我们的隐私页面;2 f2 I/ N0 n' {( }; C/ p: H- h& G
7、我们希望日志中不要有太多的404,不要有无理由的跳转,不要有很多的500(服务器错误),这样的情况出现;
+ E1 q: u5 c/ m7 f5 @: E8、我们希望那些更新频繁但是价值很低的页面不要吸引太多的爬虫精力;% q; a3 }/ E8 b* J
9、我们希望我们所有的产品,所有的品类,所有一切有用的东西都要被爬虫完整爬到并且快速遍历;
' }1 L0 x8 } d6 p- m10、我们希望能用碰到真正的爬虫,而不是一些模拟爬虫的机器人;8 B- m3 ~. g# w; I {1 v X
11、我们希望爬虫能够完整的下载到我们的robots.txt;
/ y0 n4 e& R# p- f% h12、我们希望爬虫可以根据我们入口的调整,robots.txt的限制引导,JS的设计等按照我们的要求进行爬取;
, x& G& G' \6 B% v/ F* j+ D' U13、我们希望爬虫越多越好。。。对我们的兴趣越大越好,当然,一切是在我们自身信任度和重要度增加的基础上。
# E$ w) z# v1 ]+ }) I
_, U9 j/ @8 }+ b) |3 p' V4 c接着,我列举一个网站日志的案例:
/ f' n T8 y+ Q4 M$ p \
2 \, u( W2 `, B7 ^& c9 Y
这个网站日志我已经拆分过了,至于怎么拆分日志大家可以在网上找教程,日志里的含义,可以大家看下网站日志中各个数据都代表什么意思,总之这个例子是记录的一天过来的所有百度爬虫的行为。
' }1 _( C( d, ?/ Z# O. r9 ?( ]5 t: z+ U2 V
当我们拿到这么一个网站日志,我们就可以审视我们的日志,并且把日志和我们的流量期望结合起来,为最后订单的目标而努力,接下来,我一个一个说说。# ]+ \: A/ h& R* x2 F8 [
3 s. H% C" Z0 Z5 f+ |首先,我先看看第二点,我先把整个日志里面的噪音行为搞清楚。为什么会出现这些行为,不管这些噪音占比大还是小,都会影响到爬虫抓取的精力,都会是隐患,都是我们不能忽视的。! h3 p7 N7 g/ g" k p: B! N
0 {. H: i0 o& s
这里我还要说一下,不通过日志做SEO,不通过数据做SEO,不通过用户做SEO,不通过价值做SEO,是伪SEO。我们只有通过日志,才能够清晰的看到我们从外表看不到的内部原因。对于一定的网站权重,爬虫的抓取策略及时间是有一定规律的。
1 p6 M, f: H8 j2 [" i- `6 x
, | A/ z; q" V, c2 u1 h2 w) e4 @, B8 U我们先来看看这篇日志样例:; H. Y$ B o" P" }$ T
/ t l% o. y" [1 D, O' ^大家看看,在这一天,我的这个样例网站,百度过来抓取了多少词,8000多次是吧。这个对于一个日UV上万的网站来说,对于几个拥有几万产品和几百万页面的的网站来说,这个次数不算多。为什么爬虫来的不多呢,会不会是我们更新不及时,时效性不够,外部权重不高,内容价值不彪悍,用户行为不好,服务器不稳定?SEO,一定是精益化SEO,才能取得真正的效果。
( R' S7 g$ n' N5 _- b9 U0 S
2 f) V- U9 M e) X3 `我们就来看看这8000多次抓取吧,先看看有哪些噪音行为。我们最害怕的是404,般404怎么产生的呢?
/ i% {( e5 h# N( f1 D/ L4 y$ L" |, N1、死链
' u0 ^* n& K5 ?- |. p! R2、页面被删除9 T- z' U% E5 \& L; w
3、服务器不稳定,页面打不开
0 ]; d9 `" z; Z3 x: U4、技术人员人为设置8 S e, j$ w' |$ M3 K
基本就这样几种情况,其中,特别是死链,是SeO的大敌,你的网站中如果存在大量的死链。那么,会降低搜索引擎对你的评价。
6 Y9 _* D* _2 P 7 g7 `" h7 h9 c; A0 h0 p
我们第一件事,心里很忐忑。看看,我们的404页面多吗?我搜索看看:: A- E2 d. L7 h& O
2 I; S% Y8 t5 I0 Z% j* a9 ~7 ^. a
% E9 K9 |% p4 w; Q" o7 ?
通过404的特征码进行搜索,得出的结果只有68个。但是,就是这68个,我们都不能忽视,里面可能蕴藏着不健康的技术人员的开发习惯,可能蕴藏着不健康的产品经理的SEO意识,还可能蕴藏着一些隐患。所以,我们分析一下网站日志,这68个,都是什么内容,为什么会有404?做SEO,一定要做到粒级。就是一粒因素我都不愿意放过,可大可小,才行。那么我来看看这68个404,我给大家截图。
1 L5 A& B) M* G7 ]3 E6 U
0 m3 z0 M9 O: e- a
b+ R' Q. i& e% K6 }8 ^
大部分的404都来自于产品详情的页面,这个页面为什么会出现404?原来,是运营那边有一个逻辑,当一个产品下架的时候,会删除这个产品页面。我默默的祷告了一下,开始和运营沟通,以后再有下架的产品,保留这个页面吧,写上待上架或者到货通知一类。毕竟,这部分流量,我还是要的。万一你以后再上架呢,流量又不是续接。解决了这个问题,我非常感激的看了运营一眼。重新分析了网站日志。: W" U$ V3 O4 J! J+ ?6 e6 W
/ Z* q" |$ P! l: ]. O“1、我们希望重要的频道(大量流量着陆页面,高转化率,用户直接交易页面等)有更多的爬虫来抓取。”我们来完整这个KPI,希望更多的爬虫来抓取更重要的页面。换句话说,希望更多的爬虫来抓取我们认为重要的页面。产品频道是我们希望重点抓取的。心里说,爬虫,多抓一些产品频道吧,缩短遍历周期,多更新一些新品,这样,我会多一些流量机会。
' S. v, i4 H' J
- J! G3 N3 t4 E6 ~好的爬虫纠偏至少会增长30~50%的流量上不封顶?我们继续来看看我们这段日志,究竟这8000次爬虫,有多少抓了产品详情页面呢?; S ~0 l9 ?( C* d! J) q% o
" w% T% P) j3 l4 H0 l2 |: b( t
“GET /product/”这个是产品详情页面的特征码:- P- f8 s0 w- b! x5 O, C
. G0 v6 L2 h8 ]# B
: f/ ~ e# C8 r
拆分一下,才有1000次的抓取。这么重要的页面,爬虫竟然只用了10%多一点的精力,我一共30000个产品,就算爬虫这1000次抓取的都是不重复的页面,也要30天遍历一遍!所以,我的一个主要的SEO的行为,就是要爬虫纠偏,让爬虫花更多的精力放在我的产品详情页面上。这里,我们忽略到一个现实,产品列表,品牌列表,品牌专区页面都很重要,为了说明问题,我们都把他们忽略吧。就认为这个网站唯一重要的是产品详情页面,家要记住这个前提,好了,我们怎么做?来给爬虫纠偏。前面说了,纠偏之后,最少能增长30~50的流量。搜索我们要知道,剩下80%的爬虫都去了哪里了?我们通过拆分发现,抓JS竟然抓了2000次!看看CSS,只有419次。JS和CSS加起来也要有2200多次了,一个大头找到了。那在SEO代码优化中对于JS和CSS应该如何处理,直接用robots.txt把JS和CSS屏蔽掉吗?, }% G! V& D3 g
6 ~! ?7 ?; ~: U9 i5 R
我是不赞成这样做的。屏蔽掉JS和CSS会影响到整个网站的SEO表现,搜索引擎也很难去理解布局,查明作弊。那么不屏蔽,我们应该怎么做呢,。JS该合并的合并,该减少的减少,该外调的外调,CSS该精简的精简,CSS为了加快网页性能,还能使用图片精灵,这个是拓展阅读。至于什么事图片精灵,大家问度娘。经过一番折腾,JS的抓取退回到正常范围内了,看看还有那些比较大的耗费爬虫精力的因素。
9 c; I& H! _& x# d7 j . m& \0 X6 c# z3 s' N
这里,我一定要插一句话,爬虫纠偏,一定要在完善目标页面的质量的基础上去纠偏,不然,你即使“逼迫”爬虫转向,爬虫也可能会因为你的目标页面质量不高,更新不及时,而放弃抓取,从而会降低对你网站的爬虫策略,减少爬虫数量。这个大家要理解呢。不能盲目纠偏,次序不能错。那么,我们接着看看,还有那些,影响到爬虫精力了。
. W5 C; c9 |! W3 H- X' h 3 i7 C. h; x6 n7 C0 ]
通过搜索,我发现,爬虫竟然有3000多次,抓取了站内搜索的搜索结果页面。于是,我又要开始了去评定站内搜搜页面内容价值以及评判是否爬虫需要放这么大精力在这个频道的工作。9 m2 y7 Q2 Q1 ?9 s
0 l4 [. k' A# y! M; c
刚才,我们通过了对404,301这些特征返回码的分析,找到了一个关于产品逻辑的错误,这个不赘述了。5 p: B( w+ L& Z/ F
' r6 ~. ?9 M* S7 b/ D, v
第二个,我们通过对爬虫抓取偏好的分析,找到了我们重要的页面却不受爬虫青睐的原因,并且找到了哪些牵扯爬虫精力的页面都有哪些,应该如何解决。
8 N0 K2 C; d5 j/ ~9 o/ z
2 Q; y0 q5 v- a; r. {) V4 ], a接下来,我要说一下话题。关于返回码的。我们一定要熟知,除了熟知各个返回码的含义外,还要清楚的知道,百度看到这些返回码,都会有相应的什么反应,这是非常重要的,我们接下来就说说,比如404页面。
, z! a p$ \$ l9 h# p 9 w) j8 c+ P6 \# B$ T+ l
很多人的404设置,是页面上是404,但是返回码是200。这就适得其反了。搜索引擎还会认为是有效页面,从而抓取并且造成大量重复页面。页面404不仅仅是页面本身写上404几个字,还需要在http返回码中返回404,是不是发送不过去?当百度看到我们的页面返回404的时候,他会有什么反应呢?他的反应是,会认为这个页面已经不存在了,会在数据库中删除,并且短期内再看到这个URL就不会抓取了。所以说,别乱设置404.特别是下架商品,你设置了404,再上线,再生成,再让百度抓取,就很麻烦了。
" e- }; O( w t, a8 n / T7 o/ ]3 Y9 G* K" b7 {
如果我们碰上了503呢,百度会认为网页暂时不可访问。会在隔断时间内再来访问几次,如果再是无效的,则会删除数据库。一般,网站临时关闭,会设置成503。如果是403呢,返回码是403呢,是基于隐私禁止访问。这种情况,如果是一个新的URL,百度呢,不会收录,如果是老的URL,百度也不会删除,仍在在隔一段时间继续访问几次,如果再无效,就删除了。) b6 } |9 y& V1 l* f7 @
. u! {7 z4 i( E5 t! y3 n: @
如果是301呢,301代表永久跳转。A网页301到B网页,百度会认为A网页不存在了,直接把一切权重都给了B网页,B网页作为A网页的继承者,集成了A网页的权重。百度就会通过301的指示,把权重传递过去,但是还是要说一下,百度301处理的会有点慢。那么,知道这些常用返回码的百度反应,我们就有了一些最基本的常识,比如说:网站改版了,就用301跳转。网站暂时关闭了,可别用404,用503吧。网页新页面基于隐私不能范文,返回403肯定是没错的。网页一切没有问题,就200啦,这样说下来,大家也许会返回码有了个初步的了解。我们通过分析日志的返回码。也可以和我们的期望对照一下,看看是不是返回了我们不愿意看到的返回码,同时,赶快做出调整。这是非常重要的。
2 v) {3 z) c7 q ; G! M( w1 s) _6 C& I# }
好的,返回码的讲述完成了,我们接着讲那13点。第1,2,3,4我们都讲了,关于爬虫纠偏,处理噪音页面,减少抓取重复性,简化URL参数,我们在前面都有过提及,接下来,我们说第五点。1 M; Z# S$ a. O+ L9 X! c, F( o
1 x) Q5 c* d: ?- C) Q第五点,这是一个提高网页性能的话题。让爬虫多时间抓取有效页面是肯定的思路,如果能够减少爬虫的单页面抓取时间,那么毕竟多出来时间抓取其他页面。给大家一个工作,咱们可以对网页性能做个判断,火狐的插件。顺便说一下,做SEO的,火狐浏览器是必备的。5 T' A; `# B" b6 |3 n. B6 O; s9 [
' U$ t( n" w. h2 r1 d# ]
7 Z" J+ o3 X! ^+ S, Q5 w+ ?6 a这是火狐浏览器中firebug的插件,大家回去装一下。3 _/ U; w4 a: e p
: @! O, w+ k& f! I0 B. J, t- c6 V
这个插件里,可以看到加载这个页面所有经过的元素,以及每个页面元素经历的时间。很清楚,剩下的,我们只需要一个一个解决就好了。; f) o. Y" }3 g0 d% Q
* m+ z& F( M. F3 H# q- z
5 i2 r1 o9 d$ e9 f7 F! O7 r这个截图中,我们看到了有一个经历时间最长的元素,他影响了整个时间,这个时间是本地网络测试的。我们就看一下,究竟这个元素是什么,是从哪里来的,为什么影响时间。我们看了一下,哦。原来,是来源于苏宁的图片服务器,应该是一个广告位吧。很拉时间,怎么处理,那就自己去斟酌了,取和舍都可以,按照实际业务需求来。7 Y# K* a1 \5 S! V6 C. j; o; s7 p
9 _- a. Z0 ]* v3 Q, x我们通过这个工作,经常会发现一些状况,常见的是,GA拖慢的速度,一些外部广告服务器拖慢了速度,JS失效,服务器相应过慢等等,都可以一一处理。好了。第一步,我们看完了。第二部,我们继续通过百度站长的优化建议来提升网站性能。这个是百度给的官方建议,主要的是代码方面的一些建议,根据这个建议,咱们可以进一步提升页面性能。看看诊断。163竟然可以做到100分,一会我看看,是不是百度有错误了。是的,网页性能,现在在说前端。0 m( N4 {: m! l( l7 a
& ]6 D" g" W; i" G第三点,看完百度建议后,我们还怎么提升网页性能呢?精简代码,这是必须的。剩下的,就去问问技术人员吧,还怎么提升,他们是清楚的。通常,提升网页性能是我必做的一部。通过这样的优化,可以让爬虫抓取更多的页面。这点,在日志中,是有反应的。/ p v0 a, S. D' q( y, |6 Z9 o1 K s
! e X) N R5 \ g8 \* o: R/ F3 ]6 z8 Q Q/ k; m0 o% P
/ ^! S! @# z$ F* P4 w8 k8 J$ ` F6 D, o
" S& s: a V* y% e1 m/ m& O3 y7 Q1 w$ ]5 `; }
2 \- F# U" U, \# p
第六点,爬虫是疯狂的,他会“诚实”的遵守robots协议来抓取。所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。这里,我要说,一般,什么样的页面的不希望爬虫抓到的?我给大家做个大概的总结。
8 @5 g- T; _3 S0 a% j
9 p$ v% ^- B9 ]' g) |' F5 `1 q我们继续看一下淘宝的robots.txt 把我们的回忆带到那个拉仇恨的年代,是的,我们就是通过这样的小文件,进行了一场大的杀戮。那么,什么样的内容我们需要禁止掉呢,我来一一打字出来。
6 H& v" H2 x( R$ g" b' w1、网站后台的一些文件
) W1 N# ]! Z) V2、一些带有参数又不得不展示的重复或者相似页面! p N; i6 x9 c2 Z v$ _
3、无排名价值的批量页面
- g" O" Y9 _" t& y4、基于隐私,不能公开的页面(比如,个人电话信息等页面)
: S. ^2 _* q8 {% L- g+ P5、一些过期但是现在还在抓取的页面
8 r8 Z5 {1 `. a: w$ A$ a' e6、一些重复页面和相似页面,第2点重点强调的是带有参数的,特别是广告跟踪参数的页面, F; g X" n# J& L5 a4 m
7、一些没有用的图片,识别码
7 w+ u z& a u& p8 b( c8、符合中国人的习惯,总要说一句,其他的你不想展示的页面* n r1 h8 ]8 U1 C1 }/ G4 h$ O1 P
" |- ~! z) @& h4 Q) ^
: P+ x2 y( t/ x* I; x那么这里,我要说很重要的两点:" m& a* F+ L. D
一、JS和CSS页面不能轻易屏蔽,会影响到网站的SEO表现。
* y# x# C. h g; f/ r3 ^二、如果你建立了一个robots.txt。这个页面没有被爬虫顺利访问,也就是没有被爬虫下载下来浏览,你猜猜,爬虫会怎么办?爬虫不会继续跳过这个页面继续访问其他网站内容,而是会默默的转头回去,放弃抓取。所以,各位兄弟们,如果你没有什么需要屏蔽的,就不要画蛇添足的整个robotx.txt了。上面写个allow: / 就大大增加了爬虫的风险。
$ J1 Y% L+ [3 A! W- L5 p* j7 L7 [7 j4 U$ @+ ~: q
有时候,我们看到一些爬虫的抓取行为有点奇怪,抓了一些我们不愿意让他们抓的页面,但是识别码上也看到是baidu的字样。碰到抓取异常的时候,我们就要多想想,这个爬虫,是真的百度爬虫,还是假的百度爬虫。怎么识别搜索引擎的爬虫呢,大家可以看下如何判断和识别百度蜘蛛的真假和如何识别谷歌蜘蛛的真假。
! V. k7 ?9 _3 f/ b4 Q# R& A
1 F. t) U/ q6 l- j4 y g. O最后,上面说了那么都,现在,我做一个总结,关于日志对SEO的影响:
$ i6 J4 J9 t3 ~$ R! q1、无拆分,不真相。我们需要拆分各个特征码,来探寻更细节的爬虫行为
6 y) x% M& N! U2、爬虫纠偏,是很重要的一个SEO工作,我们需要把爬虫的真正精力放在值得它消耗的地方
; x8 {1 q5 b& T9 I5 W3、细节的噪音行为,我们不能视而不见,比如出现了几个404,哪怕是1个,我们都要弄明白是怎么回事,不能马虎 @0 s8 h: o8 Q. K+ L
4、对于URL参数,网站性能,返回码含义及处理,robots.txt设置和响应时间,等等这些细节的SEO常识,我们要熟记于心,高悬于顶, [; J* K7 K2 [8 c* w
5、我们要让爬虫更多的抓取不重复的独立页面,而不是看着热闹,而其实抓不了什么有用的东西,这个我们需要注意
2 Z, Q( T' u' ~2 w6、多看看爬虫的来源。看看是什么类型的爬虫来抓你的网页
$ I- ?7 C7 {2 D' U7、一定要记住,更新活跃,层级扁平的页面会获得爬虫的青睐,但是这种青睐,也许不是你想要的。你想要的那些页面,你看看,是否是太久不更新了1 q& V* t5 J; N+ c
8、爬虫是有均衡性的,一大段时间内,爬虫就抓取一种类型的页面,不是个好现象
+ q! M t5 C0 U( D7 H* }4 \9、网站日志分析在网站SEO技术修正期间,希望天天进行或者隔天进行,在网站常规SEO期间,也要一个星期观测一次,并且进行统计记录分析
, Y8 ^3 G! B+ C0 u10、其他
* j4 R; D' M/ l0 y$ ? @- _9 X- A2 A" M: B% s) `/ j7 j
0 e# x9 z% E/ t+ A8 s% @ |
|