4 h/ L; s9 D5 C第三点,看完百度建议后,我们还怎么提升网页性能呢?精简代码,这是必须的。剩下的,就去问问技术人员吧,还怎么提升,他们是清楚的。通常,提升网页性能是我必做的一部。通过这样的优化,可以让爬虫抓取更多的页面。这点,在日志中,是有反应的。1 t0 j8 V. w. _% z0 M- V
9 u* b6 L$ I& X' f6 f * w; J$ n9 ]+ ^# l, { T. H0 M5 g: y
' }% y0 L7 M f' |2 I
" G: J$ z+ b% A0 b1 Z/ B7 }3 c9 X, P0 U* v. E, T
* n. A" m5 w" C' u1 @$ z; | @( E" B第六点,爬虫是疯狂的,他会“诚实”的遵守robots协议来抓取。所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。这里,我要说,一般,什么样的页面的不希望爬虫抓到的?我给大家做个大概的总结。, V5 o& Z' u, d @