上图这个第八步,然后第作步就是查询这个关键字,所把第一至第10页的所有网址采集出来,如果您查的是同一个关键字,这步是可以更改的,把成全部网址放到列表中,然后对比,我这里因为面对的不同客户,查询不同的关键字,所以我这里写成每一次都重置的意思。第九步是把排列的这个列表清空掉。为什么要清空呢?因为清空了,我们好把新的排名给采进来,这样就不会出错,排名就更加精确了。
紧着用动作循环采十页前一百名的排名,
这个动作循环非常有技巧
<% keyID=28233
{动作循环}
<变量名>索引</变量名>
<从>20</从>
<到>[js:a=11*10]</到>
<每次加>10</每次加>
<备注>动作循环</备注>
{/动作循环}
%>
因为动作循环的第八步和第十步,把一页一的网址全部采回来了,所以我这里动作循环是从第20开始的,第20对于百度来说就是第二页的意思,然后我这里到第几页是运用了一个采集JS计算,把11*10等于110的方法,每一次加十,进行循环采集,我这里为什么不是10*10呢,因为百度有的网页他放了很多广告去,不一定就是刚刚好有10个数据出来,有的是5个,有的是9个,不一定的数据,所以我这里用了11*10保证前一百名数据能顺利采集回来。
后面这个第12步意思是把百度假的网址,变成真网址,这个也很鬼,因为百度是利用302跳转的,一般东东不能获取,但我们YYPOST刚才有这样的功能,
HTTP/1.1 302 Found
Bdpagetype: 3
Cache-Control: no-cache, must-revalidate
Content-Length: 225
Content-Type: text/html;charset=utf8
Date: Tue, 27 Aug 2019 13:20:21 GMT
Expires: Fri, 01 Jan 1990 00:00:00 GMT
Pragma: no-cache
Server: BWS/1.1
Set-Cookie: BDSVRTM=0; path=/
X-Ua-Compatible: IE=Edge,chrome=1
X-Xss-Protection: 1;mode=block
Connection: close
<html>
<head><title>302 Found</title></head>
<body bgcolor="white">
<center><h1>302 Found</h1></center>
<hr><center>a3053316daf73eed38fa2274818cc66176cf36b9
Time : Thu Aug 15 12:04:32 CST 2019</center>
</body>
</html>