B2B网络软件

标题: 万能营销软件如何实现采集 [打印本页]

作者: 营销软件软件    时间: 2015-5-4 20:41
标题: 万能营销软件如何实现采集
万能营销软件如何实现采集


在万能营销软件运行过程中,常常会用到采集的功能,而采集功能又如何使用呢?我们首先针对万能营销软件的采集做一个剖析
1.当前打开网页采集的意思是我们针对

我们打开的如下图所示的网页进行采集的,也就是我们通常说的外部采集,这个是网页显示什么就采集什么的功能。

2.采集自定义内容,这个功能一般用在软件内部,比如我这里显示的,网,址,列表这个列表,想放到其它列表中去,

实现格式转换,那么我们就这样做,需要采集的列表,转到需要保存到哪个的列表,这样功能可以实现,每一个列表的转换。

这个功能也可以用来采集POST的图片功能。或是POST里某段数据,比如有的要用逻辑判断的,可以用这个采集成变量,然后实现一个判断的过程。

3.分割代码,这个功能是采集的主要部分,我们通用所看到的分割有很多,并且是随机变化的,

这个具体来说,像我们这个网页的新字,一眼看上去,是不是就像一个分割贴子一个一个的代码呢?只要我们把这个代码查看出来,就可以放到上面的这个分割代码,然后我们要采网址,还是采这个标题,就随便我们自定义了。

4.结果中包含:这个功能相当于我们数学说的包含功能,就像一个包子,里面有肉,有青菜,一种包着的关系。这个功能主要用在一些复杂的网页,一般我们很少用到这个功能了。

5.结果中不包含:这个功能相对于包含来说的。结果不包含,就像我们所说的上面这个例子,包子里面有肉有青菜,而这个包子里面,没有碗或是筷子这类东东的,就是除了我们这个包子以外的东东。这个功能主要也是用在一些比较复杂的页面中,比如采集百度那个搜出来的网页,想用自己的网站网址的,就会用到这个,除了这个,其它全要的意思。

5.开始部分:这个功能我们采集是最常用到的,但这个比较少独立起来用,我们都是结合“分割代码”这个功能一起用的。
如这个我们要采集这某个网页的网址的话,那是要代码代码作为前题,然后才有开始的部分。这个开始的部分,就像我们现在图上截出来的一样,只是把前面不要的部分去掉,作为一个开始,开端的代码,在这里的例子中:href="   这个代码是不是就成了始不要的部分呢,你看每一行都有,所以这个是公认的开始部分了。
6.结束部分:这个功能比较被动了,他是要有二个功能结合才会让人想起它。他是要结合”代割代码”和“开结部分”一起才会发挥作用的。

比如刚才这张图片,我们把分割代码找出来了,把开始部分也找出来了,头不要,尾也不要,就把这个“这个符号分作为公认的结束部分。一放上去,就把尾巴去掉了。

7.采集补全:这个功能就像备胎,有时我们采集出来的不是一段完整的网址,那我们就要加上去补全他们,

如下图看上去,这个完全是不完整的网址

然后我们有采集,结果补全一下,他就会这样显示了

8.保存列表:这个相当于口袋子,你想往哪里装,就选择哪里放。就这个意思了。

实例看一下采集怎样整。
首先我们要目确采集的目标,首先在网页选中我们要采集的目标

然后再点软件的采集动作,点了后会弹出采集窗口,我们这里的右边窗口,会显示我们刚才选中的那二个网址的源码,看上去就很复杂,所以我们采集一般只选中二个,再点采集我们作为分析对像。

而我们根本不用理其它的任何东东,就看我们需要采集的目标在哪里,找到它来。然后我们找分割的代码,在这里分割代码很明显了吧,如果你不明白,就看我们采集目标中,同一行的代码。

在这里,同一行的代码是这些蓝色的代码,就是同一行的,我们只需要把同一行的代码放进分割里面去,就可以把这一个一个的网址,我们需要采集的目标,进行分隔开来,

下图我们把刚才找的同一行的源码,放到了分割代码这行去,然后点测试,测试后会明确的发现,原来一行一行的 需要采集的网址,一行一行的出来了。

然后我们需要的就是把前面不要的部分,把后面不要的部分去掉,这就是我们上面所说的“开始部分”和“结束部分”
想一想,我们最讨厌它的部分,那前面这里都有,我们最不想要的,也是一个完整的网址不存在的东西,我们就把作为开始部分

这里的结束部分,也是我们最讨厌的部分,我们把他从我们的采集目标中去除了,也是一个完整网址,所不要的部分,把他去掉,那就成了哈。

所以结果就如下图,我们放上去,点采集后,就会有我们真正想要的网址出来了
采集的功能看上去复杂,但你采多了,一眼就能看出来,分割代码是什么,开始部分是什么,结束部分是什么,最重要的是我们找分割代码,只要找到了,我们后面想不要的的部分都会好解决问题了吧。


作者: zhucong    时间: 2017-12-11 15:40
又看了一次




欢迎光临 B2B网络软件 (http://bbs.niubt.cn/) Powered by Discuz! X3.2