火车头采集器采集post方式分页的列表的采集教程
何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容找出共同特点,用火车中的“分页”变量进行替换并给定值范围,这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。雨过天晴工作室在这里着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的采集和普通页面一样,在此就不多说了。
方法/步骤
-
1
首先先下载抓包工具:WSExplorer(由于它被归为黑客软件,有个别杀毒软件下可能会误报。)站长啦友情提供下载地址:https://top.cnzzla.com/artinfo/398.html
-
2
我们用浏览器打开你要抓取的页面,
当你进行翻页时就会发现此页是用post提交翻页请求的。
标题如图
-
3
下面打开你下载WSockExpert,界面如下
-
4
选择你用的浏览器,我用的是2345浏览器,里面有三个进程,最下面的那个是我们要的进程点击进去,找到那个你“POST”一般紧跟着这个动作的下一行或者上一行,就是POST的数据,也就是我们说的抓包的内容。
-
5
打开你浏览器要获取的那个页面点击几次下一页,你会发现WSockExpert里面的获取的数据再变化,就是POST的数据,也就是我们说的抓包的内容
-
6
你点击POST上面那行会出现下图,看到下面有个文本,鼠标移到到那边右边复制二进制文本
-
7
你你复制2到3个这样的内容到记事本去对吧,你会发现有一点点不同,看截图,
-
8
把抓包数据中我标注的地方换成火车中的[分页]变量,整个代码复制到火车中,如下图
-
9
注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到发送数据中,并在后面注明分页的范围。测试一下会出现如下图
-
10
看图片都可以获取成功。内容采集的制做过程就不说的,就当普通页面处理。到此火车头PSOT分页就搞定了
END