火车头采集器采集post方式分页的列表的采集教程

来源:hurq 浏览:8382次 时间:2014-03-19
做网站找雨过天晴工作室

火车头采集器采集post方式分页的列表的采集教程

    

何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容找出共同特点,用火车中的“分页”变量进行替换并给定值范围,这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。雨过天晴工作室在这里着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的采集和普通页面一样,在此就不多说了。

工具/原料

  • WSExplorer

  • 火车头采集器

方法/步骤

  1. 1

    首先先下载抓包工具:WSExplorer(由于它被归为黑客软件,有个别杀毒软件下可能会误报。)站长啦友情提供下载地址:https://top.cnzzla.com/artinfo/398.html

    火车头采集器采集post方式分页的列表的采集教程
  2. 2

    我们用浏览器打开你要抓取的页面,

    当你进行翻页时就会发现此页是用post提交翻页请求的。

    标题如图

    火车头采集器采集post方式分页的列表的采集教程
  3. 3

    下面打开你下载WSockExpert,界面如下

    火车头采集器采集post方式分页的列表的采集教程
  4. 4

    选择你用的浏览器,我用的是2345浏览器,里面有三个进程,最下面的那个是我们要的进程点击进去,找到那个你“POST”一般紧跟着这个动作的下一行或者上一行,就是POST的数据,也就是我们说的抓包的内容。

    火车头采集器采集post方式分页的列表的采集教程
  5. 5

    打开你浏览器要获取的那个页面点击几次下一页,你会发现WSockExpert里面的获取的数据再变化,就是POST的数据,也就是我们说的抓包的内容

    火车头采集器采集post方式分页的列表的采集教程
    火车头采集器采集post方式分页的列表的采集教程
  6. 6

    你点击POST上面那行会出现下图,看到下面有个文本,鼠标移到到那边右边复制二进制文本

    火车头采集器采集post方式分页的列表的采集教程
  7. 7

    你你复制2到3个这样的内容到记事本去对吧,你会发现有一点点不同,看截图,

    火车头采集器采集post方式分页的列表的采集教程
  8. 8

    把抓包数据中我标注的地方换成火车中的[分页]变量,整个代码复制到火车中,如下图

    火车头采集器采集post方式分页的列表的采集教程
  9. 9

    注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到发送数据中,并在后面注明分页的范围。测试一下会出现如下图

    火车头采集器采集post方式分页的列表的采集教程
  10. 10

    看图片都可以获取成功。内容采集的制做过程就不说的,就当普通页面处理。到此火车头PSOT分页就搞定了

    END

注意事项

  • 抓包工具很重要,很多抓包工具在WIN7或者WIN8环境下不能用,我的系统是WIN8,这个抓包工具不错。