骑士人才系统火车头采集器发布模块(详细教程)(火车头采集器基础训练)

作者:大公子 时间:23-02-05 阅读数:120人阅读

 今天来为大家分享下线“如何制作火车头采集器发布模块(详细教程)”火车头采集器的发布模块是非常重要的,我们的内容发布都要依赖于“发布模块”火车头采集对于我们做SEO的人来说,没什么必要,但是我们在整理内容的时候。是非常重要的,试想一下,如果你做一个大型网站,非常多的栏目内容,如果你逐个内容去添加,那要添加到什么时候那,所以火车头采集,对于内容的整理上,是非常重要的。下面讲解下“发布模块”如何制作。

  在线发布模块,就是采集器通过网站后台,发布文章,也就是说,把你手动在网站后台发布文章的整个过程包含登录网站后台,选择栏目,到后面的发布文章,这些步骤写到采集器里面,就是在

  线发布模块,然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。

  我们借助抓包工具Fiddler(下载地址:http://www.locoy.com/Down/RelatedSoft/Fiddler.html,下载后,只要一直点击下一步,就安装好了),这个软件可以

  把你手动添加文章做的操作记录下来,我们只需要把这些操作步骤复制到采集器里面就可以了。我们用骑士人才系统做教程,大家也同样用骑士人才系统搭建一个网站系按照教程一步一步的做。

  1,打开WEB在线发布模块编辑器

  点击“发布”按钮,如下图:

  

  然后点击“新建”按钮,我们来新建一个发布模块,如下图:

  

  说下上图的一个主要的选项:

  “网站自动登录”:网站系统登录的步骤和方式是写在那里的;

  “获取栏目列表”:获取网站的栏目的方式写在这里;

  “网页随机值获取”:在我们发布文章或者登录的时候,会有些值时刻变化,并不是我们填写的,而是网站系统自动生成的,我们这这里获取这些特殊的值;

  “内容发布参数”:把网站发布内容的步骤和方式填写在这里;

  2,网站自动登录

  我们首先做网站登录这一部分,首先打开并设置好上面我们安装好的Fiddler抓包软件如下图:

  

  按照红色框标注的选项来对抓包软件进行设置。左侧的地址就是Fiddler抓取到我们当前正在访问的地址,可能会抓到很多无用的地址,我们在抓下面登录系统的时候,先把已经抓到

  无用的结果给清空如下图:

  
  右击左侧任意处,弹出选项我们选择Remove==》AllSessions或者用快捷键Ctrl+X快捷键,来清空记录:

  

  看结果已经全部清空了。

  在按照以上步骤清空了抓包软件抓取到的结果后,打开网站的登录界面并输入正确的用户名密码点击登录如下图:

  

  登录成功后,我们在看抓包软件如下图:

  

  可以看到抓到了很多我们系统相关的地址,那么我们如何找我们需要的地址呢?看下图:

  

  我们选中左侧的地址,就可以查看右边抓到的信息,右侧有2个地方要看,在上图标志出来了,在第一处大家看到“POST”,第二处看到我们刚才输入的用户名密码了是吧,如果符合这2点,就

  说明,这个地址就是我们要获取的,为什么呢?这里就不说了,懂的人自然懂不懂的说了也不懂,这里需要网站编程基础的人才会明白,方正大家按照这个方式找就对了,懂不懂原理就看个人了。

  大家可以用同样的方式,查看别的地址,是不会有这样的2点的。那么现在就把我们需要的信息获取到了,然后我们下面大概的讲解下这是什么意思。讲解的比较的不专业,因为专业的人是不需

  要的讲解的,只是通过不专业的语言让我们不专业的人能有个大概的了解。如果你需要更多了解,就去学习下做网站写代码吧,水很深那~~~~~~~~~~

  我们把抓取的信息放到文本文件查看,点击右下角“ViewinNotepad”如下图:

  

  文本文件如下图:

  

  登录的过程就是:用户帐号数据在采集器里面我们称之为POST数据(标注3)是通过Referer:后面的地址(标志2)提交给POST后面的地址(标注1),进行登录验证。

  这就是整个登录过程。我们把这个过程写的采集器的发布模块里面去。

  在WEB发布模块编辑器里面选择“网站自动登录”选项卡,然后点击下面的“黏贴抓包获取的数据”,弹出自动提取数据的空白框,然后把登录抓到的POST数据填写进去,然后下面的UrlDecode选择和自己网站对应的编码点击下,如下图:(下面的图错了,箭头指向了“提取POST表单登录数据”,是不对的,应该是左侧的“黏贴抓包获取的数据”):

  

  以上操作完了点击“提取”按钮。结果如下图:

  

  上图就把标签名和标签值一样对应提取出来了,选择一个标签名进行修改如下图:

  

  对应的值我们用标签表示如上图。

  然后我们把登录地址后缀,来源页面地址后缀填写好如下图:

  

  登录地址后缀:就是抓包获取的post的后面的地址,我们去掉一部分填写这里,去多少你自己决定。一般是取域名后面的。

  来源也地址后缀:是Referer后面的地址,同上面去掉同一部分填写这里。

  验证码地址:这里填写验证码的地址,刚好这个系统登录是不需要验证码的。

  在登录地址后缀那里有个hiddentoken=200e9656,按照工作经验这个是个网页随机变量,这个值每次登录是随机变化的,判读是不是验证码的办法有:

  1,这个值看着很奇怪200e9656一看就不知道是干嘛的,这个时候就可以怀疑这个是不是个网页随机值

  2,那么我们就把hiddentoken这个去页面源代码里面去找下,看看这个值是不是在页面上已经生成的存在的

  3,一般这个值都是在来源页面生成的,所以我们就从来源页的页面源代码去查找这个值,这里也就是登录页面

  查看结果如下图:

  

  看到了把我们通过源代码发现这个值是变化的,也就验证了我们上面的判读这个是个变化的值,我们在采集器里面叫做网页随机值的,以后很多地方都会用到网页随机值,判读方式是一样的,

  后面再遇到的,就不在说了,直接使用了。

  下面我们说下如果获取网页随机值。下图:

  

  WEB发布模块编辑器里面选择“网页随机值获取“,点击下面的,“添加”按钮,如下图:

  

  “获取页面”:上面说了是登录的页面地址,这里就写登录页面的地址,这里注意不是全部的地址,而是地址的后面一部分这个是和“网站自动登录”那里设置的后缀开始是一样的。

  随机值是在页面源代码里获取的,和写规则一样,前后截取,中间获取的就是随机值的值。设置好了点击“确定”按钮。以后还有很多需要获取网页随机值的方法一样,以后遇到也不会多说了。

  添加好后如下图:

  

  按照添加的顺序,为网页随机值1网页随机值2等等……

  使用随机值:

  

  随机值有的时候是在网址里面有的时候在POST参数里面,大家一定要灵活引用。

  下面来说下,登录成功标识码如下图:

  

  采集器不是人,它不像你一样聪明的能判读是否登录成功了。但是一般我们登录成功后网站都会返回信息告诉我们是成功还是失败,这个返回的信息添加到登录成功标识码这里,

  采集器登录的时候就会把你填写到这里的信息和返回的信息做对比,如果是一致的采集器就当登录成功,不一致采集就当不成功。

  访问的信息我们依然是在Fiddler里面获取如下图:

  

  同样是找到发布页面,右侧选择“Raw”下面就是访问的信息,一般情况下在这里查找访问信息做为成功标识码,但是看右侧红色标注“302”就代表有跳转,这个不是真实地址,下面的地址才是,我们应该从它下面的地址来找访问信息,如下图:

  

  找到有些代表意义的,一般网站登录成功都会提示成功,但是这个网站没有,我们只能从返回的信息中找寻些别的信息,汉字或者字符很多情况下并没有什么意义,根据你的实际需要。总之是能判读是否成功登录,或者说只会在成功登录才能看到的信息,登录失败不会出现,就可以用来区分是否成功登录。成功标识码写到采集器里面如下图:

  

  “登录失败验证码”:我们同样用抓包,但是我们故意输入错误的用户名,来看下登录识别返回的提示,按照上面找成功标识码一样找失败标识码如下图:

  

  返回的信息中有很明确的提示信息“用户名或密码错误”,就可以当我们成功标识码如下图:

  

  成功标识码和错误标识码都可以是多个,一行一个。

  下面说“内容发布参数”,操作和做“网站自动登录”是一样的。

  首页我们在后台测试发布一篇文章,我们一般使用数字或者英语字母做测试,因为有的时候用汉字抓包可能是乱码,我们不好分辨,如下图,:

  

  然后清空抓包软件Fiddler里面不要的信息(抓登录Post数据的时候已经说过了),然后点击发布文章用Fiddler抓取发布文章的POST数据,如下图:

  

  按照上面我们做登录的时候一样,找我们需要的地址,POST数据,成功标识码等等如上图,或者的的文本文件如下:

  

  和登录是一样的格式的,红色框的发布文章的抓的数据格式和登录是不一样的,并且不同的网站抓到的结果也是不一样的,这个我们都不需要关注,直接复制放到采集器里面,采集器会

  帮我们自动提取好如下图:

  

  把我们填写的值对应用标签表示。我们查看发布页面的源代码看下分类是什么情况如下图:

  

  可以知道type_id就是代表的分类,每个分类都有个数字代替就是上图的id对应的数字,type_id_cn是分类的名称。

  抓包获取的值有乱码,我们如何改成正确的呢,就拿“Submit”这个表单对应的值来说,我们把这个表单名称在发布页面源代码里面去查找下如下图:

  

  源代码如上,对应的value="确定提交",就是其正确的值,通过以上修改发布模块变成如下图:

  

  “发布错误标识码“和“成功标识码”和上面到登录成功标识码和失败标识码是一样的。

  现在我们就要获取分类id和分类名称如下图:

  

  在获取分类的时候我们最好选择显示分类是那种下拉框显示的,一般也就是在添加文章那里获取分类,我们在添加文章的页面找到分类那部分的源代码如下图:

  

  找的代码的开始和结束,还有分类代码的格式,写的发布模块里面去如下图:

  

  设置开始结束字符,分类列表名称及ID格式,分类和分类名称分别用“[分类ID]”,“[分类名称]”来表示。

  刷新列表的页面地址和内容发布参数里面的来源页面后缀是一样的如下图:

  

  那么经过上面步骤发布模块就写好了,我们起个名字名保存如下图:

  

  测试发布模块:

  

  关于网站根地址说明查看地址:http://bbs.locoy.com/spider-133839-1-1.html

  成功后给配置起一名字,我们就可以在规则里面使用了如下图:

  

  好了。以上的文章“火车头采集模块”就讲解到这里,我们总结一下,火车头发布模块,是利用抓包去抓取登录地址,栏目获取,内容的获取,然后把内容逐步的添加进去即可,其实很简单,另外跟大家说一下,火车头采集是可以允许直接发布数据库的,如果你搞不定发布模块,直接去搞定数据库也是可以的。