搜档网
当前位置:搜档网 › 智联招聘网站中招聘信息的简单采集与获取

智联招聘网站中招聘信息的简单采集与获取

智联招聘网站中招聘信息的简单采集与获取
智联招聘网站中招聘信息的简单采集与获取

智联招聘网站中招聘信息的简单采集与获取

很多朋友遇到招聘网站数据的采集搬家的时候,往往都非常头痛,因为招聘信息的细节条目很多,总体较为繁琐。因此在此做一个招聘网站搬家的演示教程,此处选择业界比较知名的“智联招聘网”作为演示示例。其它的如“51JOB”“前程无忧”,“中华英才网”等等各种招聘网站中的招聘信息的采集搬家操作基本类似。

此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。

熊猫采集器是唯一拥有父子表功能的采集软件,对于本案例涉及到的招聘信息的完整搬家,则必须使用父子表功能,才能一次性的采集完整。然后利用熊猫采集器独有的“多级模拟发布”功能,将采集到的招聘企业和所属的N多招聘职位,一次性的完整发布到自己的招聘网站中。

有需要的看官可以去百度收索一个熊猫采集软件下载即可。熊猫的免费版就包含实现本演示示例的所需要的全部功能。

好了,下面进入我们的采集环节吧!

首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)

随便输入一个我们想要的项目名称,不输入也是可以的,如果没有输入的话系统默认会给我们的项目命名一个名字,这里因为我是智联招聘信息,我就起了智联招聘作为我需要的项目名称,以方便我们的区分。

然后点击下一步

进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。

那么下面就是进入智联招聘的页面,找一个标题列表页面了,这地方我们就以采集销售

职位的网址为例子,为下图所示:

下面,点击预开始分析按钮:

这个提示框的意思是,如果我们需要采集多页,也就是翻页采集,那么我们选择是即可,如果不需要,则选择否即可,这个可以根据我们的需要进行设置。我这里需要设置翻页采集,

那么我们就选择的是,这个时候系统会自己帮我们把翻页分析好,如下图

页了,如下图:

设置完成之后,点击下一步设置,进入到选择内容页的设置中,随便选择一个我们要采集的链接,如果右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调

整,如下图:

可以看出,这地方我们的框选不是我们想进去采集的链接,我们是想采集公司里面的职位信息,所以我们得从公司链接进去采集,这个时候需要做的就很简单,在左侧选择框中随

便选择一个公司的名称,如下图:

可以用到上面我们说的高级设定功能进行微调,赶集微调可以参考下图:

这个时候我们发现,公司已经被全部框选起来了,

我们就直接再次进行下一步设置,来到内容页面模板管理,这里系统默认会把我们在上一步选中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘

贴到添加新模板按钮左边的文本框里,点击添加新模板即可,如下图:

点击添加新模板之后会弹出一个设置模板的新窗口。点击软件上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要

采集的内容,这种操作会很灵活,由于选择是非常简单,我们这里就选择否了)如图:

分析完之后我们会发现左边款里面会出现很多我们在网页中能看见的内容,这个时候我们做的工作就非常简单了,我们需要什么就勾选上采集该项,然后选择一张表,用表里面的一个字段给保存起来即可。如下图

在这里,我们还需要采集公司的职位信息,那么我们就需要到子页面采集,也就是我们在主页面看到的招聘职位,,在左侧找到这些链接,选择其中的一个链接,然后利用熊猫的子页面嵌套功能去采集就可以了,如下图:

如下图:

这个时候点击开始分析,就会出来招聘职位的信息了,如下

这个时候,我们只需要和采集上面的内容一样,需要什么内容,用子表给存储下来即可

面,运行项目,看下采集结果。

可以发现,公司的信息包括职位的信息已经被我们全部采集下来了,我们可以发现,熊猫采集获取我们的信息还是非常方便的,并不需要我们有网页设计的基础就可以达到我们信息的采集,最后,告诉各位看官,熊猫现在已经完全免费啦!

相关主题