火车头采集器免费版v10.2 官方正式版

火车头采集器免费版是一款功能强大的网络数据信息挖掘工具,具有批量采集网页、论坛内容等功能,你可以使用它采集各大主流网站文章系统,论坛系统等,速度高速下载稳定,需要的朋友快来IT猫扑下载吧!

软件功能

支持最新的win10系统中运行。

支持SSH(Sftp文件)上传。

任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计。

列表页,分页,多页自定义任意Header请求头等功能。

批量修改任务规则细节参数,批量修改Web发布配置。

起始网址批量网址的地址格式可添加多个地址参数,支持自定义列表参数。

标签数据来源更细致化,可设置从默认页,分页,多页的源码,URL地址及返回头信息中提取。

标签数据处理新增统计标签字符串长度、批量替换功能。

火车头采集器免费版v10.2 官方正式版

火车头采集器免费版特色

1、扩展性强、适用范围广

自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。

2、稳定、高效

七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。

3、通用性强

无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。

火车头采集器采集文章使用教程实例

任务:

采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。

页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)

1、新建分组–新建任务

火车头采集器免费版v10.2 官方正式版

 

2、添加网址+ 编辑获取网址的规则

火车头采集器免费版v10.2 官方正式版

选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。

火车头采集器免费版v10.2 官方正式版

可以看到有采集到的文章链接了。

火车头采集器免费版v10.2 官方正式版

 

3、采集内容规则

我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)

火车头采集器免费版v10.2 官方正式版

着重说下内容和图片的采集,标题和描述同理内容采集

火车头采集器免费版v10.2 官方正式版

 内容采集:

打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看):

选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。

我截取内容不想里面还带有链接图片可以数据处理,添加–html标签排除–选好确定–确定

 火车头采集器免费版v10.2 官方正式版

还有需要下载页面图片,勾选和填写下面选项

火车头采集器免费版v10.2 官方正式版

 

图片采集:

(1)选中范围和内容一样(文章内图片)

(2)数据处理选 提取第一张图片  内容是:https://www.xxx.com/2017/33/aa.jpg

(3)只要aa.jpg,正则过滤,获取内容:aa.jpg  

火车头采集器免费版v10.2 官方正式版

(4)数据库存储有前缀,添加上, upload/xxxxx/

火车头采集器免费版v10.2 官方正式版

找一个页面测试一下,可以看到对应项目都获取到了。

火车头采集器免费版v10.2 官方正式版

 

4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:

火车头采集器免费版v10.2 官方正式版

火车头采集器免费版v10.2 官方正式版

 

 5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

火车头采集器免费版v10.2 官方正式版

 

6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。

火车头采集器免费版v10.2 官方正式版

更新日志

火车采集器V10.2版

1.新增:User-Agent支持从文本读取并随机切换。教程:https://faq.locoy.com/q-1348.html。

2.新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。

3.优化:文件下载完毕插件接口优化。

4.优化:探测文件下载时正式下载文件,提升下载速度。

5.修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。

6.修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。

7.修复:拷贝任务时,任务备注未拷贝问题修复。

8.修复:标签引用支持调用“列表页”标签。

9.修复:json提取时如果json对象的“键”是整型导致提取有误。

10.优化:网址解析替换html问题。

11.修复:get、post分页问题处理。

12.修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”

13.新增:数据库发布模块支持replace into语句。

火车采集器V9.10版

1.二级代理重大修改并增加了商业代理支持

2.post获取网址POST页码增加递增数值

3.修复php和python插件不支持cookie的问题

4.当成功失败标识都为空时认为是发布成功

5.调整发布和入库模块界面大小和操作bug

6.修复web发布不登录时不发UA的问题

7.修复web发布测试时超时不起效的问题

8.修复Web发布时特殊情况下死循环问题

下载权限
查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
郑重声明:

各位朋友,本网站本身不提供下载资源,以下资源地址均为网友整理提供,并且需离开本站,请各位网友谨慎选择,我站将不提供任何保障。另:如这些资源地址有违规或侵权行为,请联系66553826(@)qq.com,我方将在确认后第一时间断开链接。

电脑软件

12306订票助手.NET版v2023.1.14.5 官方版

2024-10-15 0:35:24

电脑软件

路由器刷breed Web控制台助手v5.8 通用版

2024-10-15 0:41:25

搜索