胖鼠采集(Fat Rat Collect)

Description

胖鼠采集(Fat Rat Collect) 是一款基于 WordPress 的内容采集与数据处理插件,适用于资讯站、内容聚合站及需要结构化采集网页内容的业务场景。插件支持通过规则配置完成网页内容提取、链接补全、图片处理、内容过滤、自动发布等操作,并提供调试工具与示例规则,便于快速上手和持续维护。

核心功能

  • 微信公众号文章采集:支持公众号文章内容提取与清洗处理。
  • 简书文章采集:支持正文、图片等内容采集。
  • 列表采集与历史采集:支持从列表页批量获取文章链接并持续采集历史内容。
  • 详情页采集:支持针对目标详情页提取标题、正文、图片等信息。
  • 分页采集:支持多分页内容遍历,适用于历史数据抓取场景。
  • 自动采集:支持定时或持续执行采集任务。
  • 自动发布:支持将采集结果自动写入 WordPress 文章系统。
  • 调试模式:支持在线调试采集规则,便于定位选择器与数据处理问题。
  • 示例规则:提供可直接体验和参考的规则样例。
  • 内容增强:支持 动态内容自动标签、标签内链等扩展能力。
  • 内容去重:支持重复文章识别与过滤。
  • 特色图片处理:支持正文首图设置为特色图片。
  • 图片本地化:支持将图片下载到本地媒体库,并兼容对象存储类插件。
  • 数据处理:支持基于 HTML 和 jQuery 的内容过滤、替换与伪原创处理。
  • 任意可见网页采集:支持自定义站点列表页与详情页采集规则。
  • 相对链接补全:支持自动补全相对路径为完整链接。
  • 图片链接类型处理:支持自定义图片链接格式。
  • 详情分页数据采集:支持详情页内部翻页内容整合。
  • 关键词随机插入:支持指定关键词或 A 标签关键词随机插入正文内容。
  • 安装即用:完全基于 WordPress 实现,支持开源查阅与二次开发。
  • 兼容说明:如 PHP 版本低于 7.1,请使用历史兼容分支 based_php_5.6,该分支已停止更新,不建议在新环境中使用。
  • 合规提示:请在合法、合规、获得授权的前提下使用本插件。

胖鼠采集系统架构

  • 系统由五个核心模块组成。
  • ① 采集中心:用于创建与管理采集任务。
  • ② 配置中心:用于维护采集规则、字段映射和处理逻辑。
  • ③ 数据桶:用于查看、筛选、发布和管理采集结果。
  • ④ 调试中心:用于在线调试规则与查看采集结果。
  • ⑤ 工具箱:提供插件配套的辅助工具能力。

使用说明

  • 采集任务通常会消耗较多系统资源,图片下载与媒体处理场景尤为明显。
  • 建议首次使用时优先体验示例规则,确认环境配置正常后再创建自定义规则。
  • 本插件适用于学习、研究与合法业务场景,使用者需自行承担实际使用中的合规责任。

Screenshots

  • 采集中心:用于创建和管理采集任务。
  • 配置中心:用于维护采集规则与字段配置。
  • 数据桶:用于查看和发布已采集的数据。
  • 配置编辑页:用于新增或修改采集规则。
  • 调试中心:用于调试采集规则并查看结果。
  • 工具箱:提供插件配套辅助工具。

Installation

安装方式:
1. 在 WordPress 插件市场中搜索 胖鼠采集 并安装启用。
2. 或将插件目录上传至 /wp-content/plugins/ 后,在后台启用插件。
3. 若 PHP 版本低于 7.1,请使用历史兼容分支 based_php_5.6;该分支已停止更新,不建议在新环境中使用。

FAQ

常见问题

采集成功但没有数据,如何排查?

请打开浏览器开发者工具,查看 Console 或网络请求中的调试信息,并结合调试中心检查规则配置是否正确。

插件是否收费?

插件基础能力可免费使用,部分高级或特色功能可能采用单独授权方式提供,具体以官方说明为准。

是否支持微信公众号历史文章采集?

当前版本暂不支持完整历史文章自动抓取,具体能力请以实际版本说明为准。

是否支持 Ajax 页面采集?

支持情况取决于目标页面结构与采集方式,必要时可结合动态渲染能力进行处理。

是否支持图片下载?

支持,可将采集图片下载到本地,并根据配置接入媒体库或对象存储插件。

相对链接是否可以自动补全?

支持,插件可根据配置自动补全相对路径为完整链接。

关于新建配置

建议优先使用调试中心进行规则验证,并结合视频或文字教程逐步完成配置。

胖鼠推荐服务环境

  • PHP:建议 7.1 及以上版本。
  • Web 服务器:推荐 Nginx。
  • MySQL:推荐 5.7 及以上版本。
  • WordPress:建议使用当前受支持的稳定版本。
  • 插件版本:建议及时更新至最新版本,以获得更好的兼容性和安全性。

Reviews

Onwa-ise 26, 2025
作者要吃饭能理解,但是为什么这个发布配置设置也要会员?设置完后,点击保存设置,页面刷新后,刚才的配置又恢复默认
Onwa-anö 3, 2023
安装了。 安装之后有些些错误,需要更改,是服务器的问题。 确实 很好的插件!谢谢中文有这样的好插件。
Onwa-mbu 25, 2023
刚开始用word press,网上搜了下评价不错,用了十几天感觉很棒,操作简单,功能很全,非常适合国内的word press用户,值得推荐
Read all 46 reviews

Contributors & Developers

“胖鼠采集(Fat Rat Collect)” is open source software. The following people have contributed to this plugin.

Contributors

Changelog

= 3.0.0
* 新版本,新时代

= 2.7.4
* 配合官方安全更新

= 2.7.3
* 修复公众号采集的一个BUG

= 2.7.2
* 修复公众号采集的重新激活BUG

= 2.7.1
* 修复一个影响新鼠友的保存配置的BUG

= 2.7.0
* 微信公众号历史文章采集
* 登陆网站 cookie 采集

= 2.6.7/8
* 优化一些安全相关问题

= 2.6.6
* 优化提示文案
* 修复自动发布快捷发布故障
* 快捷发布增加批量发布功能(新功能)

= 2.6.5
* 安全更新,性能优化
* 全站采集保存正则BUG修复

= 2.6.3
* 安全更新
* 代码优化

= 2.6.2
* 安全优化

= 2.6.1
* 修复采集列表或者分页的时候,被目标站防采集命中,会出现的采集数据的url不一致、但是数据的标题以及内容和源网站不一样,数据会重复的bug

= 2.6.0
* 升级组件,兼容PHP8
* 修复数据桶分页数量bug
* 修复自动采集html展示问题
* 修复配置数量为5个无法编辑问题
* 优化文案
* 优化项目结构
* 使用composer自动加载

= 2.5.2
* 修复关键词随机插入保存错误

= 2.5.1
* 部分语法兼容php8
* 数据桶样式优化
* 配置中心文章正文添加头尾html反斜线bug

= 2.5.0
* 升级 bootstrap

= 2.4.4
* 官方指导、代码修正, 写法规范.
* 简单而又大量的优化.
* 修复oss图片上传相对地址选项,但站点根目录不是 wp-content 会出现的bug.

= 2.4.3
* 修复关键词替换的BUG

= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.

= 2.4.1
* 数据表字段长度调整
* 代码精简

= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码

= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.

= 2.2.6
* Fix Auto Absolute Url Bug.

= 2.2.5
* 修复bug,提升稳定性

= 2.2.3-4
* 修复自动发布 动态内容,自动标签bug
* 优化代码,提升速度

= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度

= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则,删除对应数据
* 等其他优化..

= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态

= 2.0.7
* 优化速度 .

= 2.0.6
* fix bug .
* 插件提升管理员权限使用.

= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码,优化速度
* 批量删除细节优化

= 2.0.4
* 数据链接优化

= 2.0.3
* 优化插件速度,精简很多地方.

= 2.0.2
* 低版本数据库兼容

= 2.0.1
* 大数据量鼠优化升级步骤

2.0.0

2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化,标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化,避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据,所有数据一手掌握

1.11.1

2019-11-30
* delete Violations wordpress keywords

1.11.1

2019-09-19
* 简书规则升级

1.11.0

2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)

1.10.4

2019-06-12
* 优化一些地方

1.10.3

2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化

1.10.2

2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化

1.10.1

2019-05-04
* 代码优化

1.10.0

2019-05-04
* 新功能 Dynamic Content

1.9.0

2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案

1.8.7

2019-04-30
* 修复一个紧急bug

1.8.6

2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30

1.8.4

2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化

1.8.3

2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}

1.8.2

2019-04-14
* 修复了 一个不影响大局的sql错误

1.8.1

2019-04-14
* 修复 微信 简书 采集失败bug

1.8.0

2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载

1.7.5

2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug

1.7.4

2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能

1.7.3

2019-03-08
* 冒泡

1.7.2

2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.

1.7.1

2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.

1.7.0

2019-01-25
* 定时发布 (给鼠友增加开关)
* 定时采集 (给鼠友增加开关)
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明

1.6.3

2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!

1.6.2

2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!

1.6.1

2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正

1.6.0

2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码

1.5.1

2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug

1.5.0

2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员

1.4.3

2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?

1.4.2

2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则,后续增加
* 采集url地址 代码优化

1.4.1

2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码

1.4.0

2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表,增加了索引
* 优化掉了Log表
* …

1.0.0

2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。