Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
Show all changes
15 commits
Select commit Hold shift + click to select a range
3183445
告警成功率阈值从硬编码50%移入配置文件,以支持自定义;相关日志调整
Apr 7, 2026
e8426e7
提高redis依赖兼容性:最大版本支持从<4.0提升到<6.0
Apr 7, 2026
f471fbf
提高redis依赖兼容性:最大版本支持从<4.0提升到<6.0
Apr 7, 2026
b1c5afa
文件下载爬虫第一次提交
Apr 7, 2026
5c0e78a
文件下载爬虫第二次提交,修复bug
Apr 7, 2026
edaeee4
文件下载爬虫第三次提交,修复细节bug
Apr 7, 2026
744f172
文件下载爬虫第四次提交,文档细节调整
Apr 7, 2026
0bfd88d
文件下载爬虫支持任务字段透传组装最终item;on_task_all_done方法签名修改。
Apr 8, 2026
e25915c
解决“文件下载爬虫支持任务字段透传组装最终item”的bug——第一次提交
Apr 8, 2026
5f4ddb4
解决“文件下载爬虫支持任务字段透传组装最终item”的bug——第一次提交
Apr 8, 2026
7162763
解决“文件下载爬虫支持任务字段透传组装最终item”的bug——第二次提交——修复竞态条件bug,新增skipped_count字段。
Apr 8, 2026
6c04fc0
解决“文件下载爬虫支持任务字段透传组装最终item”的bug——第四次提交——添加run_id标识,避免小概率情况下跨批次请求造成统计错误。
Apr 8, 2026
517042a
第五次提交:修复方法签名不一致问题,文档更新。
Apr 8, 2026
b1db0c9
第六次提交:修复方法签名不一致问题;选择mysql作为缓存时,按 redis_key分表,减少跨业务串扰。
Apr 8, 2026
b7a0835
Merge pull request #4 from gyj126/file-spider
gyj126 Apr 8, 2026
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
1 change: 1 addition & 0 deletions docs/_sidebar.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,6 +13,7 @@
* [分布式爬虫-Spider](usage/Spider.md)
* [任务爬虫-TaskSpider](usage/TaskSpider.md)
* [批次爬虫-BatchSpider](usage/BatchSpider.md)
* [文件爬虫-FileSpider](usage/FileSpider.md)
* [爬虫集成](usage/爬虫集成.md)

* 使用进阶
Expand Down
14 changes: 9 additions & 5 deletions docs/foreword/功能概览.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,19 +24,23 @@
2. 内存去重:处理一万条数据约0.5秒。 去重一亿条数据占用内存约285MB
3. 永久去重:处理一万条数据约3.5秒。去重一亿条数据占用内存约285MB

## 5. 数据采集完整性
## 5. 支持批量文件下载

FileSpider 专用于批量下载文件/图片场景。一个任务包含多个待下载文件的 URL 列表,框架自动遍历生成下载请求,追踪下载进度,支持保存到本地磁盘或直接上传云存储。内置可选的文件去重机制,同一 URL 跨任务不重复下载。

## 6. 数据采集完整性

feapder对于每一条URL数据的抓取采取了强状态的控制,做到采集任务中URL抓取100%不丢失,即使多次尝试失败的URL也会进入错误队列并记录失败原因日志。这一特性对于很多强依赖采集数据的业务场景非常重要,保证数据用的放心。

## 6. 数据自动入库
## 7. 数据自动入库

只需要根据数据库表自动生成item,然后给item属性赋值,直接yield 返回即可批量入库

## 7. 支持Debug模式
## 8. 支持Debug模式

爬虫支持debug模式,debug模式下默认数据不入库、不修改任务状态。可针对某个任务进行调试,方便开发

## 8. 完善的报警机制
## 9. 完善的报警机制

为了保证数据的全量性、准确性、时效性,本框架内置报警机制,有了这些报警,我们可以实时掌握爬虫状态

Expand All @@ -53,7 +57,7 @@ feapder对于每一条URL数据的抓取采取了强状态的控制,做到采

![-w416](http://markdown-media.oss-cn-beijing.aliyuncs.com/2020/12/29/16092335882158.jpg)

## 9. 下载监控
## 10. 下载监控

框架对请求总数、成功数、失败数、解析异常数进行监控,将数据点打入到infuxdb,结合Grafana面板,可方便掌握抓取情况

Expand Down
Loading