Skip to content

Commit ec4a6cf

Browse files
committed
Merge branch 'master' into develop
2 parents 11e0302 + a0272c2 commit ec4a6cf

48 files changed

Lines changed: 2235 additions & 209 deletions

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

.github/workflows/workflow.yml

Whitespace-only changes.

README.md

Lines changed: 11 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -107,6 +107,15 @@ FirstSpider|2021-02-09 14:55:14,620|air_spider.py|run|line:80|INFO| 无任务,
107107
1. start_requests: 生产任务
108108
2. parse: 解析数据
109109

110+
111+
## 感谢Rapidproxy代理赞助
112+
113+
<a href="https://www.rapidproxy.io/?ref=boris " target="_blank">
114+
115+
<img src="https://markdown-media.oss-cn-beijing.aliyuncs.com/2026/04/03/github-2.png">
116+
117+
</a>
118+
110119
## 参与贡献
111120

112121
贡献之前请先阅读 [贡献指南](./CONTRIBUTING.md)
@@ -138,13 +147,13 @@ FirstSpider|2021-02-09 14:55:14,620|air_spider.py|run|line:80|INFO| 无任务,
138147
<tr>
139148
<td> 知识星球:17321694 </td>
140149
<td> 作者微信: boris_tm </td>
141-
<td> QQ群号:485067374 </td>
150+
<td> QQ群号:521494615</td>
142151
</tr>
143152
<tr>
144153
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2020/02/16/zhi-shi-xing-qiu.jpeg" width=250px>
145154
</td>
146155
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/er-wei-ma.jpeg?x-oss-process=style/markdown-media" width="250px" /> </td>
147-
<td> <img src="https://tva1.sinaimg.cn/large/008vxvgGly1h8byl060lnj30ku11c76h.jpg" width="250px" /> </td>
156+
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2024/04/28/17142933285892.jpg" width="250px" /> </td>
148157
</tr>
149158
</table>
150159

docs/README.md

Lines changed: 15 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -86,7 +86,7 @@ class FirstSpider(feapder.AirSpider):
8686

8787
if __name__ == "__main__":
8888
FirstSpider().start()
89-
89+
9090
```
9191

9292
直接运行,打印如下:
@@ -115,30 +115,30 @@ FirstSpider|2021-02-09 14:55:14,620|air_spider.py|run|line:80|INFO| 无任务,
115115
3. 验证码识别库:https://github.com/sml2h3/ddddocr
116116

117117

118-
## 微信赞赏
118+
<!-- ## 微信赞赏
119119
120120
如果您觉得这个项目帮助到了您,您可以帮作者买一杯咖啡表示鼓励 🍹
121121
122122
也可和作者交个朋友,解决您在使用过程中遇到的问题
123123
124124
125-
![赞赏码](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/03/16/zan-shang-ma.png)
125+
![赞赏码](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/03/16/zan-shang-ma.png) -->
126126

127127
## 学习交流
128128

129-
<table border="0">
130-
<tr>
131-
<td> 知识星球:17321694 </td>
132-
<td> 作者微信: boris_tm </td>
133-
<td> QQ群号:485067374 </td>
134-
</tr>
135-
<tr>
129+
<table border="0">
130+
<tr>
131+
<td> 知识星球:17321694 </td>
132+
<td> 作者微信: boris_tm </td>
133+
<td> QQ群号:521494615</td>
134+
</tr>
135+
<tr>
136136
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2020/02/16/zhi-shi-xing-qiu.jpeg" width=250px>
137-
</td>
138-
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/er-wei-ma.jpeg?x-oss-process=style/markdown-media" width="250px" /> </td>
139-
<td> <img src="https://tva1.sinaimg.cn/large/008vxvgGly1h8byl060lnj30ku11c76h.jpg" width="250px" /> </td>
140-
</tr>
141-
</table>
137+
</td>
138+
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/er-wei-ma.jpeg?x-oss-process=style/markdown-media" width="250px" /> </td>
139+
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2024/04/28/17142933285892.jpg" width="250px" /> </td>
140+
</tr>
141+
</table>
142142

143143

144144
加好友备注:feapder

docs/_sidebar.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -38,6 +38,7 @@
3838
* [海量数据去重-dedup](source_code/dedup.md)
3939
* [报警及监控](source_code/报警及监控.md)
4040
* [监控打点](source_code/监控打点.md)
41+
* [自定义下载器](source_code/custom_downloader.md)
4142

4243
* 爬虫管理系统
4344
* [简介及部署](feapder_platform/feaplat.md)

docs/feapder_platform/feaplat.md

Lines changed: 89 additions & 39 deletions
Original file line numberDiff line numberDiff line change
@@ -26,6 +26,8 @@
2626

2727
## 功能概览
2828

29+
暂时不支持 苹果电脑的Apple芯片
30+
2931
### 1. 项目管理
3032

3133
添加/编辑项目
@@ -95,10 +97,12 @@ worker节点根据任务动态生成,一个worker只运行一个任务实例
9597

9698
## 部署
9799

98-
> 下面部署以centos为例, 其他平台docker安装方式可参考docker官方文档https://docs.docker.com/compose/install/
100+
> 安装方式参考docker官方文档https://docs.docker.com/compose/install/
99101
100102
### 1. 安装docker
101103

104+
#### 1.1 centos系统
105+
102106
> docker --version
103107
> 作者的docker版本为 20.10.12,低于此版本的可能会存在问题
104108
@@ -121,22 +125,82 @@ yum install -y yum-utils device-mapper-persistent-data lvm2 && python2 /usr/bin/
121125
curl -sSL https://get.daocloud.io/docker | sh
122126
```
123127

128+
启动docker服务
124129

125-
126-
启动
127130
```shell
128131
systemctl enable docker
129132
systemctl start docker
130133
```
131134

135+
验证: 打开终端,输入
136+
137+
```shell
138+
docker ps
139+
```
140+
141+
#### 1.2 ubuntu系统
142+
143+
```
144+
sudo apt update
145+
sudo apt install docker.io docker-compose
146+
```
147+
148+
启动docker服务
149+
150+
```shell
151+
sudo systemctl enable docker
152+
sudo systemctl start docker
153+
```
154+
155+
验证: 打开终端,输入
156+
157+
```shell
158+
sudo docker ps
159+
```
160+
161+
#### 1.3 window系统
162+
163+
访问下面的链接,下载Docker Desktop, 然后安装即可
164+
165+
<a href="https://docs.docker.com/desktop/setup/install/windows-install/" target="_blank">https://docs.docker.com/desktop/setup/install/windows-install/ </a>
166+
167+
168+
运行安装好的Docker Desktop
169+
170+
验证: 打开cmd终端,输入
171+
172+
```shell
173+
docker ps
174+
```
175+
176+
#### 1.4 mac系统
177+
178+
访问下面的链接,下载Docker Desktop, 然后安装即可
179+
180+
<a href="https://docs.docker.com/desktop/setup/install/mac-install/" target="_blank">https://docs.docker.com/desktop/setup/install/mac-install/</a>
181+
182+
183+
运行安装好的Docker Desktop
184+
185+
验证: 打开终端,输入
186+
```shell
187+
docker ps
188+
```
189+
190+
132191
### 2. 安装 docker swarm
133192

134193
docker swarm init
135194

136195
# 如果你的 Docker 主机有多个网卡,拥有多个 IP,必须使用 --advertise-addr 指定 IP
137196
docker swarm init --advertise-addr 192.168.99.100
138197

139-
### 3. 安装docker-compose
198+
### 3. 安装docker-compose(非必须)
199+
一般安装完docker后,会自带 docker compose。可先输入下面的命令验证是否有改环境,若有则不需要安装
200+
``` shell
201+
docker compose
202+
```
203+
若无`docker compose`命令,则按照下面的安装
140204

141205
```shell
142206
sudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
@@ -147,6 +211,9 @@ sudo chmod +x /usr/local/bin/docker-compose
147211
sudo curl -L "https://get.daocloud.io/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
148212
sudo chmod +x /usr/local/bin/docker-compose
149213
```
214+
安装后输入`docker-compose`验证是否成功
215+
216+
注:`docker-compose``docker compose` 两种命令用法一样,是一个东西,只不过不同版本的docker可能叫法不一
150217

151218
### 4. 部署feaplat爬虫管理系统
152219
#### 预备项
@@ -174,6 +241,8 @@ git clone -b develop https://gitee.com/Boris-code/feaplat.git
174241

175242
```shell
176243
cd feaplat
244+
docker compose up -d
245+
或者
177246
docker-compose up -d
178247
```
179248

@@ -248,28 +317,9 @@ docker node ls
248317
docker swarm leave
249318
```
250319

251-
## 拉取私有项目
252-
253-
拉取私有项目需在git仓库里添加如下公钥
254-
255-
```
256-
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCd/k/tjbcMislEunjtYQNXxz5tgEDc/fSvuLHBNUX4PtfmMQ07TuUX2XJIIzLRPaqv3nsMn3+QZrV0xQd545FG1Cq83JJB98ATTW7k5Q0eaWXkvThdFeG5+n85KeVV2W4BpdHHNZ5h9RxBUmVZPpAZacdC6OUSBYTyCblPfX9DvjOk+KfwAZVwpJSkv4YduwoR3DNfXrmK5P+wrYW9z/VHUf0hcfWEnsrrHktCKgohZn9Fe8uS3B5wTNd9GgVrLGRk85ag+CChoqg80DjgFt/IhzMCArqwLyMn7rGG4Iu2Ie0TcdMc0TlRxoBhqrfKkN83cfQ3gDf41tZwp67uM9ZN feapder@qq.com
257-
```
258-
259-
或在系统设置页面配置您的SSH私钥,然后在git仓库里添加您的公钥,例如:
260-
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/10/19/16346353514967.jpg)
261-
262-
注意,公私钥加密方式为RSA,其他的可能会有问题
320+
## 使用
263321

264-
生成RSA公私钥方式如下:
265-
```shell
266-
ssh-keygen -t rsa -C "备注" -f 生成路径/文件名
267-
```
268-
如:
269-
`ssh-keygen -t rsa -C "feaplat" -f id_rsa`
270-
然后一路回车,不要输密码
271-
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/11/17/16371210640228.jpg)
272-
最终生成 `id_rsa``id_rsa.pub` 文件,复制`id_rsa.pub`文件内容到git仓库,复制`id_rsa`文件内容到feaplat爬虫管理系统
322+
[FEAPLAT使用说明](feapder_platform/usage)
273323

274324
## 自定义爬虫镜像
275325

@@ -361,18 +411,18 @@ SPIDER_IMAGE=my_feapder:1.0
361411

362412
## 学习交流
363413

364-
<table border="0">
365-
<tr>
366-
<td> 知识星球:17321694 </td>
367-
<td> 作者微信: boris_tm </td>
368-
<td> QQ群号:750614606 </td>
369-
</tr>
370-
<tr>
414+
<table border="0">
415+
<tr>
416+
<td> 知识星球:17321694 </td>
417+
<td> 作者微信: boris_tm </td>
418+
<td> QQ群号:521494615</td>
419+
</tr>
420+
<tr>
371421
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2020/02/16/zhi-shi-xing-qiu.jpeg" width=250px>
372-
</td>
373-
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/er-wei-ma.jpeg" width="250px" /> </td>
374-
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/16260897330897.jpg" width="250px" /> </td>
375-
</tr>
376-
</table>
377-
378-
加好友备注:feaplat
422+
</td>
423+
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/07/12/er-wei-ma.jpeg?x-oss-process=style/markdown-media" width="250px" /> </td>
424+
<td> <img src="http://markdown-media.oss-cn-beijing.aliyuncs.com/2024/04/28/17142933285892.jpg" width="250px" /> </td>
425+
</tr>
426+
</table>
427+
428+
加好友备注:feapder

docs/feapder_platform/question.md

Lines changed: 31 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -94,8 +94,10 @@ INFLUXDB_PORT_UDP=8089
9494
rm -f /etc/localtime
9595
ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
9696

97-
# 校对时间
97+
# 校对时间 方式1
9898
clock --hctosys
99+
# 校对时间 方式2
100+
ntpdate 0.asia.pool.ntp.org
99101
```
100102
101103
## 我搭建了个集群,如何让主节点不跑任务
@@ -123,3 +125,31 @@ attaching to network failed, make sure your network options are correct and chec
123125
```
124126
125127
原因是Drain节点,不能为其分配网络资源,需要先改成active,然后启动,之后在改回drain
128+
129+
**若不是以上情况,可能是network内的可分配的ip满了(老版本feaplat会有这个问题),那么可继续往下看**
130+
131+
1. 先检查feaplat目录下的docker-compost.yaml,翻到最后,看network相关配置是否为如下。若不是,则改成下面这样的。若下面指定的11 ip段和主机有冲突,可以写12、13等
132+
133+
```
134+
networks:
135+
default:
136+
name: feaplat
137+
driver: overlay
138+
attachable: true
139+
ipam:
140+
config:
141+
- subnet: 11.0.0.0/8
142+
gateway: 11.0.0.1
143+
```
144+
145+
完整配置见:https://github.com/Boris-code/feaplat/blob/develop/docker-compose.yaml
146+
147+
148+
2. 改完后,需要删除之前的network,使其重新创建,命令如下:
149+
150+
```
151+
docker service ls -q | xargs docker service rm # 注意 这个会停止掉所有任务。
152+
docker network rm feaplat # 删除网络
153+
docker compose rm # 删除之前feaplat运行环境
154+
docker compose up -d # 启动
155+
```

docs/feapder_platform/usage.md

Lines changed: 25 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -31,7 +31,7 @@
3131

3232
1. 准备项目,项目结构如下:
3333
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/10/16/16343707944750.jpg)
34-
2. 压缩后上传:
34+
2. 压缩后上传:(推荐使用 `feapder zip` 命令压缩)
3535
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/10/16/16343709590040.jpg)
3636
- 工作路径:上传的项目会被放到docker里的根目录下(跟你本机项目路径没关系),然后解压运行。因`feapder_demo.zip`解压后为`feapder_demo`,所以工作路径配置`/feapder_demo`
3737
- 本项目没依赖,可以不配置`requirements.txt`
@@ -44,6 +44,30 @@
4444
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/10/16/16343720862217.jpg)
4545

4646
可以看到已经运行完毕
47+
48+
## git方式拉取私有项目
49+
50+
拉取私有项目需在git仓库里添加如下公钥
51+
52+
```
53+
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCd/k/tjbcMislEunjtYQNXxz5tgEDc/fSvuLHBNUX4PtfmMQ07TuUX2XJIIzLRPaqv3nsMn3+QZrV0xQd545FG1Cq83JJB98ATTW7k5Q0eaWXkvThdFeG5+n85KeVV2W4BpdHHNZ5h9RxBUmVZPpAZacdC6OUSBYTyCblPfX9DvjOk+KfwAZVwpJSkv4YduwoR3DNfXrmK5P+wrYW9z/VHUf0hcfWEnsrrHktCKgohZn9Fe8uS3B5wTNd9GgVrLGRk85ag+CChoqg80DjgFt/IhzMCArqwLyMn7rGG4Iu2Ie0TcdMc0TlRxoBhqrfKkN83cfQ3gDf41tZwp67uM9ZN feapder@qq.com
54+
```
55+
56+
或在系统设置页面配置您的SSH私钥,然后在git仓库里添加您的公钥,例如:
57+
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/10/19/16346353514967.jpg)
58+
59+
注意,公私钥加密方式为RSA,其他的可能会有问题
60+
61+
生成RSA公私钥方式如下:
62+
```shell
63+
ssh-keygen -t rsa -C "备注" -f 生成路径/文件名
64+
```
65+
如:
66+
`ssh-keygen -t rsa -C "feaplat" -f id_rsa`
67+
然后一路回车,不要输密码
68+
![](http://markdown-media.oss-cn-beijing.aliyuncs.com/2021/11/17/16371210640228.jpg)
69+
最终生成 `id_rsa``id_rsa.pub` 文件,复制`id_rsa.pub`文件内容到git仓库,复制`id_rsa`文件内容到feaplat爬虫管理系统
70+
4771

4872

4973
## 爬虫监控

docs/images/aliyun_sale.jpg

-71.7 KB
Binary file not shown.

docs/images/qingguo.jpg

57.5 KB
Loading

0 commit comments

Comments
 (0)