使用 Crawlee 框架进行爬虫时的常见问题及解决方案
·1 分钟
本文主要描述Crawlee 框架的搭建时出现运行错误的解决方法
node 爬虫
Crawlee 框架
按照 Crawlee 官网的描述,仅需 Node.js 版本高于 16.0.0 即可。但在实际运用时,还会遇到一些问题。
1. 执行 npx crawlee create —项目名称 时可能出现的问题 #
这个问题经过一番查证,可能是需要网络加速的原因才能进行解决,所以这里可以推荐 Watt Tooltik 软件。该软件可以进行网络加速,可以解决这个问题。
2. 下载加速后仍可能出现 CA 证书不匹配的问题 #
这个时候还是需要用到 Watt Tooltik 软件:
- 打开软件后,点击“打开” → 选中证书,会跳转到相应的目录下。
- 在该目录中可以看到若干文件,需要点击后缀名为
.cer的文件进行安装证书。 - 安装完证书后,需要在电脑上配置环境变量(系统变量或用户变量均可):
- 变量名:
NODE_EXTRA_CA_CERTS - 变量值:
.cer证书文件的完整路径
- 变量名:
- 最后重启命令行窗口即可解决问题,此时可以正常创建 Crawlee 项目。
3. 运行项目时可能仍会报错 #
若执行 npm start 运行项目时出现如下错误:
此时还需要手动安装 Playwright 依赖:
npx playwright install --with-deps
✅ 完成以上步骤后,项目即可成功运行!!!!