跳到主要内容

使用 Crawlee 框架进行爬虫时的常见问题及解决方案

·1 分钟

本文主要描述Crawlee 框架的搭建时出现运行错误的解决方法

node 爬虫 Crawlee 框架

按照 Crawlee 官网的描述,仅需 Node.js 版本高于 16.0.0 即可。但在实际运用时,还会遇到一些问题。

1. 执行 npx crawlee create —项目名称 时可能出现的问题 #

这个问题经过一番查证,可能是需要网络加速的原因才能进行解决,所以这里可以推荐 Watt Tooltik 软件。该软件可以进行网络加速,可以解决这个问题。


2. 下载加速后仍可能出现 CA 证书不匹配的问题 #

这个时候还是需要用到 Watt Tooltik 软件

  1. 打开软件后,点击“打开” → 选中证书,会跳转到相应的目录下。
  2. 在该目录中可以看到若干文件,需要点击后缀名为 .cer 的文件进行安装证书
  3. 安装完证书后,需要在电脑上配置环境变量(系统变量或用户变量均可):
    • 变量名NODE_EXTRA_CA_CERTS
    • 变量值.cer 证书文件的完整路径
  4. 最后重启命令行窗口即可解决问题,此时可以正常创建 Crawlee 项目。


3. 运行项目时可能仍会报错 #

若执行 npm start 运行项目时出现如下错误:

此时还需要手动安装 Playwright 依赖:

npx playwright install --with-deps

完成以上步骤后,项目即可成功运行!!!!