一个基于PyQt5的网站爬虫工具,支持多层级网页抓取和自定义配置。
- 支持多层级网页抓取
- 可配置爬取深度
- 自定义请求延迟时间
- 支持日志级别配置
- 优雅的退出机制
- 自动过滤无效链接
- SQLite数据存储
- Python 3.6+
- PyQt5
- 其他依赖请查看 requirements.txt
- 克隆项目代码:
git clone https://github.com/seaung/suspider.git
cd suspider
- 安装依赖:
pip install -r requirements.txt
python main.py <url>
url
: 要爬取的网站URL(必需)-d, --depth
: 爬取深度,默认为3-t, --delay
: 请求延迟时间(秒),默认为1.0--log-level
: 日志级别,可选值:DEBUG、INFO、WARNING、ERROR、CRITICAL,默认为INFO
# 使用默认配置爬取网站
python main.py https://example.com
# 设置爬取深度为5,延迟2秒
python main.py https://example.com -d 5 -t 2.0
# 设置日志级别为DEBUG
python main.py https://example.com --log-level DEBUG
- 请遵守网站的robots.txt规则
- 建议设置适当的请求延迟,避免对目标网站造成压力
- 爬取深度越大,耗时越长,请根据实际需求设置