猿人学王平老师的爬虫系统架构的代码
项目:wangping_kecheng
猿人学王平老师的爬虫系统架构的代码
课程环境:python 3.10
创建两个包:
- bald_spider:项目代码的地方
- core:核心代码存放处
- downloader 下载器文件夹
- _init_.py 下载器基类和元类
- aiohttp_downloader.py Aio下载器
- httpx_downloader.py httpx下载器
- _init_.py
- engine.py 引擎
- scheduler.py 调度器
- processor.py 数据处理器
- downloader 下载器文件夹
- spider:存放spider基类的地方
- _init_.py 基类
- http:存放spider基类的地方
- _init_.py
- request.py 请求类
- response.py 响应类
- items 数据
- __init__.py Item元类
- items.py 数据类
- middleware 中间件
- __init__.py 中间件基类
- middleware_manager.py 中间件管理类
- settings:存放spider基类的地方
- _init_.py
- default_settings.py 默认配置
- settings_manager.py 配置管理器
- utils: 工具包
- _init_.py
- date 处理时间工具
- pqueue.py 自己封装的优先级队列
- spider.py 爬虫工具:生成器转化工具等
- project.py 获取用户配置工具
- log.py 全局日志系统
- system.py Aio代理异常处理
- _init_.py 方便导包
- execption.py 自定义异常
- task_manager.py 任务管理
- crawler.py 工程启动封装
- stats_collector.py 统计信息封装
- core:核心代码存放处
- test:测试爬虫的代码
- baidu_spider
- spiders 用户爬虫
- _init_.py
- baidu.py 爬虫实例
- weibo.py 爬虫实例
- _init_.py
- items.py 用户数据类
- run.py 项目启动文件
- middleware.py 用户中间件
- settings.py 用户配置文件
- spiders 用户爬虫
- misc
- demo1.py 测试信号量
- demo2.py 测试信号量
- demo3.py 测试模块信息(获取配置信息)
- demo4.py __getitem__的使用
- demo5.py __getattr__和__getattribute__的使用
- demo6.py 测试下载器记录
- demo7.py 测试setdefault
- demo8.py middleware_method示例
- baidu_spider