新浪微博超级话题相册爬虫。包含缩略图和大图
-
安装
git clone https://github.com/CharlesLiu7/Weibo-SuperTopic-Album-Crawler cd Weibo-SuperTopic-Album-Crawler virtualenv env --python=python3 source ./env/bin/activate pip install -r requirements.txt mv settings.sample.py settings.py
-
设置
settings.py
STORE_PATH
下载目录SLEEPTIME
每次请求数据的间隔,默认为0秒COOKIES
任意用户微博的cookies,推荐包含以下字段SCF
,SSOLoginState
,SUB
,SUHB
,指南MAX_PAGE
相册翻页的最大页数,默认设置为10000,表示全部爬取TARGETS
目标超级话题的微博主页urls
-
运行
python main.py
-
注意: 有时候会解析失败,代码提供了断点保存功能在
.pkl.gz
文件中;程序因为抓取翻页结果失败退出后,可以直接重新运行以继续:python main.py
每次开始一个新的话题爬取之前请执行清除checkpoints
rm -rf checkpoints
感谢 Lodour/Weibo-Album-Crawler 提供的API和良好的代码结构,以及在 Issue 12 中提出的良好建议。
MIT License