Weibo Album SuperTopic Crawler

新浪微博超级话题相册爬虫。包含缩略图和大图

Usage

安装

git clone https://github.com/CharlesLiu7/Weibo-SuperTopic-Album-Crawler
cd Weibo-SuperTopic-Album-Crawler
virtualenv env --python=python3
source ./env/bin/activate
pip install -r requirements.txt
mv settings.sample.py settings.py

设置settings.py
- STORE_PATH 下载目录
- SLEEPTIME 每次请求数据的间隔，默认为0秒
- COOKIES 任意用户微博的cookies，推荐包含以下字段 SCF, SSOLoginState, SUB, SUHB，指南
- MAX_PAGE 相册翻页的最大页数，默认设置为10000，表示全部爬取
- TARGETS 目标超级话题的微博主页urls
运行

python main.py
注意: 有时候会解析失败，代码提供了断点保存功能在 .pkl.gz 文件中；程序因为抓取翻页结果失败退出后，可以直接重新运行以继续:
```
python main.py
```
每次开始一个新的话题爬取之前请执行清除checkpoints
```
rm -rf checkpoints
```

感谢 Acknowledgement

感谢 Lodour/Weibo-Album-Crawler 提供的API和良好的代码结构，以及在 Issue 12 中提出的良好建议。

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
weibo		weibo
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
cookies.png		cookies.png
main.py		main.py
requirements.txt		requirements.txt
settings.sample.py		settings.sample.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Weibo Album SuperTopic Crawler

Usage

感谢 Acknowledgement

License

About

Releases

Packages

Contributors 2

Languages

License

CharlesLiu7/Weibo-SuperTopic-Album-Crawler

Folders and files

Latest commit

History

Repository files navigation

Weibo Album SuperTopic Crawler

Usage

感谢 Acknowledgement

License

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages