Skip to content

Latest commit

 

History

History
77 lines (41 loc) · 2.33 KB

README.md

File metadata and controls

77 lines (41 loc) · 2.33 KB

python3.x 爬虫小项目


自己平时做数据分析时爬的数据 就当做练习爬虫了 😸

  • 爬取豆瓣国漫----2017/10

  • 爬取QQ好友所有说说----2017/11

  • 爬取赛氪网信息(未完成----2017/11

  • 爬取知乎用户信息(基于轮子哥 scrapy)----2017/11

  • 爬取WeChat(用itchat)----2017/12

  • 机器验证破解(未完成)----2017/12

  • 爬取星巴克信息----2018/1

  • 爬取网易云音乐评论 (持续更新)---- 2018/1

  • 爬取京东特定的商品评论---- 2018/1

  • 爬取豆瓣神秘巨星短评---- 2018/2

  • 爬取github--- 2018/2

  • vip视频解析助手--- 2018/2

    image

  • 抖音APP视频爬取下载(Fiddler)---2018/2
  • scrapy学习(依赖官方文档) ---2018/3
  • xpath学习 ---2018/3
  • 文件下载(浏览器下载的太慢了,ubuntu上还未发现好的下载软件,就自己简单实现了一个) ---/2018/3
  • 爬取ted的视频的文本内容,为后续的分析准备
  • WIFI 暴力破解

image

image

image

  • 添加百度文库的爬取(最近在用百度文库,经常提示粘贴超过用量,就弄了该脚本)

  • 并发爬取IMDB的数据

环境搭建与讲解

1. qq空间说说爬取

步骤:

  1. 通过模拟登录获取,因为说说中的请求链接需要的参数是在cookie中获取的,当然也可以通过其他的方式获取对应的cookies. 其中g_qzonetoken的获取是在网页的源码中获取的,
  2. 分析说说的链接, 构造参数, 传入即可

环境:

  1. selenuim
  2. request

注意事项

  1. 若是使用的是chrome, 注意chromedriver的版本和自己chrome的版本对应
  2. 使用模拟登录, 注意设置合适的睡眠时间, 避免还未执行登录操作, 后续的程序就直接执行了(可添加判断, 未做)

TODO

  • 并发爬取
  • 支持断点爬取