tweet_scraper

用来爬取指定author的tweets爬虫 author列表: ./tweet_scraper/spiders/authors

run spider: scrapy crawl twitter

Pipeline选择：(setting.py中配置ITEM_PIPELINES)

DownloadMiddleWare选择: (setting.py中配置DOWNLOAD_MIDLEWARES)

scrapy_fake_useragent.middleware.RandomUserAgentMiddleware(开源库，用户随机从线上数据库中读取不同的header，需先用pip安装)

requirements.txt

已测试：100个指定author的twitter爬取，几分钟可爬完1800-2000左右的tweets(每个author爬取最新20条tweets)，只用1个ip代理，加了fake agents，没被封- -

测试机器配置： Mac OSX CPU: 2.7 GHz Intel Core i5 Memory: 8 GB 1867 MHz DDR3

代理机器配置： vultr虚拟机 CPU: 1vCore RAM: 1024MB OS: centOS7

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
tests		tests
tweet_scraper		tweet_scraper
twitter_api		twitter_api
.coveralls.yml		.coveralls.yml
.travis.yml		.travis.yml
README.md		README.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg