Skip to content

Latest commit

 

History

History
8 lines (6 loc) · 621 Bytes

README.md

File metadata and controls

8 lines (6 loc) · 621 Bytes

上海垃圾分类数据爬虫

这个脚本用来爬取上海垃圾分类信息查询网页中的数据集。

  • get_keywords.py调用关键词接口,通过单字查询获取关键词列表
    (注意:这个接口的行为已改变,之前对返回的关键词数量未做限制,现在已限制为3个,难以获取完整的关键词列表,可考虑使用已经抓取的列表或者其他语料库)
  • get_trash_data.py调用查询网页,解析返回页面中的垃圾分类信息
  • 本repo中提供了已抓取的数据集