Skip to content

Shyujikou/sh-trash-data-crawler

Repository files navigation

上海垃圾分类数据爬虫

这个脚本用来爬取上海垃圾分类信息查询网页中的数据集。

  • get_keywords.py调用关键词接口,通过单字查询获取关键词列表
    (注意:这个接口的行为已改变,之前对返回的关键词数量未做限制,现在已限制为3个,难以获取完整的关键词列表,可考虑使用已经抓取的列表或者其他语料库)
  • get_trash_data.py调用查询网页,解析返回页面中的垃圾分类信息
  • 本repo中提供了已抓取的数据集

About

上海垃圾分类数据爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages