- 1.Spider文件夹下为爬虫的Python代码
- 2.SearchProject文件夹为搜索引擎代码的工程,Java代码
- 3.HtmlUnit文件夹为分词处理主程序,Java代码
- 4.TextClassification文件夹为网页内容分类工 程,采用机器学习方法
- 5.news_model为网页文本分类的模型
- 6.data.sql是mysql数据库文件,存储爬下来的网页数据
- 7.Association mining文件夹为关联挖掘主程序
- 1.Maven管理工程
- 2.开发语言:Java、JSP、HTML、JavaScript、Python
- 3.SSM框架集(spring+springmvc+mybatis)
- 1.ElasticSearch 6.2.0
- 2.Kibana
- 3.logstash
- 1.信息采集(网络爬虫)
- 2.信息整理(分词实现、网页去重、索引构建)
- 3.查询(检索模型、网页去重)