Skip to content

lauhsu/SearchEngine

Repository files navigation

文件说明

  • 1.Spider文件夹下为爬虫的Python代码
  • 2.SearchProject文件夹为搜索引擎代码的工程,Java代码
  • 3.HtmlUnit文件夹为分词处理主程序,Java代码
  • 4.TextClassification文件夹为网页内容分类工 程,采用机器学习方法
  • 5.news_model为网页文本分类的模型
  • 6.data.sql是mysql数据库文件,存储爬下来的网页数据
  • 7.Association mining文件夹为关联挖掘主程序

开发技术:

  • 1.Maven管理工程
  • 2.开发语言:Java、JSP、HTML、JavaScript、Python
  • 3.SSM框架集(spring+springmvc+mybatis)

搜索引擎框架及相关工具:

  • 1.ElasticSearch 6.2.0
  • 2.Kibana
  • 3.logstash

功能模块流程:

  • 1.信息采集(网络爬虫)
  • 2.信息整理(分词实现、网页去重、索引构建)
  • 3.查询(检索模型、网页去重)

效果展示:

搜索引擎前端页面展示 Image text 使用Kibana查看索引信息 Image text Image text