Skip to content

fuxinjiang/soga-text-data-mining

Repository files navigation

该代码主要针对搜狗九分类数据集进行分类 
首先对文本进行分词,用Text_data_mining.py对每一类数据集进行分词,然后对每一类的每一篇文档转换成一个行
例如下面
短 线 黑马 派 神 股 改 重组 新 模式 创造 暴利 神化 渤海 投资 研究所 周延 新 
是的原来的每一条新闻在整合的总文档中是一个行向量文本
然后用text_data.py对整合之后的总文档进行word2vector处理
再然后用model.py对每一类文档进行向量表示
最后用main_text_data.py对每一类的文档进行向量表示,构造出分类的标签和属性

About

宗成庆老师课上的文本数据挖掘大作业

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages