AutoX NLP

联系方式

针对特征提取流程、功能的优化

优化类型	简介	具体描述	状态
代码规范	代码逻辑	保证功能正常的前提下，优化代码逻辑，提高代码可读性	待认领
功能完善	参数校验	设计param_check，检查各种情况下的入参是否合理	待认领
效率优化	fasttext处理效率	当前使用fasttext进行特征提取的效率较慢，同等数据量下与BERT-tiny用时相当，可针对性优化	待认领
效果优化	MLM+Bert效果优化	默认mlm是使用BERT在所有训练数据上进行2轮mlm训练，后续优化可以考虑传入test数据，每轮mlm结束后在test上验证，取最优epoch保存	待认领
效果优化	OOV问题优化	当前Word2Vec和Glove模型无法处理测试数据中未见过的词，需要对测试数据重新进行词表构建，对整体效果影响较大	待认领
效果优化	zero-shot labeling推理长度限制问题	当前zero-shot labeling推理使用的是huggingface官方提供的pipeline工具，并且在cpu上运行，因此对单条文本长度限制较大，可优化推理流程，并自动在支持GPU的设备上选择GPU推理	待认领
功能完善	新增特征降维方式	当前针对有监督和无监督的情况下分别支持岭回归、k均值两种特征降维方式，可在此基础上新增其他降维方式	待认领
问题修复	glove环境适配	当前glove模型使用的是glove-python-binary包，对windows系统及mac系统安装较困难，可通过其他方式实现glove	待认领

将文本特征提取工具与AutoX自动建模工具结合，自动调用文本处理工具提取数据集中的文本特征，并选择最优的文本特征提取方法，最后将文本特征与其他特征组合进行后续建模

简介	具体描述	状态	code
文本列识别优化	自动识别数据集中的文本列，并且针对不同文本，选择最合适的特征提取方法，例如：包含复杂语义的长文本可使用mlm+bert，规则性较强的功能性文本如URL可使用TFIDF、Word2Vec等	待认领
将文本特征提取接入自动化建模流程	自动将数据集中的文本列传入特征提取工具，并将特征用于后续建模	待认领