Skip to content

Latest commit

 

History

History
35 lines (27 loc) · 4.49 KB

call_for_contribute.md

File metadata and controls

35 lines (27 loc) · 4.49 KB

AutoX NLP

联系方式

参与流程

  1. 找到自己感兴趣的issues;
  2. 在issue下方留言, 表明自己即将在感兴趣的issue上展开工作,我们的社区维护者将会把该issue的assignee变更为你;
  3. 你现在可以正常地编写代码,提交PR了.

1. 基于当前文本特征提取工具的优化

针对特征提取流程、功能的优化

优化类型 简介 具体描述 状态 code
代码规范 代码逻辑 保证功能正常的前提下,优化代码逻辑,提高代码可读性 待认领
功能完善 参数校验 设计param_check,检查各种情况下的入参是否合理 待认领
效率优化 fasttext处理效率 当前使用fasttext进行特征提取的效率较慢,同等数据量下与BERT-tiny用时相当,可针对性优化 待认领
效果优化 MLM+Bert效果优化 默认mlm是使用BERT在所有训练数据上进行2轮mlm训练,后续优化可以考虑传入test数据,每轮mlm结束后在test上验证,取最优epoch保存 待认领
效果优化 OOV问题优化 当前Word2Vec和Glove模型无法处理测试数据中未见过的词,需要对测试数据重新进行词表构建,对整体效果影响较大 待认领
效果优化 zero-shot labeling推理长度限制问题 当前zero-shot labeling推理使用的是huggingface官方提供的pipeline工具,并且在cpu上运行,因此对单条文本长度限制较大,可优化推理流程,并自动在支持GPU的设备上选择GPU推理 待认领
功能完善 新增特征降维方式 当前针对有监督和无监督的情况下分别支持岭回归、k均值两种特征降维方式,可在此基础上新增其他降维方式 待认领
问题修复 glove环境适配 当前glove模型使用的是glove-python-binary包,对windows系统及mac系统安装较困难,可通过其他方式实现glove 待认领

2.基于AutoX建模流程的优化

将文本特征提取工具与AutoX自动建模工具结合,自动调用文本处理工具提取数据集中的文本特征,并选择最优的文本特征提取方法,最后将文本特征与其他特征组合进行后续建模

简介 具体描述 状态 code
文本列识别优化 自动识别数据集中的文本列,并且针对不同文本,选择最合适的特征提取方法,例如:包含复杂语义的长文本可使用mlm+bert, 规则性较强的功能性文本如URL可使用TFIDF、Word2Vec等 待认领
将文本特征提取接入自动化建模流程 自动将数据集中的文本列传入特征提取工具,并将特征用于后续建模 待认领