- AutoX贡献者意向成员群
- Email: [email protected]
- 找到自己感兴趣的issues;
- 在issue下方留言, 表明自己即将在感兴趣的issue上展开工作,我们的社区维护者将会把该issue的assignee变更为你;
- 你现在可以正常地编写代码,提交PR了.
针对特征提取流程、功能的优化
优化类型 | 简介 | 具体描述 | 状态 | code |
---|---|---|---|---|
代码规范 | 代码逻辑 | 保证功能正常的前提下,优化代码逻辑,提高代码可读性 | 待认领 | |
功能完善 | 参数校验 | 设计param_check,检查各种情况下的入参是否合理 | 待认领 | |
效率优化 | fasttext处理效率 | 当前使用fasttext进行特征提取的效率较慢,同等数据量下与BERT-tiny用时相当,可针对性优化 | 待认领 | |
效果优化 | MLM+Bert效果优化 | 默认mlm是使用BERT在所有训练数据上进行2轮mlm训练,后续优化可以考虑传入test数据,每轮mlm结束后在test上验证,取最优epoch保存 | 待认领 | |
效果优化 | OOV问题优化 | 当前Word2Vec和Glove模型无法处理测试数据中未见过的词,需要对测试数据重新进行词表构建,对整体效果影响较大 | 待认领 | |
效果优化 | zero-shot labeling推理长度限制问题 | 当前zero-shot labeling推理使用的是huggingface官方提供的pipeline工具,并且在cpu上运行,因此对单条文本长度限制较大,可优化推理流程,并自动在支持GPU的设备上选择GPU推理 | 待认领 | |
功能完善 | 新增特征降维方式 | 当前针对有监督和无监督的情况下分别支持岭回归、k均值两种特征降维方式,可在此基础上新增其他降维方式 | 待认领 | |
问题修复 | glove环境适配 | 当前glove模型使用的是glove-python-binary包,对windows系统及mac系统安装较困难,可通过其他方式实现glove | 待认领 |
将文本特征提取工具与AutoX自动建模工具结合,自动调用文本处理工具提取数据集中的文本特征,并选择最优的文本特征提取方法,最后将文本特征与其他特征组合进行后续建模
简介 | 具体描述 | 状态 | code |
---|---|---|---|
文本列识别优化 | 自动识别数据集中的文本列,并且针对不同文本,选择最合适的特征提取方法,例如:包含复杂语义的长文本可使用mlm+bert, 规则性较强的功能性文本如URL可使用TFIDF、Word2Vec等 | 待认领 | |
将文本特征提取接入自动化建模流程 | 自动将数据集中的文本列传入特征提取工具,并将特征用于后续建模 | 待认领 |