jiojio 分词CRF特征总结

Jump to bottom

冬日新雨 edited this page May 31, 2022 · 13 revisions

CRF 特征总结

CRF 以特征进行标签分类，特征的处理对于模型的效果至关重要。
本工具中，对于 CRF 的特征分为单字特征、双字特征、歧义词组特征几类。

分词数据统计

统计词长的数量与占比

词长	1	2	3	4	5	5+
占比	45.60%	45.95%	5.75%	1.41%	0.63%	0.58%

即，90%以上的词汇，长度仅为 1或2字符。

单字特征

即前后位置的单字特征，例如：“我大学毕业已经7年了。”中，“业”字对应的单字特征包括“c-2学”、“c-1毕”、“c业”、“c1已”、“c2经”等。
默认前后包括位置偏移量为 2 的特征，当然也可以自行增加。不过，考虑分词数据统计词长，过长的单字特征过于稀疏，比如“c-3大”，已经失去统计意义。

双字特征

即前后位置的双字特征，例如：“我大学毕业已经7年了。”中，“业”字对应的单字特征包括“c-2c-1学毕”、“c-1c毕业”、“cc1业已”、“c1c2已经”等。
同理，该特征若过长，同样会存在特征过于稀疏，失去统计意义的情况。

歧义词组特征

为增强分词词汇的边界，制定连续双词特征，例如：“我大学毕业已经7年了。”中，“业”字对应的连续双词汇特征包括“w1毕业.已经”等，此时，可以发现，除此特征之外，还包括一个特征，“w2学毕.业已”。这两个也可以单独成词，分别造例句为，“学毕，归家”， “司法程序业已完成”。当然，w2 词汇特征是错误的分词方法，此时出现词汇的歧义情况。
另举例，“不要觊觎她的美貌。”中，“觊” 同样包括连续词汇特征，“w1不要.觊觎”。但不包括“w2要觊.觎她”。原因在于这两个并非词汇。
通过上例发现，连续双词特征分为存在歧义的双词和不存在歧义的双词。只有存在歧义的双词，才有必要使用双词特征进行区分，无歧义的双词仅使用双字特征即可完成分词任务。
经统计，具有歧义的双词特征，也即在连续双词中仍存其它词汇，其比例占总特征数量的不到10%。因此，仅获取具有歧义的双词特征可以大幅度减少词汇特征数量，压缩模型大小，提供计算效率。

AABB词特征

即AABB叠词特征，通常倾向于同字合并在一起，例如：“漂漂亮亮的小姑凉”，“兜兜转转又回到了家乡”，“奇奇怪怪的画”。
AABB叠词和分词特征一般有两种分法：“AABB” 完全合并为一个词，此种情况一般是同为形容词 和和气气、奇奇怪怪等，或同为动词 敲敲打打、摇摇晃晃等；还有一些特殊的如的的确确。另外一种分法为“AA”和“BB”，此时情况一般为同为名词、代词 爸爸妈妈、弟弟妹妹、莺莺燕燕等，或前为副词，后为动词 好好改改、细细查查等，或前为动词，后为名词代词 看看妈妈等。
有考虑过将叠词抽象出特征来进行处理，但发现有若干异常情况，例如：“其中中国国家队的队员们表现尤其出彩”，“大学学院院长张秋芳”，“阿里巴巴刚刚启动裁员”等，是无法将叠字合并为一个词的。
因此，在语料中，利用jionlp 工具包的分词数据矫正工具对 AABB 词汇做了全面的数据校验，提示标注数据的质量。