Skip to content

英文和数字分词问题 #1070

@miaomiaojie1

Description

@miaomiaojie1

例如:ccc100-n2-h3,使用ik_max_word分词的结果是ccc100-n2-h3 ccc 100 n 2 h 3 ,将n2 h3添加了主词库之后,分词的结果是ccc100-n2-h3 ccc 100 n2 n 2 h3 h 3 ,我希望的结果是ccc100 n2 h3,这种添加主词之后n2和h3为什么还是分开了?
再如:logger V300r200c20spc300 使用ik_max_word分词的结果是 logger v300r200c20spc300 v 300 r 200 c 20 spc 300 我希望的结果是logger V300 r200 c20 spc300,这种用自定义的分词策略能实现吗,会产生歧义吗?
再如:aicc 12.300.4,使用ik_max_word分词的结果是aicc 12.300.4,我希望的结果是aicc 12 12.300 12.300.4,这种ik有这样的能力吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions