evsam05
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||
# 第二届自然语言处理与中文计算会议(NLP&CC; 2013) [第二届自然语言处理与中文计算会议(NLP&CC 2013)技术评测样例下载](http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html) ## 中文语义依存关系分析 1、本次中文语义依存分析将在两个语料库上进行评测,其中THU文件夹内为清华大学语义依存网络语料,HIT文件夹内为哈尔滨工业大学依存语料库。 每个语料库都包含三个文件,分别为train.conll,dev.conll和test.conll。 train.conll为训练语料,用于模型训练; dev.conll为开发集,用于模型参数调优; test.conll用于测试,根据会议日程,暂不发布。 2、参赛者可以在两个语料的训练语料上上分别训练模型,也可以结合两个语料库的训练语料训练统一的模型。 3、所有数据文件均采用CONLL格式,UTF8编码。CONLL标注格式包含10列,分别为: --------------------------------------------------------------------------------- ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL --------------------------------------------------------------------------------- 本次评测只用到前8列,其含义分别为: 1 ID 当前词在句子中的序号,1开始. 2 FORM 当前词语或标点 3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同 4 CPOSTAG 当前词语的词性(粗粒度) 5 POSTAG 当前词语的词性(细粒度) 6 FEATS 句法特征,在本次评测中,此列未被使用,全部以下划线代替。 7 HEAD 当前词语的中心词 8 DEPREL 当前词语与中心词的依存关系 在CONLL格式中,每个词语占一行,无值列用下划线'_'代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行分隔。 ### THU语料的统计信息 ``` Sentence count: 20001 Word count: 165541 PosTag count: 22 a 5867 b 2923 c 4590 d 8995 f 2676 h 10 k 205 m 8556 M 1 n 43817 o 17 p 8274 q 2118 r 5837 R 2 s 666 t 3600 u 13973 v 33263 x 36 y 5 z 109 Dependency label count: 69 ..是..的依存 441 “的”字依存 11091 伴随 56 比较量 37 比较内容 8 并列 97 部分 110 材料 22 参照体 262 程度 3616 除了 2 处所 2036 触及部件 6 存现体 589 代价 28 递进 7 动量 245 范围 757 方式 3205 方位词依存 2284 方向 150 根据 102 工具 66 关联词依存 1855 关系主体 2184 核心成分 15354 后延时段 50 接续 182 结果 287 结果事件 738 介词依存 7788 进程时段 351 经验者 2028 来源 102 类指 719 连接依存 8531 领有者 1 描述 3368 描写体 1188 目标 1337 目的 425 内容 3746 频率 288 评论 4477 起始时间 186 趋向动词依存 535 让步 7 施事 7430 时间 2401 时距 133 时态依存 3283 时态语态依存 199 事件过程 12 手段 78 受事 6153 数量 5627 条件 114 通过处所 38 同位语 942 限定 36014 相伴体 775 语气依存 91 原处所 198 原因 284 原状态 96 整体 180 终处所 388 终止时间 76 终状态 84 Average sentence length: 8.2766 Average dependency length: 2.0258 ```