-
Notifications
You must be signed in to change notification settings - Fork 27
/
Copy pathREADME.txt
executable file
·232 lines (123 loc) · 4.28 KB
/
README.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
# 第二届自然语言处理与中文计算会议(NLP&CC; 2013)
[第二届自然语言处理与中文计算会议(NLP&CC 2013)技术评测样例下载](http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html)
## 中文语义依存关系分析
1、本次中文语义依存分析将在两个语料库上进行评测,其中THU文件夹内为清华大学语义依存网络语料,HIT文件夹内为哈尔滨工业大学依存语料库。
每个语料库都包含三个文件,分别为train.conll,dev.conll和test.conll。
train.conll为训练语料,用于模型训练;
dev.conll为开发集,用于模型参数调优;
test.conll用于测试,根据会议日程,暂不发布。
2、参赛者可以在两个语料的训练语料上上分别训练模型,也可以结合两个语料库的训练语料训练统一的模型。
3、所有数据文件均采用CONLL格式,UTF8编码。CONLL标注格式包含10列,分别为:
---------------------------------------------------------------------------------
ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL
---------------------------------------------------------------------------------
本次评测只用到前8列,其含义分别为:
1 ID 当前词在句子中的序号,1开始.
2 FORM 当前词语或标点
3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同
4 CPOSTAG 当前词语的词性(粗粒度)
5 POSTAG 当前词语的词性(细粒度)
6 FEATS 句法特征,在本次评测中,此列未被使用,全部以下划线代替。
7 HEAD 当前词语的中心词
8 DEPREL 当前词语与中心词的依存关系
在CONLL格式中,每个词语占一行,无值列用下划线'_'代替,列的分隔符为制表符'\t',行的分隔符为换行符'\n';句子与句子之间用空行分隔。
### THU语料的统计信息
```
Sentence count: 20001
Word count: 165541
PosTag count: 22
a 5867
b 2923
c 4590
d 8995
f 2676
h 10
k 205
m 8556
M 1
n 43817
o 17
p 8274
q 2118
r 5837
R 2
s 666
t 3600
u 13973
v 33263
x 36
y 5
z 109
Dependency label count: 69
..是..的依存 441
“的”字依存 11091
伴随 56
比较量 37
比较内容 8
并列 97
部分 110
材料 22
参照体 262
程度 3616
除了 2
处所 2036
触及部件 6
存现体 589
代价 28
递进 7
动量 245
范围 757
方式 3205
方位词依存 2284
方向 150
根据 102
工具 66
关联词依存 1855
关系主体 2184
核心成分 15354
后延时段 50
接续 182
结果 287
结果事件 738
介词依存 7788
进程时段 351
经验者 2028
来源 102
类指 719
连接依存 8531
领有者 1
描述 3368
描写体 1188
目标 1337
目的 425
内容 3746
频率 288
评论 4477
起始时间 186
趋向动词依存 535
让步 7
施事 7430
时间 2401
时距 133
时态依存 3283
时态语态依存 199
事件过程 12
手段 78
受事 6153
数量 5627
条件 114
通过处所 38
同位语 942
限定 36014
相伴体 775
语气依存 91
原处所 198
原因 284
原状态 96
整体 180
终处所 388
终止时间 76
终状态 84
Average sentence length: 8.2766
Average dependency length: 2.0258
```