File tree Expand file tree Collapse file tree 1 file changed +14
-0
lines changed Expand file tree Collapse file tree 1 file changed +14
-0
lines changed Original file line number Diff line number Diff line change 14
14
<strong >中文常见人名(Chinese_Names_Corpus)</strong >
15
15
16
16
数据大小:120万。
17
+
17
18
语料来源:从亿级人名语料中提取。
19
+
18
20
数据清洗:已清洗,但仍存有少量badcase。
19
21
20
22
新增性别标注。
24
26
<strong >中文古代人名(Ancient_Names_Corpus)</strong >
25
27
26
28
数据大小:25万。
29
+
27
30
语料来源:多个人名词典汇总。
31
+
28
32
数据清洗:已清洗。
29
33
30
34
---
31
35
32
36
<strong >中文姓氏(Chinese_Family_Name)</strong >
33
37
34
38
数据大小:1千。
39
+
35
40
语料来源:从亿级人名语料中提取。
41
+
36
42
数据清洗:已清洗。
37
43
38
44
---
39
45
40
46
<strong >中文称呼(Chinese_Relationship)</strong >
41
47
42
48
数据大小:5千,称呼词根;18万,中文称呼。
49
+
43
50
语料来源:多个人名词典汇总。
51
+
44
52
数据清洗:已清洗,但存有大量badcase。
45
53
46
54
---
49
57
<strong >翻译人名(English_Cn_Name_Corpus)</strong >
50
58
51
59
数据大小:48万。
60
+
52
61
语料来源:多个人名词典汇总。
62
+
53
63
数据清洗:已清洗,但仍存有少量badcase,以地名居多。
54
64
55
65
本语料的人名识别由网友 “[ ltccss] ( https://github.com/ltccss ) ” 友情提供。
60
70
<strong >日文人名(Japanese_Names_Corpus)</strong >
61
71
62
72
数据大小:18万。
73
+
63
74
数据来源:从维基百科中提取。
75
+
64
76
数据清洗:已清洗,但仍存有少量badcase。
65
77
66
78
数据清洗过程详见:“[ 日本人名数据清洗分享] ( https://github.com/wainshine/Chinese-Names-Corpus/issues/4 ) ”。
71
83
<strong >成语词典(ChengYu_Corpus)</strong >
72
84
73
85
数据大小:5万。
86
+
74
87
语料来源:多个成语词典汇总。
88
+
75
89
数据清洗:已清洗。
76
90
77
91
---
You can’t perform that action at this time.
0 commit comments