File tree Expand file tree Collapse file tree 1 file changed +40
-9
lines changed Expand file tree Collapse file tree 1 file changed +40
-9
lines changed Original file line number Diff line number Diff line change 1
1
# 中文人名语料库(Chinese-Names-Corpus)
2
- 业余项目“萌名(一个基于语料库技术的取名工具)”的副产品。不定期更新。只删词,不加词。
2
+ 业余项目“萌名NameMoe(一个基于语料库技术的取名工具)”的副产品。
3
+
4
+ 不定期更新。只删词,不加词。
3
5
4
6
可用于中文分词、人名识别。
5
7
8
+ ---
9
+
6
10
<strong >中文常见人名(Chinese_Names_Corpus)</strong >
7
11
8
- 120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。
12
+ 120万。
13
+
14
+ 从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。
15
+
16
+ 新增性别标注。
17
+
9
18
10
19
<strong >中文古代人名(Ancient_Names_Corpus)</strong >
11
20
12
- 25万。多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。
21
+ 25万。
22
+
23
+ 多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。
24
+
13
25
14
26
<strong >日文人名(Japanese_Names_Corpus)</strong >
15
27
16
- 18万。从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。
28
+ 18万。
29
+
30
+ 从维基百科中提取。删除了罕见姓氏、和带生僻字的人名。
17
31
18
32
数据清洗过程相见,“[ 日本人名数据清洗分享] ( https://github.com/wainshine/Chinese-Names-Corpus/issues/4 ) ”。
19
33
34
+
20
35
<strong >翻译人名(English_Cn_Name_Corpus)</strong >
21
36
22
- 48万。多个人名词典汇总。删除了翻译人名常用字之外的人名。混有少量西化中文人名,如“李伯恩”。清洗后仍存有少量badcase,尤其是英文地名。
37
+ 48万。
38
+
39
+ 多个人名词典汇总。删除了翻译人名常用字之外的人名。
40
+
41
+ 清洗后仍存有少量badcase,尤其是英文地名。
42
+
23
43
24
44
<strong >中文姓氏(Chinese_Family_Name)</strong >
25
45
26
- 1千。从亿级人名语料中提取。删除了罕见姓氏,复姓只保留了“欧阳”。
46
+ 1千。
47
+
48
+ 从亿级人名语料中提取。删除了罕见姓氏。
49
+
27
50
28
51
<strong >中文称呼(Chinese_Relationship)</strong >
29
52
30
- 5千。称呼词根。多个人名词典汇总。删除了部分带贬义的称呼。
53
+ 5千。称呼词根。
54
+
55
+ 多个人名词典汇总。删除了部分带贬义的称呼。
56
+
57
+
58
+ 18万。中文称呼。
59
+
60
+ 多个人名词典汇总。清洗后仍存有大量badcase。
31
61
32
- 18万。中文称呼。多个人名词典汇总。清洗后仍存有大量badcase。
33
62
34
63
<strong >成语词典(ChengYu_Corpus)</strong >
35
64
36
- 5万。多个成语词典汇总。
65
+ 5万。
66
+
67
+ 多个成语词典汇总。
37
68
38
69
---
39
70
You can’t perform that action at this time.
0 commit comments