Skip to content

Commit 6d441f9

Browse files
committed
update
1 parent 6de30c8 commit 6d441f9

File tree

1 file changed

+14
-0
lines changed

1 file changed

+14
-0
lines changed

README.md

Lines changed: 14 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -14,7 +14,9 @@
1414
<strong>中文常见人名(Chinese_Names_Corpus)</strong>
1515

1616
数据大小:120万。
17+
1718
语料来源:从亿级人名语料中提取。
19+
1820
数据清洗:已清洗,但仍存有少量badcase。
1921

2022
新增性别标注。
@@ -24,23 +26,29 @@
2426
<strong>中文古代人名(Ancient_Names_Corpus)</strong>
2527

2628
数据大小:25万。
29+
2730
语料来源:多个人名词典汇总。
31+
2832
数据清洗:已清洗。
2933

3034
---
3135

3236
<strong>中文姓氏(Chinese_Family_Name)</strong>
3337

3438
数据大小:1千。
39+
3540
语料来源:从亿级人名语料中提取。
41+
3642
数据清洗:已清洗。
3743

3844
---
3945

4046
<strong>中文称呼(Chinese_Relationship)</strong>
4147

4248
数据大小:5千,称呼词根;18万,中文称呼。
49+
4350
语料来源:多个人名词典汇总。
51+
4452
数据清洗:已清洗,但存有大量badcase。
4553

4654
---
@@ -49,7 +57,9 @@
4957
<strong>翻译人名(English_Cn_Name_Corpus)</strong>
5058

5159
数据大小:48万。
60+
5261
语料来源:多个人名词典汇总。
62+
5363
数据清洗:已清洗,但仍存有少量badcase,以地名居多。
5464

5565
本语料的人名识别由网友 “[ltccss](https://github.com/ltccss)” 友情提供。
@@ -60,7 +70,9 @@
6070
<strong>日文人名(Japanese_Names_Corpus)</strong>
6171

6272
数据大小:18万。
73+
6374
数据来源:从维基百科中提取。
75+
6476
数据清洗:已清洗,但仍存有少量badcase。
6577

6678
数据清洗过程详见:“[日本人名数据清洗分享](https://github.com/wainshine/Chinese-Names-Corpus/issues/4)”。
@@ -71,7 +83,9 @@
7183
<strong>成语词典(ChengYu_Corpus)</strong>
7284

7385
数据大小:5万。
86+
7487
语料来源:多个成语词典汇总。
88+
7589
数据清洗:已清洗。
7690

7791
---

0 commit comments

Comments
 (0)