Skip to content

Commit e4c4986

Browse files
committed
update
1 parent e9b9866 commit e4c4986

File tree

1 file changed

+6
-0
lines changed

1 file changed

+6
-0
lines changed

README.md

Lines changed: 6 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -15,13 +15,15 @@
1515

1616
新增性别标注。
1717

18+
---
1819

1920
<strong>中文古代人名(Ancient_Names_Corpus)</strong>
2021

2122
25万。
2223

2324
多个人名词典汇总。删除了罕见姓氏、和带生僻字的人名。
2425

26+
---
2527

2628
<strong>日文人名(Japanese_Names_Corpus)</strong>
2729

@@ -31,6 +33,7 @@
3133

3234
数据清洗过程相见,“[日本人名数据清洗分享](https://github.com/wainshine/Chinese-Names-Corpus/issues/4)”。
3335

36+
---
3437

3538
<strong>翻译人名(English_Cn_Name_Corpus)</strong>
3639

@@ -40,13 +43,15 @@
4043

4144
清洗后仍存有少量badcase,尤其是英文地名。
4245

46+
---
4347

4448
<strong>中文姓氏(Chinese_Family_Name)</strong>
4549

4650
1千。
4751

4852
从亿级人名语料中提取。删除了罕见姓氏。
4953

54+
---
5055

5156
<strong>中文称呼(Chinese_Relationship)</strong>
5257

@@ -59,6 +64,7 @@
5964

6065
多个人名词典汇总。清洗后仍存有大量badcase。
6166

67+
---
6268

6369
<strong>成语词典(ChengYu_Corpus)</strong>
6470

0 commit comments

Comments
 (0)