Skip to content

SIGHAN中文纠错数据集及转换后格式

Notifications You must be signed in to change notification settings

floyddcn/sighan_raw

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sighan2013/2014/2015原始纠错数据提取

依赖

python2.7

regex、bs4、opencc_python_reimplemented

原始数据

raw_data/

SIGHAN-2013 shared task on CSC: LINK

SIGHAN-2014 shared task on CSC: LINK

SIGHAN-2015 shared task on CSC: LINK

注意:

  • 原始训练数据中存在一定比例的标注错误,已经进行手工纠正,因此与原始下载数据(.zip文件)存在不同。

提取数据

运行程序

python generate_pair_data.py

繁体

pair_data/traditional/

简体

pair_data/simplified/

使用opencc对繁体进行转换得到

注意:

  • sighan纠错任务中正确句子和错误句子的长度是一致的。

  • 存在正确/错误繁体字对应同一个简体字的情况,转换成简体后有的文本错误消失了,因此简体版本的文本错误数量少于繁体版本的。

About

SIGHAN中文纠错数据集及转换后格式

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%