-
Notifications
You must be signed in to change notification settings - Fork 253
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
无法正常显示的字符编码 #20
Comments
这部分语料来源于common crawl 的开源数据集,现有老外做的开源数据集都不考虑中文编码问题。而且现有转码工具和python自身的中文编码都还留着很多坑。各种乱码深究源头可能要追述到中国错过了上一次工业革命,本身很多字符集编码转码都不是中国人开发的。我们的语料增强小组正在对中文编码问题进行深入研究:https://github.com/alanshi/charset_mnbvc 就目前来看,发现这种问题请使用时从语料集中排出这些无法正常显示的字符。 |
借楼问下编码相关的问题,最近在看里面的一些内容,发现部分文档虽然是.txt格式,但是直接open读取的时候,解码不管是utf-8还是gb2312都会失败,这个有考虑过统一格式吗?也许是我打开方式不对,还请指点一下。 |
目前压缩包里txt格式的文件,都是我们在往jsonl统一格式时,发现有编码问题所以暂停的。可以使用我们语料增强小组最新提供的工具:https://wiki.mnbvc.org/doku.php/github_codespaces%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B%E8%AF%B4%E6%98%8E |
在hf上传的语料中发现Unicode特殊区段的字符未被过滤,请问这是故意保留的吗? |
在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:
用jieba分词后显示为:
我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”:
def count_unprintable_characters(string):
pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]'
matches = re.findall(pattern, string)
return len(matches)
发现在该jsonl的10万条json中,有超过1.1万条有这种情况。
请问这是正常的还是语料出错了?
The text was updated successfully, but these errors were encountered: