-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
multilingual nmt results on IWSLT dataset #7
Comments
@beiweixiaoxu 我们的测试流程是这样: fairseq-generate → 提取出hypothesis → 过tokenizer → sacrebleu测试,-tok参数设为'none'。也即类似这样:
直接看fairseq-generate上的结果可能会有一些问题,用sacrebleu测试比较标准一些 |
@linzehui 我大概理解你的意思是,先用fairseq-generate生成完全纯净的hyp和ref文本(比如要去除bpe、如果一开始做了tokenize的话还需要做detokenize),再用m2m 100的脚本对纯净hyp\ref文本进行tokenize,最后使用tok='none'的sacrebleu进行测试。 然后我说一下我的流程,对于iwslt14,由于我使用的是https://github.com/RayeRen/multilingual-kd-pytorch/blob/master/data/iwslt/raw/prepare-iwslt14.sh 做的预处理,它是先使用mosesdecoder做的tokenize,然后用subword-nmt训的bpe,并没有使用sentencepiece。因此,我的运行流程大概是:
这样我得到的结果为(由于m2m 100的脚本,对于ar的tokenize还要装其它环境,我就没有评估):
看起来依然会偏高? |
@beiweixiaoxu 我看了一下之前的脚本,原先说的流程是用在wmt上的;在iwslt我直接report的fairseq-generate的bleu。
|
@linzehui 好的明白。我目前采用上述方法依然得不到文中的结果,不过感觉lass确实是有效的,目前的结果是26.619(lass) vs 26.073(multilingual)。 |
作者你好,我使用你提供的yml跑了一个multilingual的实验,然后用fairseq-generate进行评估,两种不同的情况下,fa\he\pl\it\ar\es\de\nl\avg的结果如下:
我设置以下参数:bpe: subword_nmt,bpe_codes: /home/syxu/data/iwslt14/code,scoring: sacrebleu,tokenizer: moses。得到的结果为:
相反,我1. 删除上面的tokenizer参数;2. 把fairseq\fairseq\scoring\bleu.py中SacrebleuConfig的sacrebleu_tokenizer设置成'none'。得到的结果为:
可以看到,文中给出的结果应该更接近于detokenziedBLEU?但4. Experiment Settings中说,“We report tokenized BLEU”这是为何?
The text was updated successfully, but these errors were encountered: