LLAVA-one-vision MMMU 性能评测差别很大 #645

linxid · 2024-12-04T02:43:57Z

这是评测的脚本：torchrun --nproc-per-node=1 run.py --data MMMU_DEV_VAL --model llava_onevision_qwen2_0.5b_ov --verbose
评测下来的指标是：
split validation dev
Overall 0.3522222222222222 0.31333333333333335
Accounting 0.43333333333333335 0.0
Agriculture 0.36666666666666664 0.2
Architecture_and_Engineering 0.23333333333333334 0.2
Art 0.3333333333333333 0.0
Art_Theory 0.43333333333333335 0.6
使用的 gpt3.5 进行评测，和llava-one-vision 论文里面给的结果0.31，有很大的出入。这是怎么回事呢。

kennymckormick · 2024-12-17T12:49:44Z

Hi, @linxid ,
我们推荐使用官方的 OPENAI API 进行评测，可以确认下你这边是否使用的是 OPENAI 官方 API。
依据我们的测试结果，与 0.31 没有显著差异（见下图）：

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LLAVA-one-vision MMMU 性能评测差别很大 #645

LLAVA-one-vision MMMU 性能评测差别很大 #645

linxid commented Dec 4, 2024

kennymckormick commented Dec 17, 2024

LLAVA-one-vision MMMU 性能评测差别很大 #645

LLAVA-one-vision MMMU 性能评测差别很大 #645

Comments

linxid commented Dec 4, 2024

kennymckormick commented Dec 17, 2024