与榜单指标差距过大，MTVQA和MME #663

GoogleAlphaZero · 2024-12-12T09:52:08Z

用llama3.2-11b-vision
测试MTVQA的指标，您发布的为Overall:15.3，我实测为Overall:22.3812，
测试MME，您发布的指标为Perception:1380.9、Cognition:439.6，我实测为perception： 1319.5、Cognition:283
请问是什么原因？感谢，辛苦您解答或核实下榜单

kennymckormick · 2024-12-17T09:25:12Z

@FangXinyu-0913

FangXinyu-0913 · 2024-12-17T09:38:03Z

您好，想问一下您是用我们的codebase进行评测吗，以及评测时的参数设定是怎么设定的呢，我们这边按您的设定再评测试一下

GoogleAlphaZero · 2024-12-17T09:53:20Z

没改参数，只是config内设置了llama3.2_11b_vision的路径，.env中设置了openai的密钥。运行命令为
python run.py --data MME MTVQA_TEST
--model Llama-3.2-11B-Vision-Instruct --nproc 4
--work-dir /workspace/mydir
--verbose

感谢！

FangXinyu-0913 · 2024-12-17T12:46:38Z

我们这边重新测试了一遍，和榜单上的指标没有过大差别


这是我们的环境

想问一下您的环境配置是怎样的呢

kennymckormick assigned FangXinyu-0913 Dec 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

与榜单指标差距过大，MTVQA和MME #663

与榜单指标差距过大，MTVQA和MME #663

GoogleAlphaZero commented Dec 12, 2024

kennymckormick commented Dec 17, 2024

FangXinyu-0913 commented Dec 17, 2024

GoogleAlphaZero commented Dec 17, 2024

FangXinyu-0913 commented Dec 17, 2024

与榜单指标差距过大，MTVQA和MME #663

与榜单指标差距过大，MTVQA和MME #663

Comments

GoogleAlphaZero commented Dec 12, 2024

kennymckormick commented Dec 17, 2024

FangXinyu-0913 commented Dec 17, 2024

GoogleAlphaZero commented Dec 17, 2024

FangXinyu-0913 commented Dec 17, 2024