MathReal:多模态大模型数学推理基准

MathReal:多模态大模型数学推理基准 来源:https://github.com/junfeng0288/MathReal 结论先行 (TL;DR) 新基准:关注真实世界中带有噪声的图像 现有困境:现有基准多使用清晰图像,未能反映真实教育场景中图像质量下降、透视变化和无关内容干扰等常见挑战 数据集:2,000 道手机拍摄的数学题 结果:即使是先进的 MLLM 在处理真实世界噪声时也面临显著挑战,其性能远低于在干净图像上的表现,Qwen-VL-Max 下降了 9.9%,Doubao-1.5-vision-pro 下降了 7.6% MindMap FAQ Acc strict 和 Acc 区别 Acc str (Strict Accuracy) - 严格准确度 定义:要求一道问题中的所有子答案都必须正确,模型才能获得分数。如果任何一个子答案不正确,则整个问题都被标记为错误。 计算方式:如果问题的所有子答案都与参考答案数学等价,则得 1 分,否则为 0 分 Acc (Loose Accuracy) - 宽松准确度 定义:允许部分正确性,并根据每个问题中正确回答的子问题的比例进行计算 计算方式:它计算每个问题中正确预测的子答案占总子答案的比例,然后对所有问题求平均 主要区别与启示 Acc str 和 Acc 之间存在明显差距,如 Gemini-2.5-pro-thinking 在 Acc 下得分为 48.1%,但在 Acc str 评估下下降到 42.9% 实验中提示词有可以参考的吗?比如裁判提示词?裁判用的是什么? 答案评估提示词(Mathematical Answer Evaluation Prompt) 以及一个前置的答案提取提示词(Answer Extraction Prompt) 裁判:GPT-4.1-nano 答案提取提示词 (Prompt for Answer Extraction Task) ◦ 角色定位:一个专业的答案提取专家。 ◦ 核心任务:从模型输出文本中尽可能准确地提取最终答案,并严格遵循优先级策略。 ◦ 优先级策略: ▪ 优先级1:寻找显式答案关键词:搜索“final answer”、“answer”、“result”、“the answer is”、“the result is”等关键词,或“therefore”、“so”、“in conclusion”等总结性词语,并提取紧随其后的内容。 ▪ 优先级2:从文本末尾提取:如果在上一步中没有找到明确的答案,则尝试从文本的最后一段或最后一句话中提取最可能的答案。 ◦ 重要要求: ▪ 多个答案应以分号 (;) 分隔。 ▪ 只返回答案内容本身,不包含额外解释或格式。 ▪ 如果无法确定答案,则返回“null”。 数学答案评估提示词 (Prompt for Mathematical Answer Evaluation Task) ◦ 角色定位:一个顶级的数学评估专家,任务是严谨而精确地判断模型生成答案的正确性。 ◦ 核心任务:确定“模型答案”与“参考答案”在数学和选项上是否完全等价,并根据正确组件的比例分配部分分数。 ◦ 评估原则: ▪ 数值核心优先级:只关注最终的数值、表达式、选项或结论。忽略解题过程、解释性文本(例如“the answer is:”)、变量名(例如D, E, Q1)和无关描述。 ▪ 数学等价性(严格判断): • 分数和小数:例如 1/2 等价于 0....

August 1, 2025