Multimodal

MathReal：多模态大模型数学推理基准来源：https://github.com/junfeng0288/MathReal 结论先行 (TL;DR) 新基准：关注真实世界中带有噪声的图像现有困境：现有基准多使用清晰图像，未能反映真实教育场景中图像质量下降、透视变化和无关内容干扰等常见挑战数据集：2,000 道手机拍摄的数学题结果：即使是先进的 MLLM 在处理真实世界噪声时也面临显著挑战，其性能远低于在干净图像上的表现，Qwen-VL-Max 下降了 9.9%，Doubao-1.5-vision-pro 下降了 7.6% MindMap FAQ Acc strict 和 Acc 区别 Acc str (Strict Accuracy) - 严格准确度定义：要求一道问题中的所有子答案都必须正确，模型才能获得分数。如果任何一个子答案不正确，则整个问题都被标记为错误。计算方式：如果问题的所有子答案都与参考答案数学等价，则得 1 分，否则为 0 分 Acc (Loose Accuracy) - 宽松准确度定义：允许部分正确性，并根据每个问题中正确回答的子问题的比例进行计算计算方式：它计算每个问题中正确预测的子答案占总子答案的比例，然后对所有问题求平均主要区别与启示 Acc str 和 Acc 之间存在明显差距，如 Gemini-2.5-pro-thinking 在 Acc 下得分为 48.1%，但在 Acc str 评估下下降到 42.9% 实验中提示词有可以参考的吗？比如裁判提示词？裁判用的是什么？答案评估提示词（Mathematical Answer Evaluation Prompt）以及一个前置的答案提取提示词（Answer Extraction Prompt）裁判：GPT-4.1-nano 答案提取提示词 (Prompt for Answer Extraction Task) ◦ 角色定位：一个专业的答案提取专家。 ◦ 核心任务：从模型输出文本中尽可能准确地提取最终答案，并严格遵循优先级策略。 ◦ 优先级策略： ▪ 优先级1：寻找显式答案关键词：搜索“final answer”、“answer”、“result”、“the answer is”、“the result is”等关键词，或“therefore”、“so”、“in conclusion”等总结性词语，并提取紧随其后的内容。 ▪ 优先级2：从文本末尾提取：如果在上一步中没有找到明确的答案，则尝试从文本的最后一段或最后一句话中提取最可能的答案。 ◦ 重要要求： ▪ 多个答案应以分号 (;) 分隔。 ▪ 只返回答案内容本身，不包含额外解释或格式。 ▪ 如果无法确定答案，则返回“null”。数学答案评估提示词 (Prompt for Mathematical Answer Evaluation Task) ◦ 角色定位：一个顶级的数学评估专家，任务是严谨而精确地判断模型生成答案的正确性。 ◦ 核心任务：确定“模型答案”与“参考答案”在数学和选项上是否完全等价，并根据正确组件的比例分配部分分数。 ◦ 评估原则： ▪ 数值核心优先级：只关注最终的数值、表达式、选项或结论。忽略解题过程、解释性文本（例如“the answer is:”）、变量名（例如D, E, Q1）和无关描述。 ▪ 数学等价性（严格判断）： • 分数和小数：例如 1/2 等价于 0....