MathReal:多模态大模型数学推理基准

MathReal:多模态大模型数学推理基准 来源:https://github.com/junfeng0288/MathReal 结论先行 (TL;DR) 新基准:关注真实世界中带有噪声的图像 现有困境:现有基准多使用清晰图像,未能反映真实教育场景中图像质量下降、透视变化和无关内容干扰等常见挑战 数据集:2,000 道手机拍摄的数学题 结果:即使是先进的 MLLM 在处理真实世界噪声时也面临显著挑战,其性能远低于在干净图像上的表现,Qwen-VL-Max 下降了 9.9%,Doubao-1.5-vision-pro 下降了 7.6% MindMap FAQ Acc strict 和 Acc 区别 Acc str (Strict Accuracy) - 严格准确度 定义:要求一道问题中的所有子答案都必须正确,模型才能获得分数。如果任何一个子答案不正确,则整个问题都被标记为错误。 计算方式:如果问题的所有子答案都与参考答案数学等价,则得 1 分,否则为 0 分 Acc (Loose Accuracy) - 宽松准确度 定义:允许部分正确性,并根据每个问题中正确回答的子问题的比例进行计算 计算方式:它计算每个问题中正确预测的子答案占总子答案的比例,然后对所有问题求平均 主要区别与启示 Acc str 和 Acc 之间存在明显差距,如 Gemini-2.5-pro-thinking 在 Acc 下得分为 48.1%,但在 Acc str 评估下下降到 42.9% 实验中提示词有可以参考的吗?比如裁判提示词?裁判用的是什么? 答案评估提示词(Mathematical Answer Evaluation Prompt) 以及一个前置的答案提取提示词(Answer Extraction Prompt) 裁判:GPT-4.1-nano 答案提取提示词 (Prompt for Answer Extraction Task) ◦ 角色定位:一个专业的答案提取专家。 ◦ 核心任务:从模型输出文本中尽可能准确地提取最终答案,并严格遵循优先级策略。 ◦ 优先级策略: ▪ 优先级1:寻找显式答案关键词:搜索“final answer”、“answer”、“result”、“the answer is”、“the result is”等关键词,或“therefore”、“so”、“in conclusion”等总结性词语,并提取紧随其后的内容。 ▪ 优先级2:从文本末尾提取:如果在上一步中没有找到明确的答案,则尝试从文本的最后一段或最后一句话中提取最可能的答案。 ◦ 重要要求: ▪ 多个答案应以分号 (;) 分隔。 ▪ 只返回答案内容本身,不包含额外解释或格式。 ▪ 如果无法确定答案,则返回“null”。 数学答案评估提示词 (Prompt for Mathematical Answer Evaluation Task) ◦ 角色定位:一个顶级的数学评估专家,任务是严谨而精确地判断模型生成答案的正确性。 ◦ 核心任务:确定“模型答案”与“参考答案”在数学和选项上是否完全等价,并根据正确组件的比例分配部分分数。 ◦ 评估原则: ▪ 数值核心优先级:只关注最终的数值、表达式、选项或结论。忽略解题过程、解释性文本(例如“the answer is:”)、变量名(例如D, E, Q1)和无关描述。 ▪ 数学等价性(严格判断): • 分数和小数:例如 1/2 等价于 0....

August 1, 2025

TTS Eval - EmergentTTS-Eval 综合评测框架

TTS Eval - EmergentTTS-Eval 综合评测框架 🔗 GitHub: https://github.com/boson-ai/EmergentTTS-Eval-public 📄 论文: arXiv:2505.23009 | 机构: Boson AI | 发布: 2025年5月 大型语言模型(LLM) 迭代生成 1,645 个多样化测试用例,涵盖情感、副语言、外来词、句法复杂性、复杂发音和问题六个关键场景 采用 模型即评判者(model-as-a-judge) 方法,利用大型音频语言模型(LALM)评估语音的多个维度,如表达的情感、韵律、语调和发音准确性 文本标准化(Text Normalization):基本的 TN 技术不总是能改善模型在基准测试中的性能,甚至可能使其变差。例如,WeText 将 '$1,890.125375' 转换为 ‘one thousand eight hundred and ninety point one dollars twenty five thousand three hundred and seventy five’,这损害了 TTS 质量。使用 LLM(如 GPT-4.1-mini)作为 TN 能解决许多问题并显著提高胜率。 根据 EmergentTTS-Eval 的研究,“GPT-4o-mini-tts (Alloy voice) 开启强提示” 确实意味着:通过提供详细且有针对性的提示词,可以显著提升其在发音数学公式方面的准确性。 Prompt # Role You are a mathematical notation converter that transforms mathematical symbols and formulas into natural readable text for text-to-speech systems....

May 1, 2025