AI | Kaga Blog

AI：Advanced Tool Use

Advanced Tool Use 来源：https://www.anthropic.com/engineering/advanced-tool-use 图示 Tool Search Tool 对比图（Context Usage: Traditional vs. Tool Search Tool） Programmatic Tool Calling 流程图（Programmatic Tool Calling Flow）核心要点整体目标：解决三个老问题工具太多：定义太长，把上下文挤爆链路太长：工具链一长，来回调用慢且耗 tokens 仅靠 Schema 不够：只有 JSON Schema 时，模型仍会经常填错参数/用错工具 Tool Search Tool（工具搜索）：不再一次性把几十上百个工具定义全部塞进上下文，而是只提前加载一个“搜索工具 + 少数高频工具”。当 Claude 需要某类能力时，先用搜索工具按名字/描述去检索，再按需把少量匹配工具的定义展开进上下文。收益：减少 token 开销（官方示例：上下文消耗可降低 80%+），同时降低“选错工具”的概率适用：MCP 多服务、工具数量 10+ 的场景 Programmatic Tool Calling（编程式工具调用）：以前是“自然语言 → 一次推理 → 调一个工具 → 结果全丢回模型上下文”，多步流程就意味着多次推理 + 大量中间数据灌进上下文。现在改成：Claude 写一段 Python 脚本，在沙盒里 orchestrate 工具调用（循环、并发、条件分支都写在代码里），工具结果先在代码里处理，最后只把“结论”返回给 Claude。收益：大数据场景下只让模型看到汇总结果，而不是几 MB 的原始日志；显著省 tokens、降延迟，也更不容易“算错账” Tool Use Examples（工具使用示例）：...

AI：评估AI Agent的上下文压缩策略

评估AI Agent的上下文压缩策略执行摘要长会话超出上下文窗口会让AI Agent丢失关键信息。Factory.ai为此构建了基于探针的评估框架，用来衡量不同上下文压缩策略的“功能质量”。对比Factory、OpenAI与Anthropic三种方法，Factory的“锚定迭代式摘要”在保留技术细节上最佳：通过持续维护并增量合并结构化摘要，在准确性与上下文感知上领先，说明结构比单纯的压缩率更决定任务成败。 1. 核心问题：长对话中的上下文丢失 AI Agent在调试、代码审查或功能实现等复杂任务中，会产生数百万Token的对话历史，远超模型上下文窗口。激进压缩常导致代理遗忘关键信息（如改动过的文件、已尝试的方案），从而反复读取、重复探索。研究指出，优化目标不应是“单次请求的Token数”（tokens per request），而应是“完成任务所需的总Token数”（tokens per task）。更高质量的上下文保留能减少返工，进而降低总消耗。 2. 评估框架：基于探针的功能性质询传统摘要指标（如ROUGE或嵌入相似度）无法回答关键问题：压缩后的上下文还能否支撑代理继续工作。Factory.ai因此设计探针评估：向压缩后的代理提问必须依赖具体历史细节的问题，以直接衡量其功能质量。探针类型该框架使用四种探针，覆盖不同维度的信息保留：探针类型测试内容示例问题回忆（Recall）事实性信息的保留 “最初的错误信息是什么？” 工件（Artifact）文件追踪 “我们修改了哪些文件？描述每个文件的变化。” 延续（Continuation）任务规划 “我们下一步该做什么？” 决策（Decision）推理链 “我们针对Redis问题讨论了哪些方案，最终决定是什么？” 评估维度由LLM裁判（GPT-5.2）按六个维度评分（0-5分），面向软件开发场景：准确性 (Accuracy): 技术细节（如文件路径、函数名）是否正确。上下文感知 (Context Awareness): 响应是否反映了当前的对话状态。工件追踪 (Artifact Trail): 代理是否知道哪些文件被读取或修改过。完整性 (Completeness): 响应是否解决了问题的所有部分。连续性 (Continuity): 工作能否在不重新获取信息的情况下继续。指令遵循 (Instruction Following): 响应是否遵循了格式或约束要求。 3. 三种压缩策略对比研究评估了三种生产级的压缩策略： Factory：锚定迭代式摘要 (Anchored Iterative Summarization) 机制：维护一个包含明确分区（如会话意图、文件修改、决策）的持久化结构性摘要。当需要压缩时，仅对新截断的对话部分进行摘要，并将其合并到现有摘要中。核心洞察：结构强制保留。通过为特定信息类型设置专门的区域，可以防止关键细节（如文件路径）在自由形式的摘要中被无声地丢弃。 OpenAI：不透明压缩端点（/responses/compact）机制：生成面向重建保真度的不透明压缩表示。...

Coding Agent

Coding Agent 🧩 Structured Communication（结构化交流）核心流程：与用户交流：了解挑战与需求。提炼洞察：从交流中发现问题并构思目标。规划方法：制定实现目标的策略。分享计划：与团队成员同步。转化代码：将计划落地为实际实现。验证结果：测试与验证输出是否符合目标。核心理念：把“思考—设计—实现—验证”过程显式化，让 AI 与人类都能在同一“规格语言（Spec）”下协作。 Kiro 的双模式：Vibe 与 Spec 模式核心特征适用场景 Vibe 模式对话式交互，快速提问、澄清、解释。适用于探索性思考、需求分析、头脑风暴。 Spec 模式结构化任务处理，将想法转化为系统化的开发计划。适用于项目落地、任务分解、进度跟踪。 🧩 两者关系：Vibe 强调互动与理解，帮助构建上下文；Spec 强调结构与执行，确保落地与追踪。二者并非对立，而是应融合使用。工具与生态 spec-driven development 的发展工具 / 模式核心定位特点 Kiro Spec AWS 规格驱动开发 IDE 从编写规格开始开发，规格为核心工件，支持自动化与持续验证。 GitHub Spec Kit 开源规格工具包 /specify 写规格、/plan 定方案、/tasks 拆任务；标准化流程并纳入版本控制。 Cursor Plan AI IDE 编码前自动生成结构化开发计划。 Claude Code/ Codex / Droid CLI 支持规划功能哪个价值更为认可代码 -> 编译器/解释器 -> 可执行程序...

MathReal：多模态大模型数学推理基准

MathReal：多模态大模型数学推理基准来源：https://github.com/junfeng0288/MathReal 结论先行 (TL;DR) 新基准：关注真实世界中带有噪声的图像现有困境：现有基准多使用清晰图像，未能反映真实教育场景中图像质量下降、透视变化和无关内容干扰等常见挑战数据集：2,000 道手机拍摄的数学题结果：即使是先进的 MLLM 在处理真实世界噪声时也面临显著挑战，其性能远低于在干净图像上的表现，Qwen-VL-Max 下降了 9.9%，Doubao-1.5-vision-pro 下降了 7.6% MindMap FAQ Acc strict 和 Acc 区别 Acc str (Strict Accuracy) - 严格准确度定义：要求一道问题中的所有子答案都必须正确，模型才能获得分数。如果任何一个子答案不正确，则整个问题都被标记为错误。计算方式：如果问题的所有子答案都与参考答案数学等价，则得 1 分，否则为 0 分 Acc (Loose Accuracy) - 宽松准确度定义：允许部分正确性，并根据每个问题中正确回答的子问题的比例进行计算计算方式：它计算每个问题中正确预测的子答案占总子答案的比例，然后对所有问题求平均主要区别与启示 Acc str 和 Acc 之间存在明显差距，如 Gemini-2.5-pro-thinking 在 Acc 下得分为 48.1%，但在 Acc str 评估下下降到 42.9% 实验中提示词有可以参考的吗？比如裁判提示词？裁判用的是什么？答案评估提示词（Mathematical Answer Evaluation Prompt）以及一个前置的答案提取提示词（Answer Extraction Prompt）裁判：GPT-4.1-nano 答案提取提示词 (Prompt for Answer Extraction Task) ◦ 角色定位：一个专业的答案提取专家。 ◦ 核心任务：从模型输出文本中尽可能准确地提取最终答案，并严格遵循优先级策略。 ◦ 优先级策略： ▪ 优先级1：寻找显式答案关键词：搜索“final answer”、“answer”、“result”、“the answer is”、“the result is”等关键词，或“therefore”、“so”、“in conclusion”等总结性词语，并提取紧随其后的内容。 ▪ 优先级2：从文本末尾提取：如果在上一步中没有找到明确的答案，则尝试从文本的最后一段或最后一句话中提取最可能的答案。 ◦ 重要要求： ▪ 多个答案应以分号 (;) 分隔。 ▪ 只返回答案内容本身，不包含额外解释或格式。 ▪ 如果无法确定答案，则返回“null”。数学答案评估提示词 (Prompt for Mathematical Answer Evaluation Task) ◦ 角色定位：一个顶级的数学评估专家，任务是严谨而精确地判断模型生成答案的正确性。 ◦ 核心任务：确定“模型答案”与“参考答案”在数学和选项上是否完全等价，并根据正确组件的比例分配部分分数。 ◦ 评估原则： ▪ 数值核心优先级：只关注最终的数值、表达式、选项或结论。忽略解题过程、解释性文本（例如“the answer is:”）、变量名（例如D, E, Q1）和无关描述。 ▪ 数学等价性（严格判断）： • 分数和小数：例如 1/2 等价于 0....

Manus Context Engineering

Manus Context Engineering 来源：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus Design Around the KV-Cache 缓存命中率：如果只能选择一个指标，选择 KV-cache hit rate 作为生产阶段 agent 的最重要指标。保持提示词前缀稳定（Keep your prompt prefix stable）保持提示词往后追加（Make your context append-only）缓存断点（Mark cache breakpoints explicitly when needed） a. 主流的商业 LLM API（如 OpenAI、Claude 等）或现代的开源高性能推理框架（如 vLLM、TensorRT-LLM），通常不需要显式设置缓存断点，它们会自动处理。 b. 在较低层次上使用模型（例如，手动管理 Hugging Face Transformers 的 past_key_values），或者在构建自定义推理服务时，需要自行实现 KV Cache 的管理策略。在这种情况下，需要决定在哪里“切分”上下文，将前面的部分缓存起来，以便后续的请求可以高效地重用。 Mask, Don’t Remove 避免在迭代中动态增加或者移除工具。大部分 LLM 在序列化后，工具定义在上下文前面，通常在系统提示词前或后。当之前的 actions、observations 还在引用没有定义在当前上下文里的工具，模型会容易幻觉 Manus 使用 context-aware state machine 管理工具。实践中，大部分 LLM 提供商或者推理框架支持 response prefill，约束 action space 而不用修改工具定义。...

TTS Eval - EmergentTTS-Eval 综合评测框架

TTS Eval - EmergentTTS-Eval 综合评测框架 🔗 GitHub: https://github.com/boson-ai/EmergentTTS-Eval-public 📄 论文: arXiv:2505.23009 | 机构: Boson AI | 发布: 2025年5月大型语言模型（LLM）迭代生成 1,645 个多样化测试用例，涵盖情感、副语言、外来词、句法复杂性、复杂发音和问题六个关键场景采用模型即评判者（model-as-a-judge）方法，利用大型音频语言模型（LALM）评估语音的多个维度，如表达的情感、韵律、语调和发音准确性文本标准化（Text Normalization）：基本的 TN 技术不总是能改善模型在基准测试中的性能，甚至可能使其变差。例如，WeText 将 '$1,890.125375' 转换为 ‘one thousand eight hundred and ninety point one dollars twenty five thousand three hundred and seventy five’，这损害了 TTS 质量。使用 LLM（如 GPT-4.1-mini）作为 TN 能解决许多问题并显著提高胜率。根据 EmergentTTS-Eval 的研究，“GPT-4o-mini-tts (Alloy voice) 开启强提示” 确实意味着：通过提供详细且有针对性的提示词，可以显著提升其在发音数学公式方面的准确性。 Prompt # Role You are a mathematical notation converter that transforms mathematical symbols and formulas into natural readable text for text-to-speech systems....