AI:Advanced Tool Use

Advanced Tool Use 来源:https://www.anthropic.com/engineering/advanced-tool-use 图示 Tool Search Tool 对比图(Context Usage: Traditional vs. Tool Search Tool) Programmatic Tool Calling 流程图(Programmatic Tool Calling Flow) 核心要点 整体目标:解决三个老问题 工具太多:定义太长,把上下文挤爆 链路太长:工具链一长,来回调用慢且耗 tokens 仅靠 Schema 不够:只有 JSON Schema 时,模型仍会经常填错参数/用错工具 Tool Search Tool(工具搜索): 不再一次性把几十上百个工具定义全部塞进上下文,而是只提前加载一个“搜索工具 + 少数高频工具”。当 Claude 需要某类能力时,先用搜索工具按名字/描述去检索,再按需把少量匹配工具的定义展开进上下文。 收益:减少 token 开销(官方示例:上下文消耗可降低 80%+),同时降低“选错工具”的概率 适用:MCP 多服务、工具数量 10+ 的场景 Programmatic Tool Calling(编程式工具调用): 以前是“自然语言 → 一次推理 → 调一个工具 → 结果全丢回模型上下文”,多步流程就意味着多次推理 + 大量中间数据灌进上下文。现在改成:Claude 写一段 Python 脚本,在沙盒里 orchestrate 工具调用(循环、并发、条件分支都写在代码里),工具结果先在代码里处理,最后只把“结论”返回给 Claude。 收益:大数据场景下只让模型看到汇总结果,而不是几 MB 的原始日志;显著省 tokens、降延迟,也更不容易“算错账” Tool Use Examples(工具使用示例):...

December 21, 2025

AI:评估AI Agent的上下文压缩策略

评估AI Agent的上下文压缩策略 执行摘要 长会话超出上下文窗口会让AI Agent丢失关键信息。Factory.ai为此构建了基于探针的评估框架,用来衡量不同上下文压缩策略的“功能质量”。对比Factory、OpenAI与Anthropic三种方法,Factory的“锚定迭代式摘要”在保留技术细节上最佳:通过持续维护并增量合并结构化摘要,在准确性与上下文感知上领先,说明结构比单纯的压缩率更决定任务成败。 1. 核心问题:长对话中的上下文丢失 AI Agent在调试、代码审查或功能实现等复杂任务中,会产生数百万Token的对话历史,远超模型上下文窗口。激进压缩常导致代理遗忘关键信息(如改动过的文件、已尝试的方案),从而反复读取、重复探索。 研究指出,优化目标不应是“单次请求的Token数”(tokens per request),而应是“完成任务所需的总Token数”(tokens per task)。更高质量的上下文保留能减少返工,进而降低总消耗。 2. 评估框架:基于探针的功能性质询 传统摘要指标(如ROUGE或嵌入相似度)无法回答关键问题:压缩后的上下文还能否支撑代理继续工作。Factory.ai因此设计探针评估:向压缩后的代理提问必须依赖具体历史细节的问题,以直接衡量其功能质量。 探针类型 该框架使用四种探针,覆盖不同维度的信息保留: 探针类型 测试内容 示例问题 回忆(Recall) 事实性信息的保留 “最初的错误信息是什么?” 工件(Artifact) 文件追踪 “我们修改了哪些文件?描述每个文件的变化。” 延续(Continuation) 任务规划 “我们下一步该做什么?” 决策(Decision) 推理链 “我们针对Redis问题讨论了哪些方案,最终决定是什么?” 评估维度 由LLM裁判(GPT-5.2)按六个维度评分(0-5分),面向软件开发场景: 准确性 (Accuracy): 技术细节(如文件路径、函数名)是否正确。 上下文感知 (Context Awareness): 响应是否反映了当前的对话状态。 工件追踪 (Artifact Trail): 代理是否知道哪些文件被读取或修改过。 完整性 (Completeness): 响应是否解决了问题的所有部分。 连续性 (Continuity): 工作能否在不重新获取信息的情况下继续。 指令遵循 (Instruction Following): 响应是否遵循了格式或约束要求。 3. 三种压缩策略对比 研究评估了三种生产级的压缩策略: Factory:锚定迭代式摘要 (Anchored Iterative Summarization) 机制: 维护一个包含明确分区(如会话意图、文件修改、决策)的持久化结构性摘要。当需要压缩时,仅对新截断的对话部分进行摘要,并将其合并到现有摘要中。 核心洞察: 结构强制保留。通过为特定信息类型设置专门的区域,可以防止关键细节(如文件路径)在自由形式的摘要中被无声地丢弃。 OpenAI:不透明压缩端点(/responses/compact) 机制: 生成面向重建保真度的不透明压缩表示。...

December 21, 2025