Building effective agents and Demystifying evals for AI agents

Intro “Building effective agents” 是 Anthropic 24 年 12 月发布的 Blog, “Demystifying evals for AI agents” 则是 26 年 1 月发布的 Blog,两者是有一定联系的,一个是如何构建高效的 Agent,一个是如何评估 Agent. Part1: Building effective agents Building blocks, workflows, and agents Building block: The augmented LLM LLM + 检索(retrieval)+ 工具(tools)+ 记忆(memory) ⇒ 为 LLM 提供一个简单、清晰、文档完善的统一接口 ⇒ Model Context Protocol, Workflow: Prompt chaining 将任务拆解为一系列步骤 示例:先做前置检查(pre-check),再进入正式处理(process) Workflow: Routing 对输入进行分类,并将其分发到对应的专用后续任务 示例:文本输入 → 文本模型;图片输入 → 视觉模型 Workflow: Parallelization Sectioning(拆分并行):把一个任务拆成彼此独立的子任务,同时并行执行 Voting(投票):对同一个任务多次运行,得到不同结果后再综合判断 示例:使用多个裁判(multiple judges)共同给出最终结论 Workflow: Orchestrator-workers 由一个核心 LLM 动态拆解任务...

January 11, 2026

Coding Agent

Coding Agent 🧩 Structured Communication(结构化交流) 核心流程: 与用户交流:了解挑战与需求。 提炼洞察:从交流中发现问题并构思目标。 规划方法:制定实现目标的策略。 分享计划:与团队成员同步。 转化代码:将计划落地为实际实现。 验证结果:测试与验证输出是否符合目标。 核心理念:把“思考—设计—实现—验证”过程显式化,让 AI 与人类都能在同一“规格语言(Spec)”下协作。 Kiro 的双模式:Vibe 与 Spec 模式 核心特征 适用场景 Vibe 模式 对话式交互,快速提问、澄清、解释。 适用于探索性思考、需求分析、头脑风暴。 Spec 模式 结构化任务处理,将想法转化为系统化的开发计划。 适用于项目落地、任务分解、进度跟踪。 🧩 两者关系:Vibe 强调互动与理解,帮助构建上下文;Spec 强调结构与执行,确保落地与追踪。二者并非对立,而是应融合使用。 工具与生态 spec-driven development 的发展 工具 / 模式 核心定位 特点 Kiro Spec AWS 规格驱动开发 IDE 从编写规格开始开发,规格为核心工件,支持自动化与持续验证。 GitHub Spec Kit 开源规格工具包 /specify 写规格、/plan 定方案、/tasks 拆任务;标准化流程并纳入版本控制。 Cursor Plan AI IDE 编码前自动生成结构化开发计划。 Claude Code/ Codex / Droid CLI 支持规划功能 哪个价值更为认可 代码 -> 编译器/解释器 -> 可执行程序...

October 1, 2025

Manus Context Engineering

Manus Context Engineering 来源:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus Design Around the KV-Cache 缓存命中率:如果只能选择一个指标,选择 KV-cache hit rate 作为生产阶段 agent 的最重要指标。 保持提示词前缀稳定(Keep your prompt prefix stable) 保持提示词往后追加(Make your context append-only) 缓存断点(Mark cache breakpoints explicitly when needed) a. 主流的商业 LLM API(如 OpenAI、Claude 等)或现代的开源高性能推理框架(如 vLLM、TensorRT-LLM),通常不需要显式设置缓存断点,它们会自动处理。 b. 在较低层次上使用模型(例如,手动管理 Hugging Face Transformers 的 past_key_values),或者在构建自定义推理服务时,需要自行实现 KV Cache 的管理策略。在这种情况下,需要决定在哪里“切分”上下文,将前面的部分缓存起来,以便后续的请求可以高效地重用。 Mask, Don’t Remove 避免在迭代中动态增加或者移除工具。 大部分 LLM 在序列化后,工具定义在上下文前面,通常在系统提示词前或后。 当之前的 actions、observations 还在引用没有定义在当前上下文里的工具,模型会容易幻觉 Manus 使用 context-aware state machine 管理工具。 实践中,大部分 LLM 提供商或者推理框架支持 response prefill,约束 action space 而不用修改工具定义。...

July 19, 2025