Agent

Building effective agents and Demystifying evals for AI agents

Intro “Building effective agents” 是 Anthropic 24 年 12 月发布的 Blog, “Demystifying evals for AI agents” 则是 26 年 1 月发布的 Blog，两者是有一定联系的，一个是如何构建高效的 Agent，一个是如何评估 Agent. Part1: Building effective agents Building blocks, workflows, and agents Building block: The augmented LLM LLM + 检索（retrieval）+ 工具（tools）+ 记忆（memory） ⇒ 为 LLM 提供一个简单、清晰、文档完善的统一接口 ⇒ Model Context Protocol, Workflow: Prompt chaining 将任务拆解为一系列步骤示例：先做前置检查（pre-check），再进入正式处理（process） Workflow: Routing 对输入进行分类，并将其分发到对应的专用后续任务示例：文本输入 → 文本模型；图片输入 → 视觉模型 Workflow: Parallelization Sectioning（拆分并行）：把一个任务拆成彼此独立的子任务，同时并行执行 Voting（投票）：对同一个任务多次运行，得到不同结果后再综合判断示例：使用多个裁判（multiple judges）共同给出最终结论 Workflow: Orchestrator-workers 由一个核心 LLM 动态拆解任务...

Coding Agent

Coding Agent 🧩 Structured Communication（结构化交流）核心流程：与用户交流：了解挑战与需求。提炼洞察：从交流中发现问题并构思目标。规划方法：制定实现目标的策略。分享计划：与团队成员同步。转化代码：将计划落地为实际实现。验证结果：测试与验证输出是否符合目标。核心理念：把“思考—设计—实现—验证”过程显式化，让 AI 与人类都能在同一“规格语言（Spec）”下协作。 Kiro 的双模式：Vibe 与 Spec 模式核心特征适用场景 Vibe 模式对话式交互，快速提问、澄清、解释。适用于探索性思考、需求分析、头脑风暴。 Spec 模式结构化任务处理，将想法转化为系统化的开发计划。适用于项目落地、任务分解、进度跟踪。 🧩 两者关系：Vibe 强调互动与理解，帮助构建上下文；Spec 强调结构与执行，确保落地与追踪。二者并非对立，而是应融合使用。工具与生态 spec-driven development 的发展工具 / 模式核心定位特点 Kiro Spec AWS 规格驱动开发 IDE 从编写规格开始开发，规格为核心工件，支持自动化与持续验证。 GitHub Spec Kit 开源规格工具包 /specify 写规格、/plan 定方案、/tasks 拆任务；标准化流程并纳入版本控制。 Cursor Plan AI IDE 编码前自动生成结构化开发计划。 Claude Code/ Codex / Droid CLI 支持规划功能哪个价值更为认可代码 -> 编译器/解释器 -> 可执行程序...

Manus Context Engineering

Manus Context Engineering 来源：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus Design Around the KV-Cache 缓存命中率：如果只能选择一个指标，选择 KV-cache hit rate 作为生产阶段 agent 的最重要指标。保持提示词前缀稳定（Keep your prompt prefix stable）保持提示词往后追加（Make your context append-only）缓存断点（Mark cache breakpoints explicitly when needed） a. 主流的商业 LLM API（如 OpenAI、Claude 等）或现代的开源高性能推理框架（如 vLLM、TensorRT-LLM），通常不需要显式设置缓存断点，它们会自动处理。 b. 在较低层次上使用模型（例如，手动管理 Hugging Face Transformers 的 past_key_values），或者在构建自定义推理服务时，需要自行实现 KV Cache 的管理策略。在这种情况下，需要决定在哪里“切分”上下文，将前面的部分缓存起来，以便后续的请求可以高效地重用。 Mask, Don’t Remove 避免在迭代中动态增加或者移除工具。大部分 LLM 在序列化后，工具定义在上下文前面，通常在系统提示词前或后。当之前的 actions、observations 还在引用没有定义在当前上下文里的工具，模型会容易幻觉 Manus 使用 context-aware state machine 管理工具。实践中，大部分 LLM 提供商或者推理框架支持 response prefill，约束 action space 而不用修改工具定义。...