Context-Engineering

Manus Context Engineering 来源：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus Design Around the KV-Cache 缓存命中率：如果只能选择一个指标，选择 KV-cache hit rate 作为生产阶段 agent 的最重要指标。保持提示词前缀稳定（Keep your prompt prefix stable）保持提示词往后追加（Make your context append-only）缓存断点（Mark cache breakpoints explicitly when needed） a. 主流的商业 LLM API（如 OpenAI、Claude 等）或现代的开源高性能推理框架（如 vLLM、TensorRT-LLM），通常不需要显式设置缓存断点，它们会自动处理。 b. 在较低层次上使用模型（例如，手动管理 Hugging Face Transformers 的 past_key_values），或者在构建自定义推理服务时，需要自行实现 KV Cache 的管理策略。在这种情况下，需要决定在哪里“切分”上下文，将前面的部分缓存起来，以便后续的请求可以高效地重用。 Mask, Don’t Remove 避免在迭代中动态增加或者移除工具。大部分 LLM 在序列化后，工具定义在上下文前面，通常在系统提示词前或后。当之前的 actions、observations 还在引用没有定义在当前上下文里的工具，模型会容易幻觉 Manus 使用 context-aware state machine 管理工具。实践中，大部分 LLM 提供商或者推理框架支持 response prefill，约束 action space 而不用修改工具定义。...