Anthropic 详述如何构建多智能体研究系统：最适合 3 类场景

25-06-16

需要共享上下文或存在复杂依赖关系的场景目前并不适合多智能体方案

免费

来自大脑的思考

文章来自 Anthropic 官网的分享，详细阐述了他们是如何构建多智能体研究系统《How we built our multi-agent research system》。

他们研究发现，多智能体系统最适合三类场景：高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况。需要共享上下文或存在复杂依赖关系的场景目前并不适合多智能体方案。下面是翻译全文：

我们的"研究"功能采用多智能体协作架构，让 Claude 能更高效地探索复杂课题。本文将分享系统构建过程中遇到的工程挑战与经验总结。

如今 Claude 已具备跨网络、Google Workspace 及各类集成系统进行信息检索的研究能力，以完成复杂任务。这套多智能体系统从原型到生产的实践历程，让我们在系统架构、工具设计和提示工程等方面积累了宝贵经验。

多智能体系统由多个自主使用工具的 LLM 智能体协同工作，在我们的研究功能中，主智能体会根据用户查询规划研究流程，随后创建并行工作的子智能体进行信息检索。这类系统在智能体协调、评估与可靠性方面带来了全新挑战。

本文将拆解我们验证有效的设计原则，希望能为开发者构建多智能体系统提供参考。

多智能体系统的优势

研究工作涉及开放式问题，很难提前预测所需的步骤。你无法为探索复杂主题设定固定的路径，因为这个过程本质上是动态的，并且依赖于路径。人们在进行研究时，往往会根据研究过程中出现的线索，不断更新研究方法。

这种不可预测性使 AI Agent 特别适合研究任务。研究需要根据进展灵活调整方向或探索关联线索，模型必须能自主进行多轮决策。传统的线性单次处理流程无法胜任这类任务。

信息检索的核心在于压缩：从海量数据中提炼洞察。子智能体通过并行工作实现高效压缩——它们各自拥有独立上下文窗口，能同步探索问题的不同侧面，最后将关键信息浓缩传递给主智能体。这种分工设计（差异化工具、提示词和探索路径）降低了路径依赖，确保全面独立的调查。

当智能水平达到阈值后，多智能体系统就成为扩展能力的必由之路。正如人类个体在过去十万年虽然智力提升有限，但信息时代的集体智慧与协作能力让社会整体效能呈指数级增长。即使通用智能体作为个体也存在局限，而智能体群体能实现远超个体的成就。

我们的内部测试显示，多智能体系统在需要同步探索多个独立方向的广度优先查询中表现尤为突出。以 Claude Opus 4 为主智能体、Claude Sonnet 4 为子智能体的系统，在研究评估中比单智能体版本性能提升 90.2%。例如在查询"信息技术标普 500 指数成分公司董事会成员"时，多智能体系统通过任务分解成功完成，而单智能体系统因串行搜索效率低下而失败。

多智能体系统的优势本质上是通过合理分配计算资源（token）来解决问题。在 BrowseComp 评估（测试浏览智能体定位冷门信息的能力）中，我们发现三个因素解释了 95% 的性能差异：token 用量单独解释 80% 的差异，工具调用次数和模型选择构成其余解释变量。

这验证了我们通过独立上下文窗口分配工作以扩展并行推理能力的架构设计。最新 Claude 模型显著提升了 token 使用效率——升级到 Claude Sonnet 4 带来的性能增益，甚至超过在 Claude Sonnet 3.7 上双倍 token 预算的效果。

但需注意：实际运行中这类架构会快速消耗 token。数据显示，智能体任务平均消耗 token 量是普通聊天的 4 倍，多智能体系统则达到 15 倍。因此经济可行性要求任务价值必须与性能提升相匹配。此外，需要共享上下文或存在复杂依赖关系的场景目前并不适合多智能体方案。

例如多数编程任务的并行潜力低于研究任务，且当前 LLM 智能体尚不擅长实时协调分工。我们发现多智能体系统最适合三类场景：高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况。

研究架构概览

我们的研究系统采用具有协调器---工作者模式的多智能体架构，其中首席智能体协调流程，同时委托给并行操作的专门子智能体。

动态多智能体架构：用户查询经主智能体分析后，创建专业子智能体并行探索不同维度。

如上图示，当用户提交查询（如 "2025 年 AI 智能体领域重点企业"）后，子智能体作为智能过滤器，通过迭代使用搜索工具收集信息，最终将企业列表返回主智能体进行答案整合。

与传统 RAG（检索增强生成）的静态检索不同，我们的架构采用多步骤动态搜索：持续发现相关信息、适应新发现、分析结果以形成高质量答案。

上图为多智能体研究系统完整工作流程图。用户提交查询后，系统创建 LeadResearcher 主智能体进入迭代研究流程。该智能体首先规划方法并将方案存入 Memory（因上下文窗口超过 20 万 token 会被截断，保存计划至关重要），随后创建承担具体研究任务的子智能体（图示 2 个，实际数量可变）。

各子智能体独立执行网络搜索，通过交错思考评估工具结果，将发现反馈给主智能体。主智能体综合结果后决定是否需要深化研究——必要时会创建新子智能体或调整策略。信息收集完成后，系统退出研究循环，将所有发现传递给 CitationAgent 处理文档和研究报告，确保每个主张都有准确引用来源。最终附有引用的研究成果返回用户。

为研究智能体提供及时的工程与评估

多智能体系统与单智能体存在关键差异，尤其是协调复杂度的快速增长。早期智能体常出现以下问题：简单查询创建 50 个子智能体、无止境搜索不存在的信息源、过度更新互相干扰等。由于每个智能体都由提示词驱动，提示工程成为改进行为的主要手段。以下是我们总结的提示词设计原则：

智能体思维模拟：通过控制台实时观察智能体逐步执行过程，能立即发现继续冗余搜索、使用冗长查询或选错工具等问题。建立准确的智能体心智模型后，最关键改进往往显而易见。
教会协调者（主智能体）如何授权：我们发现简单指令如 "研究芯片短缺" 会导致子智能体重复工作（如三个子智能体分别调查 2021 汽车芯片危机与 2025 供应链现状）。有效分工需要明确：具体目标、输出格式、工具指南和任务边界。
根据查询复杂度调整工作量：将工作量分级规则嵌入提示词——简单的事实调查只需 1 名智能体调用 3-10 个工具；直接比较可能需要 2-4 名子智能体，每名子智能体调用 10-15 个工具；而复杂的研究可能需要 10 名以上子智能体，并明确划分职责。这些明确的指导原则有助于主智能体高效地分配资源，并避免在简单查询上投入过多资源——这在我们早期版本中是一种常见的失败模式。
工具的设计和选择至关重要：智能体 - 工具接口与人机界面同等重要。使用正确的工具至关重要——通常，这是绝对必要的。例如，一个智能体在网络上搜索只存在于 Slack 中的上下文，从一开始就注定要失败。由于 MCP 服务器允许模型访问外部工具，这个问题会变得更加严重，因为智能体会遇到一些描述质量参差不齐的、从未见过的工具。我们为智能体提供了明确的启发式方法：例如，首先检查所有可用的工具，将工具使用情况与用户意图相匹配，在网络上搜索广泛的外部探索，或者优先选择专用工具而非通用工具。糟糕的工具描述可能会让智能体走上完全错误的路径，因此每个工具都需要有明确的用途和清晰的描述。
让智能体自我提升：Claude 4 模型本身就能成为优秀提示工程师。当给出提示和故障模式时，它们能够诊断智能体失败的原因并提出改进建议。我们甚至创建了一个工具测试智能体——当获得一个有缺陷的 MCP 工具时，它会尝试使用该工具，然后重写工具描述以避免故障。通过数十次工具测试，该智能体发现了关键的细微差别和错误。这种改进工具人体工程学的过程使未来使用新描述的智能体的任务完成时间缩短了 40%，因为他们能够避免大多数错误。
先广后深策略：搜索策略应效仿专家的人工研究：先探索全局，再深入细节。智能体通常会默认输入过长、具体的查询，但结果却很少。我们通过鼓励智能体先从简短、宽泛的查询开始，评估可用的内容，然后逐步缩小范围来抵消这种倾向。
思维过程引导：扩展思维模式引导 Claude 在可见的思考过程中输出额外的标记，可以充当可控的便笺簿。首席智能体运用思维来规划其方法，评估哪些工具适合该任务，确定查询的复杂性和子智能体数量，并定义每个子智能体的角色。我们的测试表明，扩展思维可以提高指令遵循能力、推理能力和效率。子智能体也会进行规划，然后在工具结果之后运用交叉思维来评估质量、识别差距并优化下一个查询。这使得子智能体能够更有效地适应任何任务。
并行工具调用提升了速度和性能：复杂的研究任务自然需要探索众多来源。我们早期的智能体执行的是顺序搜索，速度非常慢。为了提高速度，我们引入了两种并行化方式：(1) 主智能体并行（而非串行）启动 3-5 个子智能体；(2) 子智能体并行使用 3 个或以上工具。这些改进将复杂查询的研究时间缩短了高达 90%，使研究团队能够在几分钟内完成更多工作，而不是几小时，同时覆盖比其他系统更多的信息。

我们的提示策略聚焦启发式规则而非僵化条款。通过研究人类专家工作模式，我们将问题分解、信源评估、动态调整、深度与广度平衡等策略编码到提示中，同时设置明确防护栏防止失控。最后通过可观测性和测试案例建立快速迭代循环。

智能体的有效评估

可靠评估对 AI 应用至关重要，但多智能体系统带来独特挑战。传统评估假设系统会遵循固定路径（给定输入 X，经路径 Y 得输出 Z），而多智能体可能通过不同有效路径达成目标——可能使用不同工具或搜索不同数量信源。即使起点相同，智能体也可能采取完全不同的有效路径来实现其目标。

一个智能体可能搜索三个来源，而另一个智能体搜索十个，或者它们可能使用不同的工具来找到相同的答案。由于我们并不总是知道正确的步骤是什么，我们通常不能仅仅检查智能体是否遵循了我们预先规定的“正确”步骤。相反，我们需要灵活的评估方法来判断智能体是否在遵循合理流程的同时实现了正确的结果。因此我们需要能判断结果正确性及过程合理性的灵活评估方法。

小样本快速验证：早期开发中提示词微调可能使成功率从 30% 跃升至 80%，20 个典型查询就足以观察变化。不必等待构建数百测试案例的大规模评估。
LLM 作为评估者：研究输出是自由文本且少有唯一正确答案，我们采用 LLM 评估器按标准打分（事实准确性、引用准确性、完整性、信源质量、工具效率）。实验表明，单一 LLM 调用输出 0.0-1.0 分数及通过 / 失败判定，与人类判断最一致。当测试案例存在明确答案时（如 "列出研发预算前三的药企"），该方法尤其有效。
人工评估补缺：测试人员能发现自动化评估遗漏的边缘情况——非常规查询的幻觉答案、系统故障、微妙的信源选择偏见等。例如早期智能体持续选择 SEO 优化内容农场而非权威但排名较低的学术 PDF 或个人博客，通过提示词添加信源质量启发式规则解决了该问题。

多智能体系统具有涌现特性——主智能体的微小变化可能不可预测地改变子智能体行为。成功需要理解交互模式而不仅是单体行为。因此最佳提示词不仅是严格指令，更是定义分工、解决方法和资源预算的协作框架。实现这点需要精心设计的提示词与工具、稳健启发式规则、可观测性和紧密反馈循环。

生产环境可靠性和工程挑战

与传统软件不同，智能体系统中微小变化会产生行为级联效应，使得为需要维持长期状态的复杂智能体编写代码异常困难。

状态持久与错误累积：智能体是有状态的，错误会累积。它可以长时间运行，在多次工具调用中保持状态。这意味着我们需要持久地执行代码并处理过程中的错误。如果没有有效的缓解措施，轻微的系统故障可能会对智能体造成灾难性的后果。发生错误时，我们不能从头开始重启：重启不仅成本高昂，还会让用户感到沮丧。因此，我们构建了能够从智能体发生错误时的位置恢复的系统。我们还利用模型的智能来优雅地处理问题：例如，让智能体知道工具何时发生故障，并让其进行调整，效果出奇地好。我们将基于 Claude 构建的 AI 智能体的适应性与重试逻辑和定期检查点等确定性保障措施相结合。

新方法让调试受益匪浅：智能体会做出动态决策，即使提示完全相同，每次运行之间也存在不确定性。这让调试更加困难。例如，用户会报告“找不到明显的信息”，但我们却找不到原因。智能体是否使用了错误的搜索查询？选择了错误的来源？还是遇到了工具故障？添加完整的生产跟踪功能使我们能够诊断智能体失败的原因并系统地解决问题。除了标准的可观察性之外，我们还监控智能体的决策模式和交互结构——所有这些都无需监控单个对话的内容，从而保护用户隐私。这种高级别的可观察性帮助我们诊断根本原因、发现意外行为并修复常见故障。
部署需要谨慎协调：智能体系统是高度状态化的网络，由提示词、工具和执行逻辑组成，几乎持续运行。这意味着，每当我们部署更新时，智能体都可能处于其进程的任何地方。因此，我们需要防止我们善意的代码更改破坏现有智能体。我们无法同时将所有智能体更新到新版本。相反，我们使用彩虹部署来避免中断正在运行的智能体，方法是逐步将流量从旧版本转移到新版本，同时保持两个版本同时运行。
同步执行会造成瓶颈：当前主智能体同步执行子智能体会造成信息流瓶颈——主智能体无法引导子智能体、子智能体间不能协调、单个子智能体搜索会阻塞整个系统。异步执行虽能提升并行性，但会增加结果协调、状态一致性和错误传播的复杂度。随着模型处理更长更复杂研究任务的能力提升，我们预期性能收益将证明复杂性的合理性。

结论

构建 AI 智能体时，"最后一公里" 往往占据了最重要的一步。在开发者机器上运行的代码库需要大量的工程设计才能成为可靠的生产系统。Agent 系统中错误的复合性意味着传统软件的一个小问题就可能彻底破坏 Agent。一步失败就可能导致 Agent 探索完全不同的轨迹，从而导致不可预测的结果。由于本文所述的所有原因，原型和生产之间的差距通常比预期的要大。

尽管面临诸多挑战，多智能体系统已被证明在开放式研究任务中具有重要价值。用户表示，Claude 帮助他们找到了未曾考虑过的商业机会，引导他们应对复杂的医疗保健方案，解决棘手的技术错误，并通过发现他们独自一人无法发现的研究关联，节省了长达数天的工作时间。

多智能体研究系统能够通过精心的工程设计、全面的测试、注重细节的提示和工具设计、强大的操作实践，以及对当前智能体功能有深入理解的研究、产品和工程团队之间的紧密合作，实现大规模可靠运行。我们已经看到这些系统正在改变人们解决复杂问题的方式。

上图：Clio 嵌入图展示当前研究功能的主要使用场景。前五类用途包括：跨专业领域开发软件系统（10%）、专业 / 技术内容开发优化（8%）、业务增长与营收战略制定（8%）、学术研究与教育材料开发（7%）、人物 / 机构 / 地点信息核实（5%）。

附录：多智能体系统实用建议

对在多轮对话中改变状态的智能体进行最终状态评估。评估在多轮对话中修改持久状态的智能体面临着独特的挑战。与只读研究任务不同，每个操作都可能改变后续步骤的环境，从而产生传统评估方法难以处理的依赖关系。我们发现，专注于最终状态评估而非逐轮分析是成功的。与其判断智能体是否遵循了特定的流程，不如评估其是否达到了正确的最终状态。这种方法承认智能体可能会找到实现同一目标的其他路径，同时仍能确保其交付预期结果。对于复杂的工作流，应将评估分解为应该发生特定状态变化的离散检查点，而不是试图验证每个中间步骤。

长周期对话管理。生产智能体通常参与跨越数百轮的对话，需要谨慎的上下文管理策略。随着对话的延长，标准上下文窗口变得不足，需要智能压缩和记忆机制。我们实现了一些模式，智能体会在执行新任务之前总结已完成的工作阶段，并将重要信息存储在外部存储器中。当上下文接近上限时，智能体可以生成具有干净上下文的全新子智能体，同时通过谨慎的交接保持对话的连续性。此外，它们可以从内存中检索存储的上下文（例如研究计划），而不会在达到上下文上限时丢失之前的工作。这种分布式方法可以防止上下文溢出，同时在扩展交互过程中保持对话的连贯性。

将子智能体输出到文件系统，以最大限度地减少“电话游戏”。直接子智能体输出可以绕过主协调器，从而提高某些类型结果的保真度和性能。与其要求子智能体通过主智能体传达所有信息，不如实施工件系统，让专门的智能体可以创建独立持久的输出。子智能体调用工具将其工作存储在外部系统中，然后将轻量级引用传递回协调器。这可以防止在多阶段处理过程中丢失信息，并减少通过对话历史记录复制大量输出所带来的令牌开销。该模式尤其适用于结构化输出，例如代码、报告或数据可视化，在这些情况下，子智能体的专用提示比通过通用协调器进行筛选能产生更好的结果。

Memo Team

Signal, not noise!

Anthropic 详述如何构建多智能体研究系统：最适合 3 类场景

Memo Newsletter