大模型智能体架构大辩论:小白程序员如何把握多智能体开发的关键?(收藏必备)

张开发
2026/4/20 21:23:05 15 分钟阅读

分享文章

大模型智能体架构大辩论:小白程序员如何把握多智能体开发的关键?(收藏必备)
本文探讨了 Anthropic 和 Cognition 关于多智能体系统构建的争议以及 LangChain 的中立观点。核心在于上下文工程的重要性以及任务特性与智能体架构的匹配关系。对于高价值、可并行任务的“读多写少”场景多智能体更适用而对于高依赖性任务单体架构可能更可靠。程序员应关注如何灵活构建掌握上下文工程技巧。大模型驱动的 AI 智能体Agent架构最近讨论的很激烈其中一个关键争议点在于多智能体到底该不该建Anthropic 的《How we built our multi-agent research system》、Cognition 的《Don’t Build Multi-Agents》与 LangChain 的《How and when to build multi-agent systems》三篇文章不谋而合地聚焦这一问题。事情的起因是这样子的——两家领先的 AI 公司—Anthropic 和 Cognition知名 AI 编程智能体 Devin 的母公司前后脚发表了观点不同的文章Ps为了方便大家记忆我们分为正方和反方正方 Anthropic 团队发布了文章《How we built our multi-agent research system》表达立场“多智能体值得而且已经在生产环境跑通”并且详细阐述了构建多智能体系统的经验和可行性。反方 Cognition 团队Devin 的母公司发表了《Don’t Build Multi-Agents》虽然不是全盘否定多智能体系统理念但是确实“吐槽”他们多智能体系统研发路上的遇到的血与泪以及现有模式的弊端。正方 Anthropic为什么“该建”业务需求面向开放式研究查询单代理容易卡在 context 窗口与串行搜索瓶颈。架构Lead Agent 负责规划与分工随需动态生成 Sub-agents 并行检索再由 Citation Agent 标注引用闭环交付。效果在内部 BrowseComp/自研评测里多智能体架构成功率提升 ~90%但代价是巨量 token 与复杂运维。而且还给出了八条经验核心是降低协调复杂度与观察可调试性。Cognition为什么“先别建”痛点来源Devin 要写可运行代码任何上下文不一致都会直接编译/逻辑出错。遵循两大原则Share context — 子代理必须拿到完整决策链而不仅是任务文本Actions carry implicit decisions — 并行写入时冲突几乎难以自动调解。替代方案单线程长上下文代理或引入专门“小模型”做上下文压缩把长历史摘要后再续写。结论今天的多智能体更适合“读多写少”的任务写代码这种强一致任务单体可靠性 并行吞吐一个代表“大模型工具链 搜索”用例另一个代表“AI 编程”用例——恰好覆盖当前最热门的两条 Agent 落地路线。看似碰撞其实共识多过分歧两家的核心都把“Context Engineering”视作决定性难题只是在研究检索与代码生成这两类任务上的权衡点不同。而 LangChain 随后也发表了一篇综述《How and when to build multi-agent systems》指出两家其实都强调同一件事——什么时候、怎样传递上下文把两篇打擂台的文章折中成一条共识路线。让我们分别看看 Anthropic、Cognition 与 LangChain 三家公司各自的解法。Anthropic 正方陈述背景Anthropic 近期升级了 Claude 现在的 Claude 可以通过访问互联网、Google Workspace 等数据源自主搜索信息来完成复杂的任务。基于此能力Anthropic 面向研究场景研发了一套多智能体系统是一种基于“协调者-工作者”模式的典型多智能体架构主智能体Lead Agent 协调者负责整个研究流程的规划和协调。子智能体 Sub-agents 工作者根据主智能体的指示并行执行特定的研究任务。工作流程接收查询并规划 当用户提交一个研究查询时主智能体首先分析查询内容并制定一个详细的研究策略或计划。创建并分配任务 主智能体根据计划创建多个专门的子智能体并为每个子智能体分配具体的、可并行执行的研究任务。这个计划会被保存在系统的内部记忆Memory中即使在处理大量信息导致上下文超出限制时也能保持研究方向的一致性。并行搜索与评估 每个子智能体独立行动收集信息。例如在研究“2025 年 AI 智能体公司”时不同的子智能体可能同时搜索市场预测、公司新闻、技术报告等并且评估搜索结果的有效性将收集到的信息返回给主智能体。信息综合与迭代 主智能体接收并综合所有子智能体返回的信息。根据这些信息主智能体判断是否已经收集到足够回答查询的内容。如果需要更多信息它可以调整策略、创建新的子智能体或让现有子智能体进行更深入的搜索形成一个迭代循环直到信息充分。生成引用与最终报告 一旦主智能体认为研究完成所有收集到的结果会被传递给一个专门的引用智能体CitationAgent。这个智能体负责梳理所有的原始资料精确地找出每项信息或主张的出处。Anthropic 团队还介绍了为什么要在研究任务中使用多智能体系统开放式与动态的研究任务非常适合 研究工作往往是探索未知很难提前规划好所有步骤。研究过程是动态的后续步骤常常依赖于先前的发现即“路径依赖”。好的研究者会根据发现调整方向追寻新的线索。这种灵活性是线性、固定流程难以做到的。多智能体特别适合这种任务因为它们可以在多轮交互中自主运行根据中间结果调整策略。并行搜索更高效 搜索的本质是从海量信息中提炼关键见解。通过让多个子智能体同时在各自独立的工作空间上下文窗口中搜索信息系统能并行处理更多数据。每个子智能体专注于不同方面或使用不同工具减少了路径依赖确保研究更全面和独立。它们将提炼出的重要信息再汇总给主智能体。多体协作 单体力量 就像人类社会通过集体协作变得更强大一样多智能体系统也能提升 AI 的整体能力。即使单个智能体很聪明协同工作的群体往往能完成更复杂的任务。根据 Anthropic 的内部测试显示由一个强大的 Claude Opus 智能体作为主导配合多个 Claude Sonnet 子智能体组成的系统在研究任务中的表现比单个 Claude Opus 智能体高出 90.2%。然而多智能体强大的能力也伴随着显著的成本高昂的 Token 消耗 一个智能体完成任务通常比简单的聊天交互消耗约 4 倍的 Token而多智能体系统甚至可能消耗约 15 倍的 Token。不适合高依赖性任务 多智能体系统并不适合所有类型的任务。特别是一些要求所有智能体共享完全相同的实时信息或者智能体之间的步骤高度依赖、需要频繁和紧密协调的任务目前多智能体系统难以胜任。与单智能体系统相比多智能体系统最显著的挑战在于协调复杂度的急剧增加。Anthropic 团队提炼出了一些关键提示的原则和经验有效的提示词必须理解智能体如何处理信息通过模拟其工作流程能发现问题所在如过度工作、搜索无效、工具选择错误从而更有针对性地改进提示词。明确分派任务 主智能体向子智能体分配任务时必须提供详细指令包括目标、输出格式、工具使用指南和任务边界。指令模糊会导致重复工作、信息遗漏或误解任务。根据任务复杂度调整工作量 智能体难以自行判断任务难度因此需要将“规模调整规则”嵌入提示词中。明确指导主智能体应根据查询复杂度简单、对比、复杂创建多少子智能体和执行多少次工具调用避免资源浪费。工具设计与选择至关重要 智能体能否高效完成任务很大程度上取决于它能否选择并正确使用工具。工具需要清晰的用途描述并且提示词应包含工具选择的策略指导如优先使用专业工具、匹配工具与意图避免智能体因工具问题而失败。赋能智能体自我改进 高级模型如 Claude 4能诊断自身失败原因并提出改进建议。构建“工具测试智能体”等机制让智能体自动测试和优化工具描述能显著提升未来任务效率如优化后的工具可使任务时间减少 40%。遵循从宽到窄的搜索策略 模仿人类专家研究过程先进行广泛搜索了解概况再逐步聚焦细节。提示词应引导智能体避免一开始就使用过于具体的查询。引导思维过程CoT 利用思维链Chain of Thought, CoT等技术让智能体先规划、再执行。主智能体用 CoT 规划整体研究方法和资源分配子智能体用 CoT 评估搜索结果并优化后续步骤。这能提升指令遵循、推理能力和整体效率。并行化提升速度 复杂研究任务涉及多来源探索。通过让主智能体并行启动多个子智能体以及让子智能体并行使用多个工具可以将复杂查询的研究时间大幅缩短高达 90%。除了怎么构建如何评估多智能体系统的效果同样是新课题。Anthropic 分享了他们的经验快速小样本测试 开发早期用少量案例快速迭代高效发现重大问题。利用 LLM 作为评判者 对无唯一答案的研究成果用 LLM 根据标准进行自动化、可扩展的评分。结合人工评估 人工测试能捕捉自动化遗漏的边缘问题和微妙偏差如偏好低质来源。与一次性回答不同Agent 可能长时间运行、调用多个工具其状态在过程中不断变化。如果中途出现错误中断整个流程不仅代价高昂而且令用户对产品失去信心对于开发者也很难回答“Agent 为什么没找到明显信息是查询关键词不佳还是工具使用失败”所以必须考虑工程和可靠性问题智能体有状态且长时间运行微小错误会累积需要具备从错误点恢复的能力。智能体的动态和非确定性使调试困需要全面的生产跟踪和诊断根源。持续运行的复杂系统需逐步部署策略如彩虹部署以防中断现有任务。正方论点Anthropic 最终总结尽管有多智能体系统将原型转化为可靠生产系统的巨大挑战但它最适用于高价值、需并行处理大量数据并与复杂工具交互的任务。这类系统已在开放式研究等领域证明了自身价值成功帮助用户发现商业机会、解决复杂问题、节省了大量时间。Cognition 反方陈述Cognition 在博客中开篇就点名市面上一些多智能体框架“看着性感落地惨淡”OpenAI 的 swarm 和微软的 autogen 的理念都是错误的方向。LLM 时代构建 AI 智能体除了已经有了一些最基本的共识外目前还没有形成统一的构建标准。如果你只是初级的开发构建已经有现成的资源协助你搭建基础框架。但要构建真正可投入生产的应用则另当别论。核心是把 Context Engineering 做好。好多人知道 Prompt Engineering也就是提示词工程它只是为 LLM 优化任务描述把任务做好。Context Engineering 是 Prompt Engineering 的进阶版是让系统在长时间、多轮、动态过程中自动管理上下文这才是头号要紧工作。他们认为常见的任务分解-子智能体并行-结果合并模式类似于 Anthropic 描述的多智能体协作框架在实践中存在严重问题。这个架构非常脆皮Cognition 举了个例子假设你的任务是“构建一个 Flappy Bird 克隆版”。在目前的框架下这会被分解为子任务 1 和任务 2。任务 1:构建一个带有绿色管道和碰撞框的移动游戏背景任务 2构建一个可以上下移动的鸟。结果子代理 1 误解了你的子任务开始构建一个类似《超级马里奥兄弟》的背景。子代理 2 虽然给你做了只鸟但这既不像游戏素材动作也完全不像《Flappy Bird》里的鸟。现在最终代理只能硬着头皮把这两个错误产物拼凑在一起。现实世界的复杂任务充满细微差别每一个小细节都可能被智能体误解。仅仅将原始任务作为上下文分享给子智能体是远远不够的尤其是涉及到多轮对话、智能体自身工具调用等复杂性任务。任务越细、歧义越多、冲突成本越高。于是他们提出了一个原则共享上下文环境并共享完整的智能体运行轨迹而非仅展示单条消息。但是依旧会生成一只鸟和背景是完全不同视觉风格。问题就出在当子智能体被设计成独立工作时它们之间还是无法看到彼此的实时行动和状态。这就导致了它们可能基于相互冲突的假设行动最终产出不一致或不协调的结果。所以便提出了第二个原则每一步操作都暗含假设多个智能体若依据冲突假设行动结果必然混乱。Cognition 的这两条原则几乎把当下主流多智能体框架“一票否决”。最终他们倾向于构建单线程线性智能体等架构因为这类结构能更好地保持任务的整体一致性和可控性。虽然这样的模式保障了上下文是连续的但是对于包含大量子任务的大型任务一定会会导致上下文窗口溢出。Cognition 指出所以有必要增加一个压缩模型额外用小模型把历史对话与行动压成关键摘要供后续步骤引用。这正是 Cognition 已经实践过的方案理想情况是智能体的每个行动都基于系统中其他部分的上下文做决策但最终仍会触及上下文的极限。需要开发者在可靠性和复杂性之间自己做平衡。Cognition 团队还提供了几个现实世界案例来佐证其观点Claude Code 的子任务智能体 尽管会生成子任务但这些子智能体通常不并行工作也不负责实际写代码只回答特定问题。原因是它们缺乏主智能体的完整上下文无法进行更复杂的任务。并行运行时因缺乏共享上下文可能产生冲突回应。编辑应用模型包括早期 Devin 这种模式让大模型生成编辑指令由小模型执行。但小模型常因指令歧义而误解意图导致错误。反方论点对于目前的多智能体协作模式Cognition 团队持保留态度。他们指出尽管这种模式在概念上类似于人类并行解决问题但目前的智能体尚不具备支撑这类协作所需的长上下文处理能力与主动沟通能力。因此他们判断强行推行多智能体协作反而会削弱系统导致决策分散。他们认为真正的跨 Agent 的上下文同步尚无人系统性解决。等单线程智能体在长上下文交流上更强时多智能体并行才会“水到渠成”。在那之前先把单体做好。LangChain“要灵活的建”LangChain 的研究团队在分析了正反双方关于大语言模型应用的观点后发现尽管表面上看论点对立但实际存在许多共通之处可以提炼两大共同见解上下文工程Context Engineering至关重要。侧重“读取”Read的多智能体系统比侧重“写入”Write的更容易构建。上下文工程构建可靠 AI Agent 的基石当前模型虽然智能但若缺乏必要的任务背景信息仍无法高效工作。如果说“提示工程”是为 LLM 提供静态理想格式的任务描述“上下文工程”则是其进阶在动态系统中自动化地、精确地提供所需上下文。把任务上下文精准、动态地塞进每个 LLM 调用比“提示工程”更复杂 是 agent 系统的头号挑战。LangChain 研究团队认为虽然 Anthropic 的文章虽未明确使用此词但其核心理念与此是不谋而合的。这一见解深刻影响了 LangGraph 的设计。作为一个低级编排框架LangGraph 赋予开发者完全控制权可以精确控制传递给 LLM 的内容、执行步骤及顺序从而实现必要的精细化上下文工程避免隐藏提示或强制特定“认知架构”。读比写先落地侧重于“读取”任务的多智能体系统如信息研究通常比侧重于“写入”任务如代码生成、内容创作的系统更易于管理读取操作比写入操作更易于并行化。尝试并行化写入时需解决代理间的有效沟通及输出的有机合并两大挑战。“操作承载隐含决策冲突决策导致糟糕结果”——尤其对于写入操作冲突决策产生的不可协调的输出问题更为严重。Anthropic 的 Claude 研究系统很好地例证了这一点尽管包含读写但多智能体部分主要负责研究读取而最终的报告合成写入则由一个主智能体集中处理避免了协作写作引入的不必要复杂性。在智能体评估方面LangChain 与 Anthropic 的理念高度重合长跑式 Agent 需要持久化执行、细粒度日志与自动/人工混合评测。LangChain 的 LangSmith 提供了用来做追踪、调试、LLM-as-judge、人类打分的现成能力。最后LangChain 研究团队总结只有当任务价值高、信息面宽且可高度并行时多智能体的 Token “烧钱”才划算。典型就是广域信息研究而大部分代码任务还不够“宽”。总之LangChain 把两家文章折中成一条共识路线先把 Context Engineering 做稳再判断任务是“读多还是写多”再选单体或多体架构并用 LangGraph/LangSmith 之类基础设施把可靠性与评估做到生产级。结语家人们这场由 Anthropic 和 Cognition 围绕“多智能体系统”的精彩辩论虽然没有胜负但是也确实印证了当前 A 多智能体系统的发展确实还是处于充满探索和试错的关键阶段。而 LangChain 的研究团队看到两方辩论的论点后提出了核心并非纠结于“是否构建”而是要看“如何灵活地构建”。这场争论的核心在于如何看待“任务特性”与智能体架构之间的关系。Anthropic 面向研究场景 处理“低依赖、可并行”的研究任务Cognition 则基于在处理“高依赖、紧密耦合”的代码场景LangChain 则从框架视角出发讨论多智能体该不该建。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章