他们给了Agent 1M token的上下文窗口,问题却更糟了
想象这样一个团队:五个历史学家受命合作破译一批十二世纪的商人信件。组织者慷慨地给了每人一台摄像机,可以回放会议室里说过的每一句话——没有遗忘,没有上限。他们开始工作。A提到一个威尼斯商人常用缩写,B记下了,C也记下了;十分钟后所有人都用同一个符号指代“君士坦丁堡”,却没人意识到这个约定从未被写下来。当B四十七分钟后重构完自己那套缩略规则时,A已经换了三套。结果?五份互相矛盾的译文,每个都引用了会议室里某段“明确达成一致”的理解——但那些理解只在拍板的那一刻成立,之后就在记忆的海洋里漂走,无一固化。
这不是团队管理失败的故事。这是arXiv上一篇多智能体协作论文的核心预言。
主流AI行业有一个近乎本能的方向感:上下文窗口越大越好。从GPT-3的4K token,到Claude的100K,到Gemini的1M,再到传言中正在路上的10M扩展。逻辑直白得让人无法反驳——Agent之间的通讯、状态、记忆全在一个视野里,有什么问题?最新Lewis信号博弈实验的答案让这条直觉路径踩了一脚急刹车:拥有持久私有笔记本的智能体在信道容量为25时达到最优协调成功率0.867±0.023,而无状态智能体随着词汇量增长,性能稳步恶化。信道更宽反而更糟。
我们面对的不是容量问题,是结构问题。
为什么更大的上下文窗口救不了Agent团队
要理解这个反直觉的结论,先看无状态LLM在协作中的处境。所谓无状态,就是它除了当前提示窗口里写下的内容,不携带任何跨会话记忆。每轮交互都必须从头推导通信代码。A智能体用了“α”这个符号指代某类交易,B得在上下文里看到几轮示例后才能明白这个符号的含义;等B学会时,A可能已经在用新的符号了。这不是学习,是在流沙上盖房。每轮推倒重来所产生的噪声,在信道容量(即词汇量)增大时反而加剧,因为更多的可选符号意味着更不稳定的约定,每一个新符号都可能冲刷掉刚建立的共识。这个现象——信道越宽,稳定使用共同词汇的概率越低——被研究者称为“高容量崩溃”。
持久私有笔记本直接切断了崩溃的根源。它把智能体在学习过程中达成的约定外部化——写进一个长期保留的符号库,在后续交互中不再需要重新推导。A用“α”指代威尼斯商人,这个约定一旦进入笔记本,B可以直接查询、采纳、引用。智能体不再是每次重新发明符号体系,而是共同维护一个持续进化的术语表。符号库由此变得稳定、可枚举、外部可读。
而稳定符号库的存在,使得一个更深层的架构转变成为可能:约束层可以对输入进行确定性检查。一旦符号库是稳定的,约束层就可以写成一段确定性程序——“α必须在已定义符号集合内”、“交易类别字段必须匹配预设枚举值”——而不是依赖LLM自己判断“这样写对不对”。LLM的角色从信源降格为提议者:它负责生成候选输出,约束层用纯逻辑规则做准入判断。这便是论文里反复出现的架构模式:LLM propose,constraint admit。没有持久笔记本,符号库每轮都在变,约束层根本没有稳定的参照系可依赖;有了笔记本,约束层才能做确定性检查,高容量崩溃才被真正克服。
Mnemosyne架构把这种关系推到了极致。它将生成的动作视为不可信提案,通过一组可执行约束集C进行确定性准入后才提交执行。实验开销不到6%。更重要的是,当检查失败时,系统做的是局部修复而非全局重算,这比传统重试快了近一个数量级。
共享术语表的价值正在于此。团队不是靠记忆会议录像来维持沟通——那是把视频数据当做未来的唯一仲裁者。真正管用的是写在白板上的那张术语定义表,每个人进门就能看到,每个人改动了就更新。
反对者最有力的论点是:Lewis信号博弈本身是一个高度简化的抽象
智能体需要就一组符号和一组对象形成对应关系,通信完成后计算协调成功率。做研究的人都知道,这是一种“证明概念”的实验,任务结构清晰、奖励函数明确、环境状态有限——和真正的Agent应用有天壤之别。反对者的核心挑战是:在真实任务中,上下文窗口的即时上下文或许已足够维持局部协作,持久化记忆带来的额外开销反而可能拖慢交互速度。如果即时上下文的效果不差,那为什么要为笔记本买单?
这个反对意见很结实。在极简、短期、单次的任务中,确实不需要长期约定。两个Agent完成一个三分钟就能解决的协调问题,给它们一个持久笔记本就像给扑克牌桌的选手配一个合同库——既不必要,也浪费。在这样的场景下,即时上下文确实够用,开销成为净负。
但问题是,现实的多智能体协作几乎没有一件属于这种“三分钟”类别。考虑一个长期目标分解任务:Agent A负责监控API行为,Agent B负责调度计算资源,Agent C负责检查合规约束。它们需要跨越数小时的交互,途中可能有Agent重启、会话中断、新约束加入。没有稳定的通信基础,每一次上下文的重载都会丢失前几轮建立的共识。C在检查合规时依据的是三天前的符号约定,A已经换了三套——高容量崩溃以更隐蔽的方式重新出现。在Lewis信号博弈实验中,无状态智能体的性能随着会话轮次增加而恶化,而持久笔记本始终维持稳定。即时上下文在短时任务中表现尚可,一旦任务复杂化,它就从足够变得不足。
而开销担忧已被Mnemosyne的6%开销打破。6%的开销换来的是0.867±0.023的协调成功率——远优于无状态智能体在同等条件下的表现。这笔账就算给最抠门的基础设施经理也算得过来。
方向调整:从更大的窗口到更聪明的记忆
上述事实指向一个结论:扩大上下文窗口不再是提升Agent协作的关键杠杆。
这不是说窗口不重要——在单次、单Agent的复杂推理任务里,大窗口依然有价值。但当你面对的是多智能体、跨会话、需要建立稳定通信基础的场景,延长上下文只是延长了崩塌前的跑道。真正的杠杆是设计轻量级持久化记忆机制,把约定的生成和执行分离开。
这就解释了为什么arXiv上同时涌现的多篇Agent架构论文共同指向了一个方向:从信任LLM输出转向约束验证的执行范式。TypeScript JSON配置替代自由代码,静态Airflow DAG替代动态调度,可执行约束集替代LLM自我审查——这些方案都共享同一个底层判断:LLM擅长提议,但不擅长保证。提议交给生成,保证交给约束。
一个更深层的变化是,Agent开发的技能栈正在从prompt engineering转向约束工程。过去,让Agent稳定协作的方法是写更长的提示模板,把规则塞进system prompt,期望模型能够自我遵守。现在的方法变了:写一个可执行的符号库定义,写一组确定性准入规则,然后在笔记本层面暴露接口给所有Agent。LLM的输出被当作一个候选者,而不是权威的、最终的判断。这个转变像极了软件工程从“信任程序员”到“静态类型检查”的演化——核心变化不是人的能力变弱了,而是系统变得太大了,大到不能靠好意图维持可靠性。
那个共享术语表的类比,到这里可以完整收回来。
项目团队不是靠更好的“回放会议录像”来解决术语混乱的——哪怕录像是4K分辨率、无限时长。他们靠的是一块白板,写着每个人都能看见、都能修改的符号定义。白板本身不智能,但正因为它的简单和外部化,它才能被所有人的理性所检查和遵守。持久私有笔记本是Agent团队的这块白板。
没有它,约束层就无从检查,因为检查的前提是有一个稳定的参照系。没有这个参照系,Agent协作注定在每一次成功建立共识之后,被下一轮重新发明摧毁。信道无限宽,崩塌的起点却始终在那。