他们给了Agent 1M token的上下文窗口，问题却更糟了

想象这样一个团队：五个历史学家受命合作破译一批十二世纪的商人信件。组织者慷慨地给了每人一台摄像机，可以回放会议室里说过的每一句话——没有遗忘，没有上限。他们开始工作。A提到一个威尼斯商人常用缩写，B记下了，C也记下了；十分钟后所有人都用同一个符号指代“君士坦丁堡”，却没人意识到这个约定从未被写下来。当B四十七分钟后重构完自己那套缩略规则时，A已经换了三套。结果？五份互相矛盾的译文，每个都引用了会议室里某段“明确达成一致”的理解——但那些理解只在拍板的那一刻成立，之后就在记忆的海洋里漂走，无一固化。

这不是团队管理失败的故事。这是arXiv上一篇多智能体协作论文的核心预言。

主流AI行业有一个近乎本能的方向感：上下文窗口越大越好。从GPT-3的4K token，到Claude的100K，到Gemini的1M，再到传言中正在路上的10M扩展。逻辑直白得让人无法反驳——Agent之间的通讯、状态、记忆全在一个视野里，有什么问题？最新Lewis信号博弈实验的答案让这条直觉路径踩了一脚急刹车：拥有持久私有笔记本的智能体在信道容量为25时达到最优协调成功率0.867±0.023，而无状态智能体随着词汇量增长，性能稳步恶化。信道更宽反而更糟。

我们面对的不是容量问题，是结构问题。

为什么更大的上下文窗口救不了Agent团队

要理解这个反直觉的结论，先看无状态LLM在协作中的处境。所谓无状态，就是它除了当前提示窗口里写下的内容，不携带任何跨会话记忆。每轮交互都必须从头推导通信代码。A智能体用了“α”这个符号指代某类交易，B得在上下文里看到几轮示例后才能明白这个符号的含义；等B学会时，A可能已经在用新的符号了。这不是学习，是在流沙上盖房。每轮推倒重来所产生的噪声，在信道容量（即词汇量）增大时反而加剧，因为更多的可选符号意味着更不稳定的约定，每一个新符号都可能冲刷掉刚建立的共识。这个现象——信道越宽，稳定使用共同词汇的概率越低——被研究者称为“高容量崩溃”。

持久私有笔记本直接切断了崩溃的根源。它把智能体在学习过程中达成的约定外部化——写进一个长期保留的符号库，在后续交互中不再需要重新推导。A用“α”指代威尼斯商人，这个约定一旦进入笔记本，B可以直接查询、采纳、引用。智能体不再是每次重新发明符号体系，而是共同维护一个持续进化的术语表。符号库由此变得稳定、可枚举、外部可读。

而稳定符号库的存在，使得一个更深层的架构转变成为可能：约束层可以对输入进行确定性检查。一旦符号库是稳定的，约束层就可以写成一段确定性程序——“α必须在已定义符号集合内”、“交易类别字段必须匹配预设枚举值”——而不是依赖LLM自己判断“这样写对不对”。LLM的角色从信源降格为提议者：它负责生成候选输出，约束层用纯逻辑规则做准入判断。这便是论文里反复出现的架构模式：LLM propose，constraint admit。没有持久笔记本，符号库每轮都在变，约束层根本没有稳定的参照系可依赖；有了笔记本，约束层才能做确定性检查，高容量崩溃才被真正克服。

Mnemosyne架构把这种关系推到了极致。它将生成的动作视为不可信提案，通过一组可执行约束集C进行确定性准入后才提交执行。实验开销不到6%。更重要的是，当检查失败时，系统做的是局部修复而非全局重算，这比传统重试快了近一个数量级。

共享术语表的价值正在于此。团队不是靠记忆会议录像来维持沟通——那是把视频数据当做未来的唯一仲裁者。真正管用的是写在白板上的那张术语定义表，每个人进门就能看到，每个人改动了就更新。

反对者最有力的论点是：Lewis信号博弈本身是一个高度简化的抽象

智能体需要就一组符号和一组对象形成对应关系，通信完成后计算协调成功率。做研究的人都知道，这是一种“证明概念”的实验，任务结构清晰、奖励函数明确、环境状态有限——和真正的Agent应用有天壤之别。反对者的核心挑战是：在真实任务中，上下文窗口的即时上下文或许已足够维持局部协作，持久化记忆带来的额外开销反而可能拖慢交互速度。如果即时上下文的效果不差，那为什么要为笔记本买单？

这个反对意见很结实。在极简、短期、单次的任务中，确实不需要长期约定。两个Agent完成一个三分钟就能解决的协调问题，给它们一个持久笔记本就像给扑克牌桌的选手配一个合同库——既不必要，也浪费。在这样的场景下，即时上下文确实够用，开销成为净负。

但问题是，现实的多智能体协作几乎没有一件属于这种“三分钟”类别。考虑一个长期目标分解任务：Agent A负责监控API行为，Agent B负责调度计算资源，Agent C负责检查合规约束。它们需要跨越数小时的交互，途中可能有Agent重启、会话中断、新约束加入。没有稳定的通信基础，每一次上下文的重载都会丢失前几轮建立的共识。C在检查合规时依据的是三天前的符号约定，A已经换了三套——高容量崩溃以更隐蔽的方式重新出现。在Lewis信号博弈实验中，无状态智能体的性能随着会话轮次增加而恶化，而持久笔记本始终维持稳定。即时上下文在短时任务中表现尚可，一旦任务复杂化，它就从足够变得不足。

而开销担忧已被Mnemosyne的6%开销打破。6%的开销换来的是0.867±0.023的协调成功率——远优于无状态智能体在同等条件下的表现。这笔账就算给最抠门的基础设施经理也算得过来。

方向调整：从更大的窗口到更聪明的记忆

上述事实指向一个结论：扩大上下文窗口不再是提升Agent协作的关键杠杆。

这不是说窗口不重要——在单次、单Agent的复杂推理任务里，大窗口依然有价值。但当你面对的是多智能体、跨会话、需要建立稳定通信基础的场景，延长上下文只是延长了崩塌前的跑道。真正的杠杆是设计轻量级持久化记忆机制，把约定的生成和执行分离开。

这就解释了为什么arXiv上同时涌现的多篇Agent架构论文共同指向了一个方向：从信任LLM输出转向约束验证的执行范式。TypeScript JSON配置替代自由代码，静态Airflow DAG替代动态调度，可执行约束集替代LLM自我审查——这些方案都共享同一个底层判断：LLM擅长提议，但不擅长保证。提议交给生成，保证交给约束。

一个更深层的变化是，Agent开发的技能栈正在从prompt engineering转向约束工程。过去，让Agent稳定协作的方法是写更长的提示模板，把规则塞进system prompt，期望模型能够自我遵守。现在的方法变了：写一个可执行的符号库定义，写一组确定性准入规则，然后在笔记本层面暴露接口给所有Agent。LLM的输出被当作一个候选者，而不是权威的、最终的判断。这个转变像极了软件工程从“信任程序员”到“静态类型检查”的演化——核心变化不是人的能力变弱了，而是系统变得太大了，大到不能靠好意图维持可靠性。

那个共享术语表的类比，到这里可以完整收回来。

项目团队不是靠更好的“回放会议录像”来解决术语混乱的——哪怕录像是4K分辨率、无限时长。他们靠的是一块白板，写着每个人都能看见、都能修改的符号定义。白板本身不智能，但正因为它的简单和外部化，它才能被所有人的理性所检查和遵守。持久私有笔记本是Agent团队的这块白板。

没有它，约束层就无从检查，因为检查的前提是有一个稳定的参照系。没有这个参照系，Agent协作注定在每一次成功建立共识之后，被下一轮重新发明摧毁。信道无限宽，崩塌的起点却始终在那。