LLM记忆管理三层架构
以编写《平台经济学》教材的实践为例,提出应对大模型记忆瓶颈的三层架构:管道记忆(中间产物落盘)、项目记忆(配置与索引)、系统记忆(跨项目记忆银行),强调搭建记忆系统比写好单条 prompt 更具复利价值。

最新一代大语言模型的瓶颈不是智力,是记忆。
这句话在你用 AI 做 5 分钟小活的时候感受不到。但当你试图让它帮你写一本教材——哪怕只是其中三章——问题就暴露了。
本文以编写《平台经济学》教材的经验,拆解应对 AI 记忆缺陷的三层架构——管道记忆、项目记忆、系统记忆,并解释为什么搭建记忆系统比写好单条 prompt 更值得投入。
三层记忆:我的实践框架
前段时间在做一件事:用 AI 辅助编写一本《平台经济学》教材,7 章,从平台定义、网络效应讲到定价策略、竞争监管。不是让 AI 从零生成,而是我定好大纲、选好案例、写好核心模型推导,然后让 AI 帮我扩写正文、编排练习题、统一术语体系。听起来很适合 AI 干的活,对吧?
第一章平台定义与分类写得很顺。我给了大纲和 Belleflamme & Peitz 教材的框架,AI 扩写出来的正文通顺,微信、淘宝、滴滴的案例穿插得当,术语也跟我的约定一致——用网络效应不用网络外部性,用多栖不用多归属。
到第三章网络商品经济学,开始出问题。第一章我用临界规模翻译 critical mass,到了第三章 AI 突然换成了临界质量。我没在 prompt 里重新强调术语规范——我以为它记得。
到第五章平台定价,更离谱。它在讲 Rochet-Tirole 模型的时候引入了一个双边市场的例子,跟第一章里讲平台分类时用的是同一个——淘宝。但两处对淘宝商业模式的描述居然不一致:第一章说淘宝对买家和卖家都免费,第五章说淘宝向卖家收取佣金。两句话都有道理(因为淘宝的收费模式确实演变过),但放在同一本教材里,读者会以为作者精神分裂。
AI 不是变笨了。是它的工作记忆满了。 写第五章的时候,第一章的内容早就被挤出了 context window。它根本不知道自己在第一章写过什么。
这不是 bug,这是 transformer 架构的物理约束。 Context window 是有限的,注意力是稀缺资源,而LLM 没有任何原生机制来区分这条信息以后还要用和这条处理完就可以丢。
写教材是一个特别能暴露这个问题的场景——因为教材的核心要求就是前后一致。术语要一致,案例描述要一致,难度递进要一致,前后章节的引用要对得上。而这些一致性,恰恰需要跨越整本书的长程记忆来维持。
想让 AI 做这种跨度大的事,你绕不开两个根本问题:
第一,有限窗口里放什么。 不是信息越多越好。你把前四章的全文都塞进 context,写第五章的质量反而会下降——模型的注意力被大量已完成的内容分散了,它不知道该关注前文的哪些部分。关键是信噪比:确保 AI 此刻看到的,恰好是它此刻需要的。 写第五章平台定价时,它需要的是术语对照表、前文案例索引、第三章引入的网络效应模型——而不是前四章的全部正文。
第二,长程执行中记住什么。 AI 没有长期记忆。一本教材写几周甚至几个月,每次开新会话,AI 对之前所有的工作一无所知。你上周花两个小时跟它对齐的术语规范——网络效应不是网络外部性,多栖不是多归属——全部归零。你不解决这个问题,每次开工都是从头来。
一个关乎精度,一个关乎持久性。所有的上下文工程和记忆管理,本质上都是在跟这两个约束较劲。
三层记忆:我的实践框架
想明白这两个约束之后,我回头审视自己搭建的工作流,发现解法可以归成三层。不是一开始就设计好了架构,而是反过来——写教材的过程中一个一个问题逼出来的,后来才看出结构。

第一层:任务运行时的管道记忆(Pipeline Memory)
先解释一下背景。现在的 AI 编程工具(比如我用的 Claude Code)可以同时启动多个 AI 助手并行工作——就像一个总编辑带着几个助手编辑同时干活。总编辑负责分配任务和汇总,助手编辑各写各的部分。
写教材的时候,我经常需要同时处理多个子任务。比如一个下午的工作可能是:助手 A 扩写第五章平台定价的 Rochet-Tirole 模型部分,助手 B 为第五章编排淘宝免费策略、美团佣金争议、滴滴动态定价三个中国案例,助手 C 检查前五章的术语一致性。
这里有个陷阱:如果三个助手各自干完把结果全文念给总编辑听,那就是几万字直接灌进总编辑的脑子里。总编辑本来只需要做调度——「A 写完了没?B 的案例跟正文对得上吗?」——结果被淹没在细节里,调度能力反而下降。
解法很简单:助手的产出写进文件,不念给总编辑听。
总编辑(主 AI)
├── 助手 A → 正文写入 ch5_pricing_model.md → 汇报「Rochet-Tirole 部分初稿完成」
├── 助手 B → 案例写入 ch5_cases.md → 汇报「3 个定价案例已生成」
└── 助手 C → 报告写入 consistency_check.md → 汇报「发现 2 处术语不一致」
总编辑始终只看到一句话的状态摘要,脑子保持清醒。 需要某个助手的产出时,再去读文件,按需加载。
这条规则我写进了项目配置文件里作为硬约束。效果立竿见影——总编辑在后期不再失忆,调度判断也更准确了。
你不用 Claude Code 也没关系。核心原则适用于任何多步骤 AI 工作流:中间产物落盘,不要全部堆在对话窗口里。 用 ChatGPT 也一样,长任务拆成多轮,每轮的结果存到本地文档,下一轮只喂必要的摘要。

第二层:项目级记忆(Project Memory)
第一层管的是单次工作内部的信息流。但教材不是一次写完的——这周写第五章定价,下周写第六章设计,下个月回来改第三章网络效应。每次开新会话,AI 对这本教材一无所知,你得从头交代。
这就是第二层要解决的:怎么让 AI 在任何时候打开这个项目,都能快速进入状态?
我给教材项目建了三样东西。
项目配置文件 放在项目根目录,相当于这本教材的编辑手册。里面写了:术语规范(网络效应不是网络外部性,多栖不是多归属,临界规模不是临界质量),写作风格要求(避免翻译腔,中英文之间加空格,专有名词保留英文:Tirole, Rochet, Armstrong),以及完整的文件结构。AI 每次启动自动读这个文件,读完就知道在这个项目里怎么干活。
章节索引 记录每一章的核心内容摘要、用了哪些关键案例、引入了哪些新概念。它的作用是让 AI 快速了解前文脉络——写第五章的时候不需要读完前四章,扫一眼索引就知道全书走到了哪里。这就是给 AI 一张地图,让它自己找路,而不是把整个城市搬进它的脑子。
案例库索引 则专门解决案例一致性问题。7 章共 35 个中国案例,按章节和平台分类索引。它的使用场景跟章节索引不同:不是为了了解全局脉络,而是在写到某个具体案例时,快速查到这个案例在其他章节是怎么描述的。比如 AI 在第五章要用淘宝的例子,查一下案例库就知道第一章把淘宝归为交易型平台,就不会自己编一个不一样的版本。
这三者配合,每次新会话的冷启动成本很低。AI 读完配置文件、术语表和章节索引,十几秒就能进入状态,仿佛一直在跟进这个项目。
第三层:跨项目的系统级记忆(System/User Memory)
前两层都是教材项目内部的。但有些东西不属于这个项目——比如我的 LaTeX 排版偏好、我用 macOS 所以 sed 语法跟 Linux 不同、我习惯用 Quarto 发布网页版教材。这些经验如果每个项目都要重新教一遍,太浪费了。
我在系统目录下建了一个记忆银行,里面存了 50 多个小文件,都是从过去的工作中提炼出来的经验。每次开新会话,系统自动检索相关记忆注入当前 context。
比如我之前写论文的时候发现,让 AI 生成 Markdown 表格时如果不明确要求对齐方式,它会每次都不一样。这个教训存进记忆银行后,我写教材时 AI 自动按统一格式来,不用再提醒。
另一个功能是用户背景。记忆银行里存了我的研究方向(行为博弈论、网络经济学)、教学对象(经济金融专业本科生和硕士生)、写作风格偏好(直觉先行,案例驱动)。AI 写教材的时候,这些背景信息自动生效——比如它知道我的学生不是数学系的,所以模型推导之前会先用案例铺垫直觉。
这一层实现的是经验的跨项目迁移。写论文时学到的排版教训,写教材时自动生效。做笔记系统积累的文件管理经验,开新项目时不用从零摸索。
三层联动:写第五章那天下午发生了什么
说三层怎么配合,不如说那天下午实际发生了什么——包括不顺利的部分。
我启动 Claude Code,它自动加载了系统级记忆(第三层)和项目配置(第二层),几秒钟内就进入了状态。我下达任务:写第五章初稿。总编辑派出 4 个助手——正文、案例、习题、校对各一个,产出全部写入文件(第一层)。
不顺利的地方出在校对助手。它检查术语一致性时发现,第三章的章节索引里漏记了一个概念——间接网络效应在第三章首次引入,但索引里没写。结果正文助手写第五章的时候,不确定这个概念前文是否已经讲过,又重新解释了一遍,跟第三章的表述有细微差异。
我临时补了索引,让正文助手重写了那一段。这件事提醒我:索引文件需要手动维护,漏了就会出问题。 这是这套系统最大的日常成本——不是搭建难,是维护烦。
一个下午下来,第五章初稿、5 个案例、8 道练习题完成。术语全程一致,案例描述跟前文吻合。但前提是索引没有过时——如果我前一周改了第三章的内容却忘了更新索引,同样的问题还会冒出来。
复利工程

回到最初的问题。LLM 的根本瓶颈是记忆,不是智力。所有上下文工程都在解决两件事:有限窗口里的信噪比(精度),和长程执行中的目标保持(持久性)。三层记忆——管道层用文件传递,项目层用配置和索引,系统层用记忆银行——是目前应对这两个约束的实践框架。
Prompt 是线性的,写一次用一次。记忆系统是指数的,每一次积累都在放大未来每一次执行的效果。
写一条好的 prompt,解决的是眼前这一次任务。但搭一套术语规范、建一份章节索引、攒一个记忆银行——这些东西解决的是未来所有同类任务。今天花两个小时写好项目配置文件,接下来写教材的每一个下午都在吃这两个小时的红利。今天把一个踩坑经验存进记忆银行,明年开新项目的时候它自动帮你绕开同一个坑。
不要只优化单次任务的输出,要优化产生输出的系统本身。