10.1 智能体为什么需要知识库

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆、张一帆

最后更新

2026-05-14

10.1 配图

把文档内容放入提示词、让模型阅读后作答，是最直接的知识获取方式。但随着资料规模增长，三个障碍开始显现：

上下文窗口有限。即使模型支持百万 token 上下文，把几百份研报全部纳入也不现实。上下文越长，模型的注意力分配越稀薄，关键信息容易被淹没。
知识有截止日期。模型参数中存储的知识停留在训练时刻。2024 年训练的模型无法了解 2025 年的政策调整和市场变化。
每次从零开始。直接把原始文档交给模型，系统不会记住上一次查询的发现，不会积累对特定公司或行业的理解。每次对话都无法利用之前的知识积累。

这三个障碍指向同一个需求：智能体需要一套外部知识管理机制，将海量文档组织成可检索、可积累、可维护的知识资产。

核心概念

智能体知识库（Agent Knowledge Base）是智能体访问外部知识的基础设施。它负责存储、组织和检索模型参数之外的领域知识，使智能体能够基于最新、准确的信息完成任务。

构建知识库的技术路径不止一条。按照复杂度和知识积累能力的递进关系，本章介绍三种方法：

方法	核心思路	适用规模
嵌入检索（RAG）	将文档切块、向量化，通过语义相似度检索	大规模文档库
文档索引与推理检索	用结构化索引引导智能体逐层定位文档	中小规模项目
知识编译（LLM Wiki）	将原始资料编译为结构化知识条目	持续积累的知识体系

三种方法不是互斥的替代关系，而是解决不同层次问题的工具。RAG 解决”从海量文档中找到相关片段”的问题，文档索引解决”用推理替代嵌入来精准定位”的问题，LLM Wiki 解决”让知识随使用而积累”的问题。

---
title: "10.1 智能体为什么需要知识库"
---

![10.1 配图](images/img_01_knowledge_challenge.webp)

把文档内容放入提示词、让模型阅读后作答，是最直接的知识获取方式。但随着资料规模增长，三个障碍开始显现：

- **上下文窗口有限**。即使模型支持百万 token 上下文，把几百份研报全部纳入也不现实。上下文越长，模型的注意力分配越稀薄，关键信息容易被淹没。
- **知识有截止日期**。模型参数中存储的知识停留在训练时刻。2024 年训练的模型无法了解 2025 年的政策调整和市场变化。
- **每次从零开始**。直接把原始文档交给模型，系统不会记住上一次查询的发现，不会积累对特定公司或行业的理解。每次对话都无法利用之前的知识积累。

这三个障碍指向同一个需求：智能体需要一套外部知识管理机制，将海量文档组织成可检索、可积累、可维护的知识资产。

::: {.callout-important}
## 核心概念

智能体知识库（Agent Knowledge Base）是智能体访问外部知识的基础设施。它负责存储、组织和检索模型参数之外的领域知识，使智能体能够基于最新、准确的信息完成任务。
:::

构建知识库的技术路径不止一条。按照复杂度和知识积累能力的递进关系，本章介绍三种方法：

| 方法 | 核心思路 | 适用规模 |
|:---|:---|:---|
| 嵌入检索（RAG） | 将文档切块、向量化，通过语义相似度检索 | 大规模文档库 |
| 文档索引与推理检索 | 用结构化索引引导智能体逐层定位文档 | 中小规模项目 |
| 知识编译（LLM Wiki） | 将原始资料编译为结构化知识条目 | 持续积累的知识体系 |

三种方法不是互斥的替代关系，而是解决不同层次问题的工具。RAG 解决"从海量文档中找到相关片段"的问题，文档索引解决"用推理替代嵌入来精准定位"的问题，LLM Wiki 解决"让知识随使用而积累"的问题。