21.1 实证研究的八阶段与 AI 的定位
面向经管学生、研究者与从业者的 AI 智能体设计教材

想象你第一次想自己做一篇实证论文。你选定了一个问题——比如最低工资上调是否减少了低薪就业。打开教材里的复现包,你会发现一篇标准 DID(双重差分)论文背后的机械工作量惊人:从公开数据库批量下载并清洗面板(同一批个体在多年里的观测数据),4 到 6 周;调试主回归并设置固定效应(控制不随时间变化的个体特征和不随个体变化的时间冲击);把稳健性矩阵几十种规范(同一研究问题换不同模型设定再跑一遍)挨个跑一遍,再花 2 到 3 周;最后把表格图形排成期刊格式,又是数日。这些工作几乎不需要研究判断,但每一步都容易出错。
Brynjolfsson 等人 (2025, QJE) 的田野实验给了一个让人意外的发现:AI 辅助带来的生产率提升集中在机械性任务,新手与低技能工作者收益最大。换句话说,最受益于 AI 智能体的,恰恰是第一次做实证项目的本科生和初级研究助理。本章假设你具备本科经济学与统计基础(会 OLS、知道系数和 p 值),但不要求你学过计量经济学高级专题,也不要求你会写 Stata 代码——所有脚本都由 Claude Code 在你给出自然语言指令后生成。本章涉及的因果识别术语(如 DID、固定效应、聚类标准误)会在第一次出现时给出通俗注解。这套分工下,研究者需要保留两件事:在每个判断节点把研究方向把住,在脚本完成后看懂结果。
什么是实证研究
实证研究用真实世界的数据检验经济理论或量化政策效应。它的最终产物是一个可被独立验证的因果或描述性结论,通常以一张主表加几张稳健性表的形式出现在论文里。
定义:用真实观测数据检验经济命题、量化经济关系的研究范式。
与理论研究的区别:理论研究用数学推导发展新命题,实证研究用数据检验命题在现实中是否成立。
与模拟研究的区别:模拟研究(如 DSGE 校准)用虚拟数据测试模型机制,实证研究用真实观测数据识别实际效应。
实证研究的常见问题可以粗分三类。因果识别关注某个原因对某个结果的影响,要求排除混淆因素,例如最低工资上调是否减少了低薪就业。描述性证据记录现实中的规律和趋势,不主张因果,例如 2000 年到 2020 年中国制造业的城乡工资差距。预测基于已有数据预测未观察到的结果,例如用企业特征预测下季度违约概率。三类问题在论文中常常混合出现,但识别策略(怎么从数据里把因果效应识别出来)和评估标准截然不同。本章聚焦因果识别类问题——这也是经济学顶刊的主流范式。
- DID(双重差分):比较”接受政策的一组”在政策前后的变化,再减去”没接受政策的一组”在同期的变化,把政策真正带来的影响隔离出来。典型应用:最低工资立法对就业的影响,处理时点不同的州互为对照
- IV(工具变量):当处理变量本身受到无法观测因素干扰(计量里称”内生性”)时,找一个只影响处理、不直接影响结果的外部变量当中介。典型应用:用越战征兵抽签号研究服役对工资的影响
- RDD(断点回归):在某个阈值两侧的单元几乎只在是否受处理上有差异,比较两侧结果。典型应用:超过某分数线获得奖学金对毕业率的影响
- SCM(合成控制):用多个没受政策影响的单元加权平均构造一个”虚拟对照”(即如果没有政策本来会发生什么)。典型应用:用其他州合成”没有禁烟的加州”,估计加州禁烟对烟草销量的影响
四种方法的细节都超出本章范围,请参阅计量经济学教材。本章只要你认得这四个名字、知道大致用在哪种问题上即可。全章会以 DID 为主线展开。
实证研究的八阶段工作流
实证研究从来不是一条直线,但在大多数顶刊的复现包里能辨认出一条相对稳定的操作序列。下表把它整理成八个阶段,并对每阶段标注两个维度:AI 自主度(Claude Code 当前能做到什么程度)和 HITL 节点(哪些决定必须由人完成)。表里出现的”频率对齐”指把日度/月度/季度数据统一到同一时间粒度,“面板平衡”指让每个个体在每个时期都有观测,“稳健性矩阵”指把主回归换不同设定再跑出来的多列结果。
| 阶段 | 内容 | AI 自主度 | HITL 节点 |
|---|---|---|---|
| 1. 研究问题与识别假设 | 确定因果逻辑、选择识别策略 | 低(辅助) | 必须 |
| 2. 数据拉取 | API 调用、批量下载、格式解析 | 高 | 否 |
| 3. 数据清洗 | 缺失处理、异常检测、频率对齐、面板平衡 | 中 | 样本规则需确认 |
| 4. 描述统计与可视化 | 汇总表、分布图、时序图 | 高 | 否 |
| 5. 主回归 | 因果识别方法实现、系数提取 | 中 | 规范需确认 |
| 6. 稳健性检验矩阵 | 替换估计量、控制变量、样本范围 | 高 | 矩阵边界需确认 |
| 7. 表格图形生成 | LaTeX/RTF 输出、期刊格式 | 高 | 否 |
| 8. 复现包组织 | 目录结构、README、数据说明 | 高 | 结论措辞需确认 |
在自动化流程的关键节点暂停,由人确认或修改后再继续执行的协作模式。本章所有 Skill 和子代理在 HITL 节点会主动停下来等你确认,不会自作主张推进到下一步。
四个阶段值得多说几句。第 1 阶段的”低自主度”不是 AI 没用,而是识别假设的选择必须由你主导:为什么这个问题适合 DID 而不是 RDD?处理组定义为哪批州合理?这类判断 AI 只能辅助梳理,最终拍板必须是研究者。
第 3 阶段是混合区。AI 写得出清洗脚本,但”哪些样本纳入、哪些剔除”是研究设计问题,必须 HITL 确认,否则你的回归样本和描述统计样本可能在不知不觉中错位。
第 5 阶段的 HITL 体现在主回归规范上:固定效应结构(吸收哪些维度的不可观测差异)、聚类层级(标准误怎么聚类才能反映真实的不确定性)、控制变量集(放进回归的解释变量),都需要研究者亲自审定。主回归指的是论文主表第 1 列那一组用基准规范跑出的核心估计结果。
第 6 阶段的”矩阵边界”指你愿意把稳健性扩展到哪些维度。稳健性矩阵就是在主回归基础上系统替换估计量、控制变量、样本范围后批量重跑得到的多列结果,AI 可以并行跑完整矩阵,前提是你说清楚边界。
第 2、4、7、8 阶段 AI 自主度最高。共同特点是目标清晰、验证容易:拉到数据就知道格式对不对,画出分布图就看得出有没有异常,跑出 LaTeX 表格就知道列对不对得上。把这些工作交给智能体,研究者的时间才能集中到第 1、3、5、6 阶段的判断节点上。
人和 AI 在实证流程中的分工
Korinek (2024, JEL) 的综述把生成式 AI 在经济研究中的用途分为六类:创意激发、写作辅助、背景检索、数据分析、编程实现、数学推导。本章只覆盖其中两类——数据分析和编程实现。它们占实证研究总耗时的大头,也是 Claude Code 当前最擅长的领域。这一选择背后有三条分工原则。
第一条:识别假设、样本定义、结论措辞由研究者主导。 Korinek (2025) 反复强调:多智能体系统擅长承担子任务分工,但研究设计的顶层决定不能外包。Ludwig 等人 (2025) 进一步指出,用 LLM”分析”数据得到的是预测性相关,因果识别需要研究者对识别假设承担责任,不能由模型代劳。识别假设选错了,后面所有估计的可信度都归零——这是研究者无法回避的专业判断。
第二条:数据拉取、稳健性矩阵、表格图形排版可以大量交给 AI。 这三类工作目标明确、验证容易,正是 Brynjolfsson 等人观察到生产率提升最显著的机械性任务。Goldsmith-Pinkham 在 Princeton Markus Academy 系列演示了用 Claude Code 完成 Census 数据管线、SEC EDGAR Web 爬取、HMDA 18 年面板的大数据集处理,自述日常约 90% 的工作通过 Claude Code 完成。Callaway-Sant’Anna 估计量 (csdid) 的作者 Sant’Anna 在个人网站公开了配置,采用多子代理加质量门禁的工作流。两位活跃的计量经济学家从不同方向印证了这条路径的可行性。
第三条:数据清洗与主回归规范是混合区,必须设 HITL 节点。 清洗脚本 AI 写得很快,但”删哪些异常值、保留哪些样本”是关于研究设计的判断;主回归的固定效应结构和聚类层级,AI 可以给出常见做法,但最终规范必须研究者亲自审定。
苏黎世大学 Yanagizawa-Drott 团队的 APEP 项目让 AI 全自动写论文,截至 2026 年 3 月已生成 592 篇以上经济学论文。Goldsmith-Pinkham 分析后发现,其中 73.8% 的论文使用 DID,远高于 NBER(美国国家经济研究局)工作论文中的对应比例。AI 倾向于选”即插即用”的方法,回避真正需要领域判断的识别设计——这恰恰反衬了为什么顶层研究设计不能外包。
Claude Code 四件套与实证流程的对应
实证项目并不是把 Claude Code 的四件套机械装上就能跑。每个部件在实证情境里都有自己的特殊用法。下表给出对应关系。
| 部件 | 在实证项目中的特殊用法 | 对应八阶段 |
|---|---|---|
| CLAUDE.md | 锁 Stata 版本、固定随机种子、规定变量命名约定、声明数据路径只读、写入 AI 使用披露条款 | 全程约束(阶段 1-8) |
| Skills | 把每个流程模块封装为可触发指令:data-clean、did-estimate、robustness、replication-pack |
阶段 2-3、5、6、8 |
| 子代理 | 并行跑稳健性矩阵:dataprep-agent → estimator-agent → reviewer-agent 的分工 |
阶段 3、5-6、7-8 |
| Hooks | 拦截未含 set seed 的新 do 文件、扫描聚类标准误、强制主回归后等审阅 |
阶段 5-7 质量门禁 |
CLAUDE.md 在实证项目里比一般工程项目更重,原因是复现要求高(Stata 版本不同结果可能不同)、学术诚信红线多(随机种子、样本边界改动都必须留痕)。AEA DCAS v1.0 是美国经济学会的数据与代码可用性政策,要求复现包包含原始数据获取脚本、清洗脚本、按运行顺序编号的分析脚本和 README,目标是让第三方研究者能重现所有表格与图形。本章项目骨架以 DCAS 为基线。最简化的顶层结构如下。
min-wage-did/
├── CLAUDE.md # 项目规则:路径、种子、版本、披露
├── data/ # 原始数据 + 清洗后面板(分层管理)
├── code/ # 按运行顺序编号的脚本
├── output/ # 表格、图形产出
├── .claude/ # Skills、子代理、Hooks、规则文件配置
└── README.md # AEA 格式复现说明本章的案例与不涉及内容
本章的所有机制都落在一个具体案例上:各州最低工资提高是否减少了低薪就业岗位数量?这是 Cengiz 等人 (2019, QJE) 的论文主题,引用超过千次。DID 的识别逻辑是双重差分:先算处理组政策前后结果变量的变化(第一重差),再减去控制组同期的变化(第二重差),净出不受基础时间趋势干扰的政策效应——本案例采用的就是这一识别策略。选择这个案例有三个理由:数据公开(QCEW 可从 BLS 批量下载,复现包可分发),方法经典(渐进 DID——不同州在不同年份接受政策的多期 DID——覆盖了当代因果推断的主要工具),结论有争议(政策含义直接,研究者判断空间大)。
本章不覆盖统计推导、写作修辞和 RAG 基础设施。读者须已掌握 CLAUDE.md、Skills、子代理、Hooks 的基本用法。本章的任务是把这些组件组合成一套能真正跑实证研究的工作流。