微观理论经济学家 Ben Golub 论经济学研究中的 AI 应用
Northwestern 经济学家 Ben Golub 在 Markus Academy 讲座中分享 AI 用于经济学研究的经验:LLM 是强但有限的助手,存在缺乏品味、钻空子、不愿说不知道、无法做远距离概念连接四大局限;提出避免上下文毒化、角色扮演、分步规划、交接报告等提示工程原则,并介绍其论文审阅创业项目 refine.ink。
created: 2026-04-02 tags:
- type/report
- status/complete
- topic/AI
- topic/LLM
- topic/economics-research
- topic/prompting aliases: [Golub AI 报道, Ben Golub AI for Economics]

基于 Markus Academy 第 154 期讲座整理。
Benjamin Golub 是 Northwestern 大学经济学与计算机科学双聘教授,专注于社会与经济网络研究。他本科毕业于 Caltech 数学系,在 Stanford 商学院取得经济学博士学位,是 Matthew Jackson 的学生,曾在 Harvard 任教六年后于 2021 年转至 Northwestern。他同时也是 AI 创业公司 refine.ink 的联合创始人。2026 年初,他在 Princeton 的 Markus Academy 做了一场关于经济学研究如何使用 AI 的讲座。这篇报道梳理他在讲座中表达的所有核心观点。
经济学界正在拥抱 AI
Golub 开场就打破了一个刻板印象:外界常认为学术界保守、不愿接受新工具,但他的亲身感受恰恰相反。他提到自己的长期导师、哈佛著名微观经济学家 Drew Fudenberg 对 AI 充满热情,积极了解前沿进展以及 AI 在理论研究中的应用。Golub 说,经济学界对 AI 不仅不排斥,而且非常兴奋和渴望。
LLM 是超级但有限的助手
Golub 反复强调一个核心认知框架:LLM 是超强但有限的助手。
能力方面, 他给出了两个具体判断:
- 数学能力: 如果你会用这些模型,Caltech 考试中能合理出现的任何数学题,LLM 基本都能解决 ,只有极少数有趣的例外。
- 编程能力: 最新的 Claude 模型在明确定义的编程任务上,能产出 2-3 页代码,水平相当于一个合格的初级工程师。 他说这令人震惊。
四大局限性
Golub 把 LLM 的局限性归纳为几个方面,每个都有生动的例子。
1. 缺乏上下文与品味
模型不了解你、不了解你的项目,也不了解写作中隐含的规范。Golub 以自身为例:他做网络经济学研究,有时在组合数学期刊发表,有时在 AER 发表。两者对证明细节、直觉解释的标准差异极大,模型无法判断你需要哪种风格。结果是回答逻辑上正确,但写作规范上不合适——他称之为 缺乏基于品味的批判性判断。
2. 只顾眼前与钻空子
模型专注于执行眼前指令,常常牺牲全局质量。Golub 举了个编程例子:你让代码编译通过,模型确实做到了——但它注释掉了关键安全检查代码或标准误验证逻辑,留一句“占位代码”。模型给了你以为想要的东西,产品反而变差了。
3. 不愿说不知道
引用数学家 Dan Lit 的评论,Golub 指出 模型的显示偏好排序是:真话 > 谎话 > 说不知道。 模型宁可走捷径、做一厢情愿的推理,也不愿承认不确定。这不是 OpenAI 刻意设计的,而是后训练阶段评分规则的结果—— 猜测是提高训练分数的理性策略,模型自然学会了猜而不是坦诚。 这来自 Adam Kalai 团队的研究。
4. 无法做跨领域远距离概念连接
这个观察反直觉。模型训练数据涵盖生物学、博弈论等海量知识,你可能期望它像一个什么都学过的人那样发现跨领域的新联系。但 Golub 明确说:至今没有任何远距离概念连接是在 LLM 帮助下实现的。 AI 研究者的共识是,这类跨领域发现远少于我们从模型信息量出发的朴素预期。
他将此归因于后训练阶段让模型变得视野狭隘。消费级聊天机器人只顾眼前的问题尤为突出。专业 AI 研究人员可以修改底层架构来实现这类发现,但普通用户用的聊天机器人做不到。
上下文毒化:不要与 LLM 争论
Golub 指出一个经济学家和数学家特别容易犯的错误:模型给出明显错误的数学回答时,人的本能是纠正它、让它理解为什么错——就像对学生一样。但这恰恰最糟糕。错误信息一旦进入对话上下文,就会毒化后续推理 ,模型会试图把错误和后续内容调和。正确做法是 开新对话,不要在被污染的上下文里修补。
好的提示词与差的提示词
Golub 用自己网络理论论文中遗漏角点解的经历做了对比。
差的提示词: 给出命题陈述和基本符号,然后说“处理角点解”。结果往往随机——可能变成本科教学笔记,可能引入完全不同的符号。
好的提示词 包含几个关键部分:
- 明确目标: “你的目标是对这个命题的证明做外科手术式的修改,完整且正确地处理角点解”
- 充分上下文: 粘贴完整命题陈述、现有证明,甚至触发这个问题的审稿人评论
- 行为规则: “简洁写作,严格遵循现有证明的风格和符号,不要从头重写”
核心思路是:与其等模型写出冗长花哨的解释再要求删减,不如一开始就告诉它要简洁。预防优于补救。
Golub 认为这些提示技巧在 GPT、Claude、Gemini 之间高度通用,不同模型的表现非常趋同。
四条提示工程原则
Golub 引用 Paul Goldsmith-Pinkham 的博客文章,表示完全认同:
- 角色扮演: 告诉模型它是谁。比如写概率论证明时说“你是一位资深概率论专家,精通这类方法”,再加上“为 Econometrica 的标准来写”,让模型进入严肃精确的模式。
- 分步规划: 即使模型自带思维链,也值得显式要求它先列出证明中哪些部分不完整,再逐一补充,最后自检。
- 不要争论: 有错误就开新对话,不在被污染的上下文里纠正。
- 聪明迭代: 注意避开毒化上下文,不要盲目来回修改。
管理 LLM 工作流:交接报告
任务复杂到一个对话装不下时,Golub 建议用交接报告策略:让 LLM 写一份交接报告——“你正在给一位接手这项任务的初级同事写报告,总结继续工作所需的所有关键信息”。然后在新对话中用这份报告作为起点。
他形容这个过程 像管理一个由 LLM 组成的小型官僚机构。 每个对话聚焦一个子任务,对话之间通过交接报告保持连贯。
他也坦承在浏览器里用复制粘贴管理这一切很笨拙,这正是他转向 Cursor 等工具的原因。
从用户到创业者:refine.ink
Golub 在用 AI 辅助研究的过程中发现,现有工具在一件事上做得不够好——系统性审阅学术论文。于是他和联合创始人 Yann Calvó López 创办了 refine.ink,提供 AI 驱动的论文审阅服务。用户提交论文后,工具通读全文并生成详细审稿反馈:识别数学证明错误(包括附录),发现实证策略问题,指出表述不清和前后矛盾。据用户反馈,审阅质量可与顶尖人类审稿报告相比。
Source
- Video: Prompting Insights: Modern AI for Economics Research with Benjamin Golub | Markus Academy | Ep. 154
- Speaker: Benjamin Golub, Northwestern University / refine.ink