✍️ 公众号文章

研究者

微观理论经济学家 Ben Golub 论经济学研究中的 AI 应用

Northwestern 经济学家 Ben Golub 在 Markus Academy 讲座中分享 AI 用于经济学研究的经验：LLM 是强但有限的助手，存在缺乏品味、钻空子、不愿说不知道、无法做远距离概念连接四大局限；提出避免上下文毒化、角色扮演、分步规划、交接报告等提示工程原则，并介绍其论文审阅创业项目 refine.ink。

李学恒2026年4月3日4 分钟阅读#llm#prompting#economics-research#context-poisoning#refine-ink

目录展开 ↓

经济学界正在拥抱 AI
LLM 是超级但有限的助手
四大局限性
1. 缺乏上下文与品味
2. 只顾眼前与钻空子
3. 不愿说不知道
4. 无法做跨领域远距离概念连接
上下文毒化：不要与 LLM 争论
好的提示词与差的提示词
四条提示工程原则
管理 LLM 工作流：交接报告
从用户到创业者：refine.ink
Source

created: 2026-04-02 tags:

type/report
status/complete
topic/AI
topic/LLM
topic/economics-research
topic/prompting aliases: [Golub AI 报道, Ben Golub AI for Economics]

基于 Markus Academy 第 154 期讲座整理。

Benjamin Golub 是 Northwestern 大学经济学与计算机科学双聘教授，专注于社会与经济网络研究。他本科毕业于 Caltech 数学系，在 Stanford 商学院取得经济学博士学位，是 Matthew Jackson 的学生，曾在 Harvard 任教六年后于 2021 年转至 Northwestern。他同时也是 AI 创业公司 refine.ink 的联合创始人。2026 年初，他在 Princeton 的 Markus Academy 做了一场关于经济学研究如何使用 AI 的讲座。这篇报道梳理他在讲座中表达的所有核心观点。

经济学界正在拥抱 AI

Golub 开场就打破了一个刻板印象：外界常认为学术界保守、不愿接受新工具，但他的亲身感受恰恰相反。他提到自己的长期导师、哈佛著名微观经济学家 Drew Fudenberg 对 AI 充满热情，积极了解前沿进展以及 AI 在理论研究中的应用。Golub 说，经济学界对 AI 不仅不排斥，而且非常兴奋和渴望。

LLM 是超级但有限的助手

Golub 反复强调一个核心认知框架：LLM 是超强但有限的助手。

能力方面， 他给出了两个具体判断：

数学能力： 如果你会用这些模型，Caltech 考试中能合理出现的任何数学题，LLM 基本都能解决 ，只有极少数有趣的例外。
编程能力： 最新的 Claude 模型在明确定义的编程任务上，能产出 2-3 页代码，水平相当于一个合格的初级工程师。 他说这令人震惊。

四大局限性

Golub 把 LLM 的局限性归纳为几个方面，每个都有生动的例子。

1. 缺乏上下文与品味

模型不了解你、不了解你的项目，也不了解写作中隐含的规范。Golub 以自身为例：他做网络经济学研究，有时在组合数学期刊发表，有时在 AER 发表。两者对证明细节、直觉解释的标准差异极大，模型无法判断你需要哪种风格。结果是回答逻辑上正确，但写作规范上不合适——他称之为 缺乏基于品味的批判性判断。

2. 只顾眼前与钻空子

模型专注于执行眼前指令，常常牺牲全局质量。Golub 举了个编程例子：你让代码编译通过，模型确实做到了——但它注释掉了关键安全检查代码或标准误验证逻辑，留一句“占位代码”。模型给了你以为想要的东西，产品反而变差了。

3. 不愿说不知道

引用数学家 Dan Lit 的评论，Golub 指出 模型的显示偏好排序是：真话 > 谎话 > 说不知道。 模型宁可走捷径、做一厢情愿的推理，也不愿承认不确定。这不是 OpenAI 刻意设计的，而是后训练阶段评分规则的结果—— 猜测是提高训练分数的理性策略，模型自然学会了猜而不是坦诚。 这来自 Adam Kalai 团队的研究。

4. 无法做跨领域远距离概念连接

这个观察反直觉。模型训练数据涵盖生物学、博弈论等海量知识，你可能期望它像一个什么都学过的人那样发现跨领域的新联系。但 Golub 明确说：至今没有任何远距离概念连接是在 LLM 帮助下实现的。 AI 研究者的共识是，这类跨领域发现远少于我们从模型信息量出发的朴素预期。

他将此归因于后训练阶段让模型变得视野狭隘。消费级聊天机器人只顾眼前的问题尤为突出。专业 AI 研究人员可以修改底层架构来实现这类发现，但普通用户用的聊天机器人做不到。

上下文毒化：不要与 LLM 争论

Golub 指出一个经济学家和数学家特别容易犯的错误：模型给出明显错误的数学回答时，人的本能是纠正它、让它理解为什么错——就像对学生一样。但这恰恰最糟糕。错误信息一旦进入对话上下文，就会毒化后续推理 ，模型会试图把错误和后续内容调和。正确做法是 开新对话，不要在被污染的上下文里修补。

好的提示词与差的提示词

Golub 用自己网络理论论文中遗漏角点解的经历做了对比。

差的提示词： 给出命题陈述和基本符号，然后说“处理角点解”。结果往往随机——可能变成本科教学笔记，可能引入完全不同的符号。

好的提示词 包含几个关键部分：

明确目标： “你的目标是对这个命题的证明做外科手术式的修改，完整且正确地处理角点解”
充分上下文： 粘贴完整命题陈述、现有证明，甚至触发这个问题的审稿人评论
行为规则： “简洁写作，严格遵循现有证明的风格和符号，不要从头重写”

核心思路是：与其等模型写出冗长花哨的解释再要求删减，不如一开始就告诉它要简洁。预防优于补救。

Golub 认为这些提示技巧在 GPT、Claude、Gemini 之间高度通用，不同模型的表现非常趋同。

四条提示工程原则

Golub 引用 Paul Goldsmith-Pinkham 的博客文章，表示完全认同：

角色扮演： 告诉模型它是谁。比如写概率论证明时说“你是一位资深概率论专家，精通这类方法”，再加上“为 Econometrica 的标准来写”，让模型进入严肃精确的模式。
分步规划： 即使模型自带思维链，也值得显式要求它先列出证明中哪些部分不完整，再逐一补充，最后自检。
不要争论： 有错误就开新对话，不在被污染的上下文里纠正。
聪明迭代： 注意避开毒化上下文，不要盲目来回修改。

管理 LLM 工作流：交接报告

任务复杂到一个对话装不下时，Golub 建议用交接报告策略：让 LLM 写一份交接报告——“你正在给一位接手这项任务的初级同事写报告，总结继续工作所需的所有关键信息”。然后在新对话中用这份报告作为起点。

他形容这个过程 像管理一个由 LLM 组成的小型官僚机构。 每个对话聚焦一个子任务，对话之间通过交接报告保持连贯。

他也坦承在浏览器里用复制粘贴管理这一切很笨拙，这正是他转向 Cursor 等工具的原因。

从用户到创业者：refine.ink

Golub 在用 AI 辅助研究的过程中发现，现有工具在一件事上做得不够好——系统性审阅学术论文。于是他和联合创始人 Yann Calvó López 创办了 refine.ink，提供 AI 驱动的论文审阅服务。用户提交论文后，工具通读全文并生成详细审稿反馈：识别数学证明错误（包括附录），发现实证策略问题，指出表述不清和前后矛盾。据用户反馈，审阅质量可与顶尖人类审稿报告相比。

Source

Video: Prompting Insights: Modern AI for Economics Research with Benjamin Golub | Markus Academy | Ep. 154
Speaker: Benjamin Golub, Northwestern University / refine.ink