19.1 文献检索与收集

面向经管学生、研究者与从业者的 AI 智能体设计教材

作者

李学恒、林建浩、严翊歆

发布于

2026-05-11

文献检索双路径:Zotero MCP 主路径与外部数据库补充

文献检索有两条路径:从已有的 Zotero 库中搜索,或从外部学术数据库检索新论文。多数研究者的日常场景是两者结合——先在自己的库里找熟悉的文献,再去外部补充遗漏。

Zotero MCP 搜索(主路径)

Zotero MCP 是连接 Zotero 桌面端与 Claude Code 的桥梁。它提供一组读操作工具,可以直接搜索用户已有的文献库。实测中,它在 2924 篇文献的库上运行稳定,14 个读操作工具全部通过测试。

关键词搜索

最常用的工具是 zotero_search_items,按关键词匹配标题、作者和摘要:

▶ Claude Code
在我的 Zotero 库中搜索 loss aversion investment 相关的文献,返回前 10 条结果

搜索结果包含每篇文献的标题、作者、发表日期、摘要摘录和 Zotero 内部 key。这个 key 是后续操作的入口——用它获取全文、导出 BibTeX 或查看标注。

语义搜索

zotero_semantic_search 基于向量索引进行语义匹配,能发现关键词搜索遗漏的相关文献:

▶ Claude Code
用语义搜索在 Zotero 库中查找与 behavioral finance prospect theory 相关的论文

语义搜索返回相似度分数(实测范围 0.2-0.3),帮助判断匹配程度。这个范围在 Zotero MCP 的 ChromaDB 向量数据库中属于正常水平,并不代表匹配效果差。相似度分数偏低时,可以尝试改用更具体的查询表述。

标签搜索

zotero_search_by_tag 按标签精确筛选文献,支持布尔逻辑:

  • AND 逻辑:同时匹配多个标签
  • OR 逻辑:标签内用 || 分隔
  • 排除逻辑:标签前加 -
▶ Claude Code
在 Zotero 库中搜索同时带有 Loss aversion 和 Behavioral finance 标签的文献
搜索策略

建议先用关键词搜索找到核心文献,再用语义搜索扩展范围,最后用标签筛选补充特定主题。三种搜索方式的结果可能有重叠,按 Zotero item key 去重即可。

外部数据库检索(补充路径)

Zotero 库只包含已收录的文献。要发现新论文,需要检索外部学术数据库。paper-lookup 是 K-Dense Scientific Skills 中的文献检索 Skill,通过 HTTP API 调用多个数据库的统一检索接口,无需安装额外软件。读者需要先将 K-Dense Skills 安装到项目的 .claude/skills/ 目录。安装方法:将 K-Dense Scientific Skills 仓库克隆到 .claude/skills/k-dense-scientific/,Claude Code 会自动发现其中的 Skill 文件。

对经济金融领域,四个数据库最为实用:

数据库 特点 适用场景 是否需要 API 密钥
Semantic Scholar 引用图谱、TLDR 摘要、经济学领域过滤 发现高引用论文和引用关系 推荐(避免限流)
OpenAlex 2.5 亿+ 文献、机构和作者过滤 按机构或作者系统检索 推荐
arXiv(econ 分类) 经济学预印本,更新快 跟踪最新工作论文
Crossref DOI 元数据,覆盖面广 用 DOI 获取精确元数据
▶ Claude Code
用 /paper-lookup 在 Semantic Scholar 搜索 network formation game theory 的论文,
限定 Economics 领域(fieldsOfStudy=Economics),返回前 20 条
搜索质量差异

实测发现,各数据库的检索质量差异较大。Semantic Scholar 的领域过滤(fieldsOfStudy=Economics)能有效缩小范围,但加上引用数过滤(minCitationCount)可能过于严格,返回 0 条结果。OpenAlex 按引用数排序时,高引论文往往与搜索主题无关。建议以 Semantic Scholar 为主、Crossref 辅助获取元数据。

经济学数据库的空白

paper-lookup 不覆盖 SSRN、RePEc/IDEAS 和 NBER Working Papers 这三个经济学核心资源。它们没有公开的 REST API。替代方案:手动从这些平台下载论文后导入 Zotero,再通过 Zotero MCP 管理。Google Scholar 可通过 citation-management 的 search_google_scholar.py 脚本检索,但存在 IP 封锁风险,建议每次请求间隔至少 5 秒,避免短时间内大量查询。

去重与初筛

从多个来源收集的文献不可避免地会有重复。去重策略按优先级排列:

  1. DOI 匹配:最可靠的唯一标识符,有 DOI 的论文直接按 DOI 去重
  2. 标题相似度:对没有 DOI 的工作论文,按标题模糊匹配
  3. 作者 + 年份:作为辅助判断条件

初筛阶段,可以让 Claude Code 批量浏览摘要,按相关性打分:

▶ Claude Code
这 30 篇论文摘要来自多源检索结果。我的研究问题是"损失厌恶如何影响个人投资者的交易行为"。
请按相关性从高到低排序,标注每篇的相关程度(高/中/低),并简要说明理由。
将结果保存到 literature_notes/candidate_papers.md。

筛选后保留的文献进入下一阶段——文献管理与 Zotero 交互。