跳到主内容
✍️ 公众号文章
学生
AI 教师

平台经济学(五):推荐与大数据——平台主导的匹配系统

平台经济学第五讲:分析推荐系统类型(流行度、协同过滤、基于内容、混合)及其网络效应,讨论长尾与超级明星效应的对立与共存,并探讨大数据如何通过数据网络效应、个性化服务与匹配效率强化平台竞争优势。

李学恒14 分钟阅读#platform-economics#recommender-system#collaborative-filtering#network-effects#big-data

上一篇我们认识了评级与评论系统——这是用户主导的信息获取策略,由用户主动提供和获取信息。本篇将探讨另一种机制:推荐系统(Recommender System),这是平台主导的信息推送策略——平台主动向用户推荐可能感兴趣的产品或内容。我们还将讨论大数据如何进一步增强平台的网络效应。

2.2 推荐系统

2.2.1 推荐系统类型

推荐系统类型对比

推荐系统的核心功能是降低搜索成本,帮助用户在海量选项中找到最匹配的产品或内容。主要有以下几种类型:

基于流行度的推荐

最简单的推荐方式是报告最流行的产品。这对新用户尤其有用——当你对某个领域一无所知时,看看大家都在买什么是一个合理的起点。

协同过滤(Collaborative Filtering)

协同过滤是目前最主流的推荐算法,其核心思想是:如果用户 A 和用户 B 在过去的行为上相似,那么 A 喜欢而 B 还没发现的东西,B 很可能也会喜欢。

具体实现方式包括:

  • 基于用户的协同过滤:找到与你相似的用户群体,推荐他们喜欢的内容
  • 基于物品的协同过滤:找到与你喜欢的物品相似的物品,进行推荐
  • 矩阵分解方法:将用户-物品交互矩阵分解为低维表示,预测缺失的交互

案例:网易云音乐的协同过滤推荐

网易云音乐被称为“最懂你的音乐 APP”,其核心竞争力来自精准的个性化推荐。平台采用协同过滤算法,通过向量夹角计算用户相似度:如果两个用户对同一批歌曲的偏好高度一致,系统就会把其中一人喜欢但另一人还未发现的歌曲推荐给后者。

2025 年,网易云音乐的生成式推荐大模型“Climber”在学术会议上获得认可。该模型被应用于“每日推荐”、“心动模式”、“私人漫游”等核心场景,上线后“每日推荐”的红心率和每小时红心行为数据都大幅提升。这说明协同过滤与深度学习的结合,能够进一步提升推荐的精准度。

基于内容的过滤(Content-Based Filtering)

基于内容的方法利用产品或内容的特征(如书籍的作者、类型、关键词)来推荐相似的产品。这种方法不依赖于其他用户的行为,因此可以解决新物品的冷启动问题。

混合方法

现实中的推荐系统通常结合多种方法。例如,亚马逊同时使用:

  • 购买了 A 的人也购买了 B 的推荐
  • 基于浏览历史的个性化推荐
  • 热销榜单

推荐系统的网络效应

推荐系统如何产生网络效应?考虑一个简单的例子:

假设有两个产品 A 和 B,A 的净收益为 1,B 的净收益为 -1。消费者分为两类:

  • 业余买家(50%):依赖推荐系统的建议
  • 专家买家(50%):自己调研,有 80% 概率做出正确选择

推荐系统报告最流行的产品。

当只有 2 个买家时,第 2 个买家的期望收益为 0.45。 当有 3 个买家时,第 3 个买家的期望收益为 0.525。

这表明:用户越多,后来的用户受益越多。业余买家通过推荐系统间接获取了专家的知识。

核心发现 2.7

通过推荐更流行的产品,产品推荐系统有潜力向业余买家提供与购买相关的信息。在电商环境中,它们有潜力产生网络效应,因为买家周围有越多的其他买家,他们就越受益。

核心发现 2.8

产品推荐系统有潜力降低搜索成本。在电商环境中,它们有潜力产生网络效应,因为更多买家提供了更可靠的信息来判断哪些产品值得关注。

2.2.2 对销售分布的影响

长尾效应 vs 超级明星效应

推荐系统如何影响销售分布?这是一个有争议的问题,涉及两个对立的假说:

长尾效应(Long Tail Effect)

Chris Anderson 在 2006 年提出长尾理论:互联网市场的销售分布比传统市场有更长的尾部——小众产品占总销售的比例更大。推荐系统通过降低搜索成本,帮助有特殊偏好的消费者发现小众产品,从而促进长尾效应。

超级明星效应(Superstar Effect)

另一种观点认为:推荐系统基于已有流行度进行推荐,没有销量的产品无法被推荐,导致马太效应——热门更热,冷门更冷。

理论分析

这两种效应并不矛盾。关键在于区分个体层面和总体层面:

  • 个体层面:推荐系统帮助每个人发现更匹配自己偏好的产品
  • 总体层面:如果人们的偏好足够异质,个体匹配的改善会导致总体销售更分散

核心发现 2.10

报告产品流行度的产品推荐系统可能对大众产品和小众产品产生不同影响。在相似排名下,小众产品在这种推荐系统中表现相对更好。

直觉是这样的:当你看到某产品很流行时,你会推断它可能质量不错。但作为小众口味的消费者,你知道大多数人的选择不代表你的偏好。因此,一个流行度相近的产品,对小众消费者来说传递了更强的质量信号。Tucker 和 Zhang (2011) 的实验证实了这一理论。

实证证据

案例:亚马逊的共同购买链接与长尾

Oestreicher-Singer 和 Sundararajan (2012) 收集了亚马逊 25 万本图书的数据,包括共同购买链接(购买了 A 的人也购买了 B)。他们发现:

  • 当共同购买关系变得可见时,互补产品对彼此需求的影响平均增加三倍
  • 在推荐网络更密集的品类,基尼系数更低(销售更分散)

这支持了长尾假说:推荐系统有助于小众产品获得曝光。

案例:快手 vs 抖音——去中心化与中心化推荐的销售分布差异

中国两大短视频平台采用了截然不同的推荐策略,为长尾效应和超级明星效应提供了直观对比:

抖音采用中心化推荐,强算法驱动,流量集中于优质内容。首页视频点赞量普遍过万,形成爆款效应。系统可以将数月前的优质内容重新推荐给新用户,内容的“长尾寿命”体现在时间维度。

快手采用去中心化推荐,算法与社交关系并重,更注重给普通用户曝光机会。首页作品从几十赞到几万赞均有分布,呈现更分散的销售分布。系统更看重实时性,大部分推荐为近期发布的内容。

简单来说:抖音是“内容质量 > 关系 > 双向互动”,快手是“内容质量 ≈ 关系 > 双向互动”。这说明推荐算法的设计选择会直接影响平台上的流量分布——中心化推荐倾向于强化超级明星效应,去中心化推荐则更有利于长尾效应。

2.2.3 推荐系统的经济分析

搜索成本与匹配质量

推荐系统的经济价值主要体现在两方面:

  1. 降低搜索成本:用户不必浏览所有产品,推荐系统帮助过滤掉不相关的选项
  2. 提高匹配质量:更精准的推荐意味着更少的不满意购买和退货

这两种效应对卖家也有价值。更好的匹配意味着更少的退货、更高的复购率和更好的口碑。

双边平台上的推荐

在双边平台上,推荐系统可以对双方都进行匹配,产生跨组网络效应:

核心发现 2.9

伙伴推荐系统有潜力降低搜索成本。在两组匹配的情境中,它们有潜力产生正向跨组网络效应,因为一方参与者越多,平台就能向另一方提出更有吸引力的匹配建议,反之亦然。

小红书的种草推荐系统

小红书是一个典型的将信息中介功能与社交网络效应深度融合的平台。其推荐系统有几个特点:

机制说明网络效应类型
协同过滤基于用户行为数据推荐相似内容组内网络效应
人群反漏斗模型从核心种子用户逐步扩展到潜在用户组内网络效应
搜索推荐联动70% 月活用户有搜索行为,日均搜索达 6 亿次组内网络效应
向量相似算法基于用户行为序列发现新的种草机会跨组网络效应

小红书的独特之处在于:用户生成的种草内容(UGC)同时具有评价和推荐的双重功能。用户分享的真实体验既帮助其他用户做决策(评价功能),又帮助他们发现新产品(推荐功能)。

据公开数据,小红书月活用户规模已达数亿级别,搜索行为占比较高,三分之一用户打开小红书的第一件事就是搜索。这说明在种草场景下,搜索与推荐已高度融合。

平台操纵推荐系统的动机

一个重要的问题是:追求利润的平台是否有动机扭曲推荐系统?

可能的扭曲方式包括:

  • 推广利润率更高的产品
  • 偏袒平台自有品牌
  • 为了广告收入牺牲推荐质量

这些问题我们将在第 6 章平台设计中详细讨论。

2.3 大数据与网络效应

评级和推荐系统都依赖大数据的收集和分析。更广泛地说,大数据已成为平台竞争优势的重要来源。但大数据产生的自我强化效应是否可以称为网络效应?这需要仔细辨析。

2.3.1 数据驱动的学习效应

数据价值链与数据网络效应

数据价值链

大数据的价值通过数据价值链(Data Value Chain)产生。这不是一个简单的线性过程,而是一个持续循环:现有数据被分析的同时,新数据不断产生和存储。

网络效应还是规模经济?

核心概念

判断数据驱动的自我强化效应是否构成网络效应,关键在于机制:

  • 网络效应:更多数据直接提升用户体验(如更准确的推荐)
  • 规模经济:更多数据降低成本,部分成本节约传递给用户

区分很重要:网络效应发生在需求侧,更容易导致赢者通吃;规模经济发生在供给侧,影响取决于成本结构和竞争程度。

以 Waze(导航应用)为例说明数据如何产生网络效应:

  • 更多用户使用 Waze,产生更多实时交通数据
  • Waze 可以更准确地预测路况,提供更好的导航建议
  • 这直接提升了每个用户的体验
  • 这就是数据网络效应(Data Network Effects)

案例:高德地图的实时交通大数据

高德地图是中国数据网络效应的典型案例。高德定期发布《中国主要城市交通分析报告》,基于高德地图及行业浮动车数据,分析数十个地面交通城市和公共交通城市的交通状况。

高德的数据网络效应运作机制:

  1. 用户导航时产生实时位置和速度数据
  2. 数据汇聚后实时监测道路拥堵、交通事故、公共交通运行
  3. 平台据此为用户提供实时路况查询和最优路径规划
  4. 更准确的路况预测吸引更多用户,进一步丰富数据

用户越多,数据越丰富,算法越精准,又吸引更多用户——这正是数据网络效应的自我强化循环。

核心发现 2.11

数据可能产生自我强化效应:随着更多用户加入平台,他们产生更多数据,这些数据可以被利用来使平台对其他用户更有吸引力。

抖音的推荐算法

抖音(TikTok 国内版)是数据网络效应的典型案例。其推荐算法被称为最精准的个性化推荐系统之一。

2025 年 3-4 月,抖音首次通过“抖音安全与信任中心”网站公开推荐算法原理,这是中国互联网平台首次系统性公开推荐算法。其核心公式为:

\text{视频推荐优先级} = \text{综合预测用户行为概率} \times \text{行为价值权重}

平台采用 Wide&Deep 混合模型和双塔召回模型,实现“分钟级”反馈更新。多目标优化体系纳入收藏率、原创性等指标,试图在推荐精准度和内容多样性之间取得平衡。

数据网络效应的运作机制:

  1. 用户使用产生行为数据(观看时长、点赞、评论、转发等)
  2. 数据训练更精准的推荐模型
  3. 更精准的推荐提升用户体验和停留时长
  4. 精准分发使优质内容更容易获得曝光,激励创作者

但高匹配度也引发了信息茧房(Filter Bubbles)的争议。

数据与观察:信息茧房效应的实证研究

争议焦点:算法推荐是否导致用户只接触与自己兴趣相符的内容,形成信息孤岛?

清华大学社会科学学院发布的《破茧还是筑茧?用户使用、算法推荐与信息茧房研究报告》发现:超过 57% 的活跃用户在与 AI 互动后接触到的信息种类有所减少,但问题根源在于算法的设计和使用方式,而非算法本身。当推荐系统过度依赖用户与内容之间的相似度时,用户更易陷入“信息茧房”。清华大学陈昌凤教授指出,算法也可以为破除茧房提供技术支持。

中国在 2022 年实施《互联网信息服务算法推荐管理规定》,要求用户可选择关闭个性化推荐。这是全球首部系统性规制算法的法规。

案例:《算法推荐管理规定》实施效果

《算法推荐管理规定》自 2022 年 3 月实施以来,产生了显著的市场影响。该规定将算法推荐服务从互联网应用中单独进行管理规范,涵盖生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类五大类算法。

用户行为方面:据相关调查显示,使用个性化推荐关闭功能的移动端用户占比明显上升。大部分用户使用过 App 个性化推荐设置功能,接近四成用户选择直接关闭个性化推荐。用户最想关闭个性化推荐的平台依次为:短视频、购物/社交、新闻。

平台应对方面:部分头部资讯 APP 的改版测试显示,引入混合推荐机制(个性化 + 编辑精选 + 随机探索)后,用户日均使用时长有所提升,信息茧房效应指数下降。这说明在监管推动下,平台正在探索兼顾推荐效率与信息多样性的新模式。

2.3.2 个性化服务

大数据的另一个重要应用是个性化服务。平台可以根据用户特征和行为提供定制化的体验。

个性化推荐

我们已经讨论过推荐系统。个性化推荐的核心是利用用户数据预测偏好,从而提供更相关的内容或产品。

个性化定价

更具争议的是个性化定价(Personalized Pricing)的可能性。如果平台能够预测每个用户的支付意愿,理论上可以实现完美价格歧视。这引发了大数据杀熟的担忧。

从经济学角度看,个性化定价的福利效应是复杂的:一方面,它可能提高配置效率(愿意支付更高价格的消费者不会被排斥);另一方面,它将消费者剩余转移给生产者,可能损害消费者福利。实证研究表明,消费者对价格歧视有强烈的公平性担忧,这种担忧可能超过实际的经济损失。

案例:大数据杀熟治理

2024 年,中国对大数据杀熟的治理明显加强。7 月,《消费者权益保护法实施条例》首次对差异化定价进行规范。11 月,中央网信办等四部门联合发文严禁利用算法实施大数据“杀熟”。

据北京市消协调查,大部分消费者认为“大数据杀熟”现象普遍存在,超过半数消费者表示有过被杀熟的经历。大数据杀熟的本质是利用信息不对称进行的“价格歧视”,由于算法定价具有隐蔽性和不确定性,消费者维权取证十分困难。

面对算法定价,部分年轻人开始尝试“反向驯化”算法——通过故意点击低价商品、使用新账号等方式争取降价优惠。这反映了消费者对价格歧视的公平性担忧已转化为实际的博弈行为。

匹配效率提升

在双边平台上,大数据可以提高匹配效率。以美团外卖为例:

  • 平台积累了大量历史订单数据
  • 可以预测特定时间、地点的订单量
  • 提前调度骑手,减少等待时间
  • 优化配送路线,提高效率

案例:美团智能调度系统

美团外卖运营着全球最大的实时配送调度系统,覆盖数千个县市区。其智能调度系统动态优化数百个变量,包括天气、商圈人流、交通状况等因素。

系统效果:高峰时段订单满足率较高,平均配送时长持续优化。引入新技术后,订单转化率有所提升,优化后的算法能将高峰期平均配送时间进一步缩短。

技术实现:采用多种算法实现订单分组和顺路配送,新一代智能调度系统持续迭代升级。

这种效率提升惠及消费者(更快收到外卖)、商家(更多订单)和骑手(更高效的工作)——典型的数据网络效应带来的多边正外部性。

2.3.3 数据与竞争

数据是否构成竞争壁垒?这取决于几个因素。

数据的时效性

研究发现:搜索引擎数据保留期的影响

Chiou 和 Tucker (2017) 研究了欧盟要求搜索引擎缩短数据保留期的影响。他们发现:将数据保留期从一年以上缩短到 3-6 个月,对搜索质量没有显著负面影响。

这说明对于某些应用,数据是流量变量而非存量变量——最近的数据才是最有价值的。

但这不能一概而论。两种情况需要区分:

  • 短期数据:如 Waze 的实时交通信息,几分钟后就过时
  • 长期数据:如植物病害图像库,随着时间积累价值增加

自学习算法

即使原始数据过时了,基于这些数据训练的算法可能仍然有价值。这产生了动态网络效应:过去用户产生的数据训练了更好的算法,使当前用户受益。

案例:Plantix 的长期数据效应

Plantix 是一款帮助农民识别植物病害的应用。用户上传植物照片,应用识别病害并提供治疗建议。每张用户上传的照片都丰富了数据库,改进了 AI 识别算法。这种改进是持久的——即使某个用户停止使用,他们贡献的数据仍然帮助改进对其他用户的服务。

核心发现 2.12

在某些情况下,更深的数据池使平台能够提高质量。那么,过去更好的数据为平台产生竞争优势。

数据获取的成本

数据不是免费的。收集、存储和分析数据都有成本。更重要的是,平台可能需要补偿用户以获取他们的数据——通常是通过免费提供服务。

一个有趣的现象是信息外部性:由于数据分析的规模经济,其他用户提供的信息使平台能够预测你的特征,即使你没有主动提供信息。这意味着:

  • 平台越大,越容易预测未披露信息的用户
  • 理性用户愿意为更低的补偿披露信息
  • 平台获取数据的边际成本递减

核心发现 2.13

通过提供支付或服务来换取用户个人数据的平台,可能在信息获取方面享有正向自我强化效应:用户基础越大,从用户那里获取数据的成本越低。

大众点评的数据网络效应

大众点评数据网络效应

大众点评是数据网络效应的典型案例。其网络效应体现在多个层面:

  1. 评价-用户正循环:更多评价吸引更多用户查询,更多用户使用又产生更多评价
  2. 评价-商户正循环:丰富的评价数据吸引商户入驻,商户多样性又吸引用户评价
  3. 边际价值递增:每新增一条评价,对所有用户的参考价值均有提升

大众点评覆盖超过数百万家商户,评价数量持续增长。平台持续对违规商户进行警告和处罚,维护评价系统的可信度。这种数据网络效应构成了显著的先发优势和规模壁垒。

本章小结

本章分析了评级系统、推荐系统和大数据使用的经济学。核心要点如下:

  1. 评级系统是网络效应的来源:产品评级系统产生买方的组内网络效应;卖家评级系统产生买方的组内网络效应,以及对高质量卖家的正向跨组网络效应和对低质量卖家的负向跨组网络效应。

  2. 评级系统的信息有效性受多种因素限制:噪音(理解偏差、特异性偏好、不可控冲击、价格波动)、策略性扭曲(虚假评价、报复威胁)、不对称羊群行为都可能损害评级系统的信息含量。

  3. 推荐系统降低搜索成本并产生网络效应:通过报告流行度或利用协同过滤,推荐系统帮助用户发现匹配的产品,用户越多,推荐越精准。

  4. 推荐系统对销售分布的影响是复杂的:理论上可能既促进长尾效应(帮助发现小众产品)又强化超级明星效应(热门更热)。实证证据更支持长尾假说。

  5. 大数据产生的自我强化效应可能是网络效应也可能是规模经济:区分在于机制——直接提升用户体验是网络效应,通过降低成本间接惠及用户是规模经济。数据的时效性和算法的自学习能力决定了数据优势的持久性。

思考题

  1. 概念理解题:解释为什么评级系统产生的是平台特定网络效应而非通用网络效应。这对平台竞争有什么含义?

  2. 模型应用题:在产品评级的简单模型中,假设买家留评价的概率 ρρ 从 0.1 增加到 0.5。分析这对均衡和网络效应强度的影响。

  3. 案例分析题:淘宝评价体系为什么经历了如此多次改革?每次改革解决了什么问题,又带来了什么新问题?从机制设计角度,你认为还有什么可以改进的地方?

  4. 案例分析题:比较大众点评和小红书在解决信息不对称问题上的不同方式。它们各自的网络效应类型是什么?

  5. 开放讨论题:《算法推荐管理规定》要求用户可关闭个性化推荐。从经济学角度分析这一政策的效果:它会如何影响平台的数据网络效应?用户福利会如何变化?平台和社会的最优选择是否一致?

  6. 开放讨论题:抖音推荐算法追求极高的内容匹配度意味着什么?高匹配度一定对用户有利吗?如何平衡推荐精准度与信息多样性?

下期预告

第二章我们认识了平台如何通过评级推荐系统管理网络效应。下一篇将进入第三章,建立分析网络效应的严格数学框架。我们将看到,网络效应如何导致用户决策的相互依赖、多重均衡的存在,以及临界规模的关键作用。这些理论工具将帮助我们理解为什么平台市场常常呈现赢者通吃的格局,以及新进入者如何打破这一格局。

related