平台经济学 4:用户评分与评价系统
本篇讲解平台评分与评价系统如何产生平台特定网络效应,分析产品与卖家评分机制的模型与实证,并讨论噪音、虚假评价、报复威胁等信息有效性问题,结合淘宝、京东、滴滴、大众点评、eBay 案例。
我们几乎每天都在与评分和评价系统打交道。去大众点评搜索附近餐厅,4.8 分的店铺让人放心;刷抖音时,平台精准推送你感兴趣的内容;在淘宝购物前,翻看商品评价已成为习惯。这些看似简单的功能,背后蕴含着深刻的经济学原理。
评分系统、推荐系统和大数据的使用,构成了平台解决信息不对称问题的核心工具。更重要的是,它们本身就是网络效应的重要来源——用户越多,评价越准确,推荐越精准,这反过来又吸引更多用户加入。理解这些机制,是理解平台竞争优势的关键。
本篇将聚焦于评分与评价系统,探讨它们如何产生网络效应,以及为什么这些系统的信息有效性会受到多种因素的限制。

2.1 评分与评价系统
评分(Rating)和评价(Review)系统是数字平台最基础也最重要的功能之一。无论是作为垂直整合零售商的平台(如京东、亚马逊),还是撮合买卖双方的平台(如淘宝、eBay),几乎都会邀请用户对产品或交易对手进行评价。
2.1.1 作为网络效应的来源
信息不对称问题
在平台交易中,信息不对称问题(Information Asymmetry)尤为突出。对于经验品(Experience Goods)——只有消费后才能判断质量的产品——买家通常比卖家知道的更少。传统市场中,这一问题可以通过重复交易、个人声誉或品牌来缓解。但在平台上,数以百万计的陌生人进行交易,传统机制难以发挥作用。
评分和评价系统提供了一种替代方案:它们让个体买家能够借助其他买家的集体经验来做出决策。这种机制之所以有效,是因为它随着用户数量的增加而变得更加可靠。
平台特定网络效应

核心概念
平台特定网络效应(Platform-Specific Network Effects):评分和评价系统产生的网络效应往往是特定于某一平台的。即使同一产品在多个平台销售,不同平台上的评价信息通常不可迁移。
为什么评分系统产生的是平台特定网络效应?主要有三个原因:
- 用户行为惯性:许多用户习惯在获取评价信息的同一平台完成购买,而不会跨平台比较
- 卖家行为差异:同一卖家在不同平台上的服务质量可能不同,因此声誉实际上是平台条件下的声誉
- 声誉不可迁移:用户难以确认不同平台上的同名卖家是否为同一主体,平台间缺乏统一的卖家身份识别机制
案例:淘宝商家信用的平台锁定效应
一个淘宝皇冠店铺可能经营十年、积累数万条好评,但这些信用资产无法迁移到京东或拼多多。商家若想在新平台开店,必须从零开始积累信誉。这种"信用不可携带"形成了极高的转换成本——即使允许多平台经营,商家也不愿轻易放弃主平台的信用积累。这正是评分系统产生平台特定网络效应的典型体现。
核心发现 2.1
评分和评价系统产生平台特定网络效应,这种自我强化机制使成功的平台更加成功,而较小的竞争对手则处于不利地位。
2.1.2 产品评分系统

许多在线零售商建立了产品评分系统(Product Rating System),允许买家对特定产品进行评分和评价。这一机制使原本的在线零售商转变为平台——因为有了评分系统,一个买家的购买决策会受到其他买家行为的影响。
一个简单的模型
考虑一个销售多种产品的零售商。产品质量 可能是高质量()或低质量(),概率各为 1/2,事前买卖双方都不知道具体质量。买家对高质量和低质量产品的估值分别为 和 ,满足:
其中 是产品的边际成本。第一个不等式表明:如果信息完全,只有高质量产品会被交易;第二个不等式表明:在信息不完全时,交易仍然会发生,因为产品的期望价值高于成本。
假设有 个买家,每个买家购买后以概率 留下评价,且评价是真实的。
- 无评分系统时:垄断零售商将价格定为 ,所有买家都会购买
- 有评分系统时:买家在看到负面评价后不会购买低质量产品
设 为产品实际上是高质量的概率, 为产品是低质量但尚未被揭露(没有负面评价)的概率。当产品为低质量时,排在第 位的买家看不到负面评价的概率是 (前面所有买家都没留下评价)。因此:
买家的期望效用为:
由于 ,我们有:
关键观察: 随 增加而减少(当 时 ),因此 随 增加而增加。
核心发现 2.2
产品评分系统能够解决信息不对称问题。在买家对产品进行评价的电商环境中,更多买家使平均产品评分更具信息量,因此具有产品评分系统的平台表现出正向的组内网络效应。
产品评分系统是吸引力循环(Attraction Loop,如第 1 章所述)的来源。
实证证据
Chevalier 和 Mayzlin (2006) 分析了书评对亚马逊和 Barnes & Noble 销量的影响。利用双重差分方法,他们发现:亚马逊上多一条正面(负面)评价,会导致该书在亚马逊的相对销量上升(下降)。这证实了评分系统确实影响消费者决策。
更有趣的是,不仅评价数量重要,评价的长度和内容也很重要。这表明买家会评估每条评价的可信度,或者他们关心产品与自身需求的匹配程度。
案例:京东AI全网评大模型
据公开报道,2025年11月京东推出"AI全网评"大模型,标志着产品评分系统进入智能化新阶段。该系统通过分析数亿条评价数据,为消费者生成客观、全面的产品评价摘要。
京东的做法有几个特点:一是承诺评价的中立性;二是建立了包括价格竞争力、产品质量、服务水平在内的多维评分体系;三是将评分纳入流量分配算法——高分商品获得更多曝光,形成"好评价→高排名→多销量→更多评价"的正反馈循环。
这一案例展示了AI技术如何增强产品评分系统的网络效应:通过智能聚合海量评价信息,让单个用户的评价对整体更有价值。
2.1.3 卖家评分系统

在撮合买卖双方的平台(如淘宝、eBay、Airbnb)上,买家不仅可以评价产品,还可以评价卖家。这类卖家评分系统(Seller Rating System)也称为声誉系统(Reputation System),其核心功能是解决信任问题。
声誉机制的替代功能
案例:易趣网的评分系统引入
中国拍卖网站易趣网(EachNet)在 1999-2001 年期间没有评分系统。买卖双方通过沟通建立信任,最终通过线下见面完成交易——买家验货后付款,卖家确认收款后交货。2001 年易趣网引入评分系统后,Cai 等人 (2014) 发现:卖家累计成功率与回头客比例之间的正相关关系减弱了。这证实了评分系统部分替代了双边关系中的个人声誉。
卖家评分系统可以同时解决逆向选择(Adverse Selection)和道德风险(Moral Hazard)问题:
- 逆向选择:低质量的住宿会被评价揭露,买家可以据此筛选
- 道德风险:卖家如果不努力提供好服务,会收到差评,因此有激励努力
案例:滴滴司乘双向评价系统
滴滴出行的评价系统是一个精心设计的双边声誉机制。2019年公众评议数据显示,80%的用户支持司机评价乘客(司机支持率96%,乘客支持率71%),参与投票超9.2万人。
系统记录了有趣的评价模式:司机给乘客五星好评的主要原因是"态度好"(55.9%)和"准时到达上车点"(23.1%);乘客给司机五星好评则看重"车内整洁"(32.8%)和"服务态度好"(30.9%)。而差评的主要原因分别是"司机不熟路"(34.1%)和"服务态度差"(32.1%)。
滴滴的设计避免了eBay早期双边评价的报复问题:司机的综合星级公开可见并影响派单,但司机对乘客的评价不会直接阻止乘客打车。这种不对称设计在保留双向评价的同时,降低了评价报复的风险。
买方的组内网络效应
如果评价有噪音,交易量少的卖家无法获得可靠的评价信息。给定卖家数量,活跃买家越多,任何一个卖家的评价信息越精确(大数定律)。这产生了买方的正向组内网络效应。
核心发现 2.3
卖家评分系统能够解决信息不对称问题。在买家评价卖家的情境中,更多买家使评分系统更具信息量,因此具有卖家评分系统的平台在买方存在正向组内网络效应。
卖方的跨组网络效应
买家通过留下评价影响彼此,但对卖家的影响如何?关键洞见是:评分系统对不同卖家的影响是不对称的。
对于隐藏信息问题(Hidden Information,如卖家质量):
- 高质量卖家受益于评分系统——更多评价帮助他们建立声誉
- 低质量卖家受损于评分系统——更多评价暴露他们的真实质量
对于隐藏行动问题(Hidden Action,如卖家努力程度):
- 所有卖家都可能受益,因为评分系统约束了卖家行为,买家理解这一点后更愿意交易
核心发现 2.4
在隐藏信息问题中,卖家受评分系统的影响是差异化的:高质量卖家从更多买家评价中获得正向跨组网络效应,而低质量卖家则遭受负向跨组网络效应。在隐藏行动问题中,所有卖家可能都受益,因为买家理解评分系统约束了卖家行为。
评分系统与既有声誉
对于已有品牌声誉的卖家和没有品牌认知的新卖家,评分系统的价值是不同的。Hollenbeck (2017, 2018) 研究酒店评分发现:2000-2015 年间,随着 Tripadvisor 和酒店预订网站的普及,连锁酒店相对于独立酒店的收入溢价下降了。这说明评分系统降低了新进入者的声誉壁垒。
但新卖家也面临冷启动问题(Cold Start Problem)——这是双边平台的典型困境:新卖家没有评价难以获得信任,没有信任就无法积累评价。淘宝在 2012 年推出的返现换评价(Rebate-for-Feedback, RFF)机制是一个解决方案:
- RFF 作为高质量信号——高质量卖家更愿意使用这一功能
- 买家正确理解了这一信号——使用 RFF 的商品销量增加约 30%
- RFF 替代了既有声誉——经验较少的卖家更可能使用它
核心发现 2.5
买家通过评价对卖家产生的跨组网络效应,对于没有既有声誉或可能遭受歧视的卖家来说更可能是正向的。
2.1.4 信息有效性问题

评分和评价只有包含相关信息才对买家有价值。然而,评分系统的信息有效性(Informativeness)受到多种因素的限制。
噪音来源
评价中的噪音可能来自以下原因:
| 噪音类型 | 说明 | 示例 | 影响程度 |
|---|---|---|---|
| 理解偏差 | 评价者误解了评价对象 | 对产品质量的评价中混入对物流服务的评价 | 高 |
| 特异性偏好 | 评价反映的是水平差异而非垂直质量 | 因为不喜欢颜色而给差评 | 中 |
| 不可控冲击 | 评价反映了卖家无法控制的因素 | 因物流公司延误而给卖家差评 | 高 |
| 价格波动 | 相同产品在不同时间以不同价格销售 | 高价买入后发现降价,因此给差评 | 低 |
这些噪音通常是随机的,理论上可以通过大数定律解决——评价越多,噪音影响越小。
策略性扭曲
更严重的问题是买卖双方的策略性行为导致的系统性扭曲。
虚假评价(Fake Reviews):卖家可能花钱购买正面评价,或给竞争对手购买负面评价。这不仅是理论推测,实践中确实存在出售虚假评价的服务。
虚假评价的识别
Mayzlin, Dover 和 Chevalier (2014) 利用 Expedia 和 Tripadvisor 的政策差异来估计虚假评价的程度:Expedia 要求实际预订才能评价,而 Tripadvisor 不要求。他们预测:
- 独立酒店更可能发布虚假评价(被发现的成本较低)
- 独立酒店附近的酒店在 Tripadvisor 上会有更多负面评价
- 独立酒店在 Tripadvisor 上会有更多正面评价
这些预测都在数据中得到验证。
案例:大众点评的虚假评价治理
大众点评面临的虚假评价问题极为严峻。据平台公开信息,2024年平台采取了大规模治理行动:拦截约60%的违规评价,处理数百万条争议评价,人工审核处置违规评价超千万条,处罚数万家商户,拦截差评骚扰超百万次。
2025年2月,大众点评首次发布《评价透明度报告》,公开评价审核机制。同年5月推出"全民监督机制"和"一键投诉"功能。五一期间,用户投诉"诱导好评"商户近400家,"差评骚扰"商户超700家。
平台采用"AI+人工"多重防线:上百种风控模型识别"诱导好评"和"刷单"行为,分析评价文本特征、账号行为模式、交易时间规律等多维度数据。这体现了平台治理从"规则约束"向"智能监测"的转型。
双边评分系统的报复威胁:当买卖双方都可以评价对方时,可能出现策略性的评价抑制。
案例:eBay 旧评分系统的问题
eBay 早期的双边评分系统存在严重问题:一方留下评价后立即向对方披露。这为负面评价的报复打开了大门。
Bolton, Greiner 和 Ockenfels (2013) 发现:买卖双方的评价高度正相关,且卖家通常等待买家先评价后再回应。这表明卖家利用评价权作为隐性威胁——如果收到差评就进行报复。
根据 eBay 内部数据,买家向客服投诉的概率是给差评概率的三倍。这说明负面体验被严重低估。
eBay 最终在 2008 年改为单边评分系统,只允许买家评价卖家。改革效果显著:在电子用品交易类别中,负评比率反而降低;纠纷发生率从4.2%降至3.5%。
不对称羊群行为
Muchnik, Aral 和 Taylor (2013) 在新闻网站上进行了一项实验:对评价进行随机的虚假评价(正面或负面),然后观察后续评价的动态。
结果发现不对称的响应:
- 虚假正面评价使后续正面评价的概率增加 25%
- 虚假负面评价虽然增加了负面评价,但被抵消性的正面评价中和了
这种社会影响偏差(Social Influence Bias)意味着:付费购买的正面虚假评价可以引发正向羊群效应,其影响会持续存在,即使虚假评价后来被删除。
核心发现 2.6
评分系统可能因买卖双方行为引入的噪音和偏差而缺乏信息量。特别是,平台用户可能操纵系统。这往往会削弱网络效应的强度。
淘宝评价体系的演变
淘宝的评价体系经历了多次重大变革,每次改革都是对信息有效性问题的回应:
| 时期 | 机制 | 解决的问题 | 遗留的问题 |
|---|---|---|---|
| 2003-2008 | 信用积分制 | 建立基本信任 | 刷单、好评返现 |
| 2009-2023 | DSR 评分 | 多维度评价 | 评分通胀、区分度低 |
| 2024 | 店铺体验分 | 更及时反映状态 | 持续治理挑战 |
| 2025 | 真实体验分 | AI 识别虚假评价 | 待观察 |
案例:淘宝"真实体验分"改革(2025年)
2025年6月,淘宝推出"真实体验分",这是平台成立20年来最大力度的评价体系改革。
新体系从三个维度评估商家:商品质量(首次品退率、商品差评率)、物流速度(48小时揽收及时率、物流到货时长)、服务保障(旺旺3分钟响应率、退款处理时长、平台求助率)。
关键设计包括:剔除无效订单和虚假用户影响;有效订单少于30笔的店铺不参与评分;评分与搜索、推荐、广告等核心场域直接挂钩。
改革效果初显:截至上线日,全平台已有120万家4.8分以上的高分商家。数据显示,高分商家(4.8分以上)成交额同比增速是普通服务商家(4.5-4.8分)的2.2倍。这种"好评价→高排名→多销量"的正反馈循环,正是评分系统网络效应的体现。
淘宝评价体系的每次改革都体现了平台在信息有效性与激励相容性之间的权衡。信用积分制解决了基本信任问题,但刷单现象说明简单的累积评分容易被操纵。DSR 多维度评分试图提高区分度,但评分通胀问题仍未解决。店铺体验分强调近期表现,增加了时效性,但同时也降低了历史声誉的价值。真实体验分引入的 AI 识别技术代表了平台治理的新阶段——从规则约束转向智能监测。
好评返现(即卖家承诺在买家给好评后返还部分货款)是一个典型的激励扭曲案例。它导致评价失去信息含量,损害了所有依赖评价做决策的买家。淘宝 2024 年的新规引入 AI 技术识别并限制展示疑似诱导好评的评价。
下期预告
本篇我们认识了评分与评价系统如何产生网络效应,以及信息有效性问题的多种表现形式。下一篇将探讨平台主导的信息推送机制——推荐系统,以及大数据如何进一步增强平台的网络效应。我们将讨论长尾效应与超级明星效应的争论,分析小红书的种草推荐系统,并通过抖音和大众点评的案例揭示数据网络效应的运作逻辑。