此类变化的历史背景可以追溯到2017年,当时Netflix放弃了五颗星评估体系,转向二元的“点赞/踩”,而YouTube随后也效仿,隐藏了不喜欢的评分。这些变化的原因是,五颗星的评分显示出“亚洲”通货膨胀(围绕4-5颗星的集中),并与实际内容消费的相关性较差。问题在于将反馈收集机制更替的纯粹效果与混淆因素隔离开来:类别的季节性、活跃用户的自我选择,以及因新信号稀疏而导致的协同过滤模型的时间质量退化。
为了解决这个问题,使用了分阶段差分法(Staggered Difference-in-Differences,DiD),将处理过的类别(treatment)与尚未转移的类别(control)进行比较,同时考虑了不同的实施时间。对于没有直接对应的类别,使用合成控制方法,从控制类别中创建加权组合,以模拟反事实。用户自评的内生性通过赫克曼校正(Heckman Correction)或基于浏览历史和任期的倾向评分匹配进行调整。对推荐质量的评估使用了反事实评估,通过NDCG和MAP等指标在保留样本上进行,同时排除持续2-4周的热身期,以稳定因子矩阵。
流媒体服务“CinemaFlow”计划用一个二元系统替换过时的五颗星系统,以提高用户参与度。关键问题在于团队怀疑由于信号颗粒度的降低而导致的推荐预测能力丧失,并且担心习惯于细致评分体系的用户活跃度急剧下降。需要找到一种评估方法,考虑到按类型逐步推出(先是纪录片,然后是喜剧)和网络效应,即现有评分的可见性会影响新用户投票的意愿。
考虑了一种经典的A/B测试方案,通过user_id级别将用户分为两组。该方法的优点在于实验的纯粹性和因果效应的易解释性。缺点是致命的:协同过滤算法由于将两种类型的信号混合在一个矩阵中而丧失了完整性,导致两个组的推荐中出现伪影;通过社交功能可能存在交叉污染的风险(用户看到来自另一组的好友评分);业务害怕在同一产品内部遭遇分散的用户体验的负面反应。
另一种选择是前/后分析,比较每个类别在转型前后的指标。优点在于技术简单,无需对部分用户保持旧系统的必要性。缺点包括无法将干预效果与季节性波动(例如,圣诞电影在12月的评分不一样)分开,忽略从众行为的效应和自选早期追随者的新系统,这给出了偏倚的评估。
选择了分阶段的DiD与合成控制和工具变量的混合方法。该方法允许使用尚未转向二元系统的类别作为已转向类别的对照,校正时间趋势。合成控制弥补了类别之间的异质性,而工具变量方法使用内容发布的时间(在线用户较少且从众效应较弱)作为工具,帮助隔离评分接口的纯粹影响。这个选择的原因是为了在过渡期间保持推荐系统的可操作性,并在部分数据可用的情况下获得无偏估计。
最终结果显示,评分量增长了220%,因为认知负担降低,但推荐准确性(通过NDCG@10衡量)在头三周下降了12%。这一时期符合矩阵分解模型的再训练,随后由于矩阵密度的增加,指标恢复到基线水平。基于这些数据,产品团队决定全面推出,并为新用户的冷启动分配额外预算。
如何正确考虑模型再训练期间推荐质量的退化期,并将其与新系统的真实效果分开?
答案:需要将“退火期”(burn-in period)这一概念形式化,通常为2-4周,在此期间推荐质量指标不会纳入主要的因果分析。使用反事实评估在历史的保留样本上进行比较,评估转换前后的离线指标(NDCG, MAP, Precision@K),但要按照用户活动水平进行分层。重要的是分别跟踪覆盖度和多样性指标,而不只是准确性,因为二元信号可能会在不足的正则化条件下增加流行偏差。
如何处理自我选择的内生性,即愿意在新系统下评分的用户,并将其行为与界面的效应区分开?
答案:在二元系统下评估内容的用户与“五颗星”评估用户系统性地不同(倾向于极端偏好)。应用赫克曼校正(双阶段模型与选择方程)或逆概率加权,基于观测特征(浏览历史、任期、会话时间)计算倾向评分。作为工具变量,使用界面的随机变换(点赞/踩按钮的排列顺序)或A/B测试的可见性聚合评分,以隔离数据收集机制的纯粹效应。
如何定量评估从众行为(herding)的效应,并将其与用户的真实偏好分开,以分析评分数?
答案:将用户分为“先行者”(first-movers),他们看到的是一个空的评分计数,以及“追随者”,他们看到的是非零投票的数量。应用回归不连续设计(Regression Discontinuity Design,RDD),在评分可见性阈值附近进行比较(例如,当内容进入类别前10名时)。比较看到聚合结果的用户与看到“率先尝试”的用户的评分概率。对于动态调整,可使用汤普森采样(Thompson Sampling)或贝叶斯方法评估内容的真实质量,通过发布和评分之间的时间滞后过滤网络效应。