历史背景
在2010年至2015年期间,完全兼容的方法占主导地位,公司支持native应用程序在iOS和Android上,覆盖95%的操作系统版本。然而,随着功能复杂性的增加和现代API(如Biometric API、Camera2、Jetpack Compose)的使用,维护legacy代码的成本超过了保持用户的边际收益。到2020年代,政策"n-2"成为标准,要求开发真实效果评估的方法,而不仅仅是对指标进行关联分析。
问题陈述
强制关闭导致自我选择的内生性:使用旧设备的用户无法升级到所需的iOS或Android版本,而使用现代智能手机的活跃用户会迅速更新。观察到的MAU下降可能是真正的流失(churn),也可能是迁移到PWA(渐进式网页应用)或移动网页。经典的A/B测试是不可行的,因为关闭是技术性的,并同时应用于特定操作系统版本的所有用户,而追踪本地应用程序和网页版本之间的身份受到Safari和Chrome在处理cookies方面的限制。
详细解决方案
最佳方法论基于断裂回归(RDD)和合成控制(Synthetic Control Method)的组合。首先,使用以操作系统版本为阈值的RDD(例如,不同Android 8.0与Android 9.0),稍低于阈值的用户作为稍高于阈值用户的对照组,同时调整平滑特征(设备模型、历史使用频率)。
其次,为评估流向网页渠道的迁移,基于用户群体的历史DAU数据构建合成控制,这些用户在关闭之前的行为模式相似。创建未受到影响的用户群体的加权组合(例如,具有相似设备结构的其他地区用户),以模拟反事实指标轨迹。
第三,应用具有倾向评分匹配(Propensity Score Matching)的差异中的差异(difference-in-differences)来对比可能升级但未升级的用户与升级的用户,同时调整技术特征。重要的是,通过客户数据平台(CDP)跟踪跨设备迁移,将移动应用的device_id与网页版本的cookie_id通过单一的user_id在认证时关联。此外,使用生存分析(Cox模型)来评估根据操作系统版本和网页替代品可用性而流失的时间。
背景: 一家大型市场平台决定放弃对Android 7.0及以下版本的支持(约8%的用户基础),以引入Biometric API进行安全支付。该项目预算预计活跃用户损失不超过3%,通过新版本的转化率增长进行补偿。
方案1:在日期之间简单比较停用前后的MAU,计算损失百分比。优点: 计算简单,快速得出结果,不需复杂基础设施。缺点: 完全忽视季节性、迁移到网页和设备自我选择;使用时有较高虚假正面流失的风险,当用户仅仅转向m.site时。
方案2:建立与Android 8.0设备匹配的用户分组(可以留下但已更新)与Android 7.0(无法更新)进行的群体分析。优点: 考虑到了技术限制,使更新的不可行性与用户的意愿分开展示。缺点: 由于OEM制造商(Samsung、Xiaomi)的碎片化难以获得清晰数据,以及不同品牌用户的行为差异和地理异质性。
方案3:在旧设备占比较高的地理区域应用合成控制的综合方法(将区域A(30%使用Android 7)与区域B(仅5%)进行比较),调整市场整体趋势。优点: 考虑总体经济因素和季节性,能够评估对业务的整体影响。缺点: 需要大样本且假设区域内没有其他同时干预。
选择的解决方案: 实施了方案3,与已授权用户的群体分析结合(跟踪流向网页的SSO登录迁移)。这样的选择是为了分离真实流失与网页流量的侵蚀,这对评估单元经济至关重要(网页用户的AOV低15%)。
结果:分析显示,仅40%的"丢失"MAU真实流失,35%迁移至PWA,25%在季度内更新了设备。真实的负面效果小于预期的2.5倍,使得继续对剩下92%的用户实施API更新策略成为可能,并通过新支付功能实现了GMV增长8%。
如何区分技术上的不可更新与行为上的拒绝更新,如果两个群体都停留在旧的应用版本上?
答案必须基于对CDP中device_change events的分析。行为上拒绝更新的用户(懒惰更新者)往往在历史中有"延迟更新"的模式(例如,跳过几个小版本,但安装安全补丁),而技术上受限的用户在设备的整个生命周期内从未改变OS version。还需通过网页版本的WebGL或Canvas分析hardware fingerprint:如果用户在PWA中以与停用前本地应用相同的设备(通过User-Agent和屏幕分辨率)出现,则确认了迁移而非流失。同时也要基于app_version历史进行分段:如果用户在Android 7内定期更新(在7.0到7.1之间的补丁),但未过渡至8.0,则表明技术限制,而非意愿拒绝。
为什么标准的倾向评分匹配在强制升级的效果评估中,用户收入与设备型号之间存在强相关性时,可能导致偏差估计?
标准的PSM依赖于条件独立性,假定观察到的协变量解释了所有自我选择的情况。然而,在日落政策下存在一个潜在变量——可支配收入,该变量与智能手机型号(旗舰机与预算机)和用户的LTV同时相关。预算设备往往不能获得操作系统更新,而其拥有者的支付能力更低。标准的PSM会低估负面效应,因为它将拥有新设备的富裕用户与旧设备的贫困用户作为同类对比,尽管他们的行为模式有根本性的差异。解决方案是采用粗分类精确匹配(CEM),在应用PSM之前按设备的价格段(低端、中端、旗舰)进行精确分层,或使用OEM制造商的更新政策作为外生冲击的工具变量(IV)。
在评估流失时,如何正确考虑不同版本应用用户之间的网络效应,如果“分享商品”功能在旧版本和新版本中工作得不同?
网络效应在处理和对照组之间产生spillover:如果活跃的新版用户(处理组)无法与旧版本的朋友分享内容(因为不支持新格式的deep link),这会降低双方的体验,并可能加速对照组的流失,这不是由于日落政策而是由于用户体验的退化。为了进行校正,需要应用基于网络的DID(带网络权重的差异中差异法)。构建社交关系图(通过分析referral codes、共同订单或应用程序内聊天消息)。评估指标的“传染性”(contagion):如果对照组用户(旧版本)与处理组(新版本)有很多联系,他的行为会被扭曲。在模型中添加交互项Treatment x Network_Exposure,其中Network_Exposure是使用新版本的网络联系比例。在网络效应较高的情况下,日落政策的真实效果将被低估,因为一些“对照”用户实际上遭受了间接影响,并需要校正意图处理(intention-to-treat (ITT))以考虑这种污染。