问题回答

历史上，产品团队专注于增长和新功能的实施指标，但随着数字产品的饱和和技术负担的积累，合理删除功能（feature deprecation）变得至关重要。问题在于，积极使用被删除功能的用户在参与度和忠诚度上系统性地与其他受众不同，这造成了自我选择偏差（selection bias），而逐步关闭不同细分市场的过程扭曲了时间序列中的季节性和自然流失。

为了隔离真实的因果效应，需要应用 Difference-in-Differences (DiD) 结合队列分析或基于 Bayesian Structural Time Series 的 CausalImpact，使用未受影响的队列作为合成对照。关键步骤是在每个队列内构建倾向评分匹配模型（propensity score matching, PSM）：对于失去功能的用户（treatment），匹配从未使用过该功能的用户（control），但有相似的活动特征、任期和转化历史。在有明确使用强度门槛的情况下（例如，> 每月使用5次），应该有效地采用 Regression Discontinuity Design (RDD)，可以直接在关闭门槛两侧比较用户。

还需要额外控制 生存偏差：如果功能因使用率低而被删除，分析应仅包括在决策时仍为活跃的用户，排除那些在观察开始前已经流失的用户。为了评估长期影响，采用具有动态效果的 staggered DiD（事件研究），可以跟踪在关闭时第3天和第7天的留存变化，并通过在先前时期进行的安慰剂测试验证平行趋势假设。

生活中的情况

在某大型教育科技产品中，决定删除过时的文本聊天功能以支持视频咨询，因为聊天功能的使用率不到3%，但它的维护占据了团队20%的资源。计划逐步发布：首先为新用户关闭，然后为活动低的队列关闭，最后为重度用户关闭。业务担心删除会引发负面反应和高价值用户的流失，这些用户历史上积极使用聊天功能以澄清作业。

第一个考虑的选项是对每个队列进行简单的关闭前后留存比较。这个方法可快速实施并且对于利益相关者来说可视化，但严重缺乏区分删除带来的影响与队列自然衰退（cohort aging）和学生在夏季期间活动季节性波动的能力，因为最后一次关闭正好计划在夏季。第二个选项是经典的A/B测试，通过功能旗帜将聊天功能隐藏对50%的用户，但因技术上维护两个UI版本的复杂性和伦理考虑而被放弃：无法向某些用户承诺支持聊天功能而对其他用户在存在缺陷时拒绝支持。

第三个选择是采用基于 Difference-in-Differences 的合成对照分析。针对每个失去聊天访问权限的队列，通过 Propensity Score Matching 寻找与该功能没有任何聊天历史的上一队列用户的匹配对，但具有相同的课程观看模式、作业提交历史和地理位置。这使得能够比较丧失聊天功能的处理组（treatment）和从未使用过该功能的控制组（control）的留存轨迹，进而将功能剥夺的净效应与整体趋势隔离开来。

最终结果显示，对于重度用户（聊天使用频率前10%），删除确实导致30天的留存率下降了8%，但这被视频咨询转化率的15%增长和应用程序性能指标的改善（通过删除遗留代码将崩溃率降低12%）所补偿。对于中间段，效果在统计上并不显著，这使得企业能够以推动重度用户转移到新沟通渠道为重点，合理化全面关闭该功能。

候选人常常忽略的内容

如何区分功能删除的影响与界面 "简化效应"（simplification effect），在这种情况下，减少认知负担可能掩盖失去功能的负面影响？

答案在于指标的分解：需要跟踪不仅是留存，还要跟踪 任务完成时间、错误率 和 功能发现率，针对剩余功能。如果删除聊天功能后，作业提交时间度量（time-to-homework-submission）下降（用户更快提交作业）且留存率稳定，这表明存在积极的简化效应，补偿了沟通渠道的损失。为了定量评估，构建中介分析：评估直接因果关联 "删除 →留存" 和通过 "删除 → 简化 UI → 留存" 的间接关系，以便分隔净负面效应和结构优势的改善。

如何在功能删除的 "非劣性测试"（non-inferiority testing）中正确计算统计功效，目标是证明损害不超过可接受的阈值？

候选人常常应用经典的功效计算以进行优势测试，这会导致对功能删除“安全性”的不合理结论。在非劣性测试中，零假设被提出为 "效果低于阈值" ，而功效依赖于业务事先确定的容忍度（例如， -2% 的留存）。功效公式需要定义预期真实效果（通常为0或小范围的正值）和方差，并且接近δ需要以指数形式增大样本量。必须使用针对配对比例的专门功效计算器，并进行基于队列的聚类校正，因为同一队列中的用户在关闭时间上是相关的。

如何考虑网络效应（spillover effects），当一个用户删除功能时，会影响其他用户的行为，从而切断沟通联系？

在社交产品或B2B SaaS中，一个行动者（例如，管理员关闭旧API）的功能删除会影响终端用户（员工）的体验，造成处理组和控制组之间的干扰。为了隔离这种效应，采用 基于集群的随机化 或通过 暴露映射 的分析：不再使用单个的处理状态，而使用在社交图（团队、家庭）中失去功能的用户比例。如果个体关闭的事实与集群中关闭用户的比例之间的相关性高（> 0.8），经典OLS将提供偏倚的估计。解决方案是使用 工具变量回归（instrumental variables），其中关闭队列的成员资格作为工具，实际丧失功能则为内生变量，或者采用因果推理方法进行干扰分析，例如，用于校正集群大小的 Fisher随机化测试。