回答问题

历史背景。 传统的教育科技平台长期以来使用静态学习轨迹，为所有用户提供固定的材料难度。随着机器学习和实时数据处理能力的发展，出现了自适应系统，这些系统根据学生的个体认知能力动态调整内容。然而，评估这些系统的有效性面临着根本的 Methodological 问题：无法同时向同一用户展示自适应和静态版本的课程，以便进行纯粹的比较，而不影响用户体验。

问题陈述。 经典的A/B 测试在这里并不适用，因为适应算法实时基于互动流数据工作，而将用户固定在静态组会破坏产品的逻辑，产生提供显然不优化教育体验的伦理风险。此外，存在很强的内生性：不同初始知识水平的用户对适应的反应是不对称的（有些需要简化，有些需要复杂化），这就要求评估干预效果异质性的方法。

详细解决方案。 最优方法是结合回归不连续设计（RDD）和差异中的差异（DiD），针对不同时间引入的用户群体。首先，如果算法在解决任务的错误达到某一阈值时激活（例如，连续超过30%的错误回答），可以使用Sharp RDD，直接比较适应启用前后的用户。其次，为了评估对保留率的长期影响，采用合成控制法：构建一个加权组合由没有访问自适应系统历史群体的用户，最大程度模仿当前测试组在引入前的行为。此外，使用因果森林或元学习者量化初始准备水平的效应异质性。数据通过SQL汇总，并使用Python进行统计分析，借助causalml、pymc库进行贝叶斯不确定性评估，并使用sklearn构建代理变量。

生活中的情况

在在线编程学校“CodeStart”中引入了自适应跟踪算法，该算法根据之前任务的解决速度和错误模式自动简化或复杂化Python任务。产品经理要求评估这是否能将课程完成率从当前的45%提高到目标的60%，但分析团队发现，关闭算法以形成对照组会导致在学习的第二天大量流失，导致比较不正确。

考虑了三种评估问题的解决方案。

选项 1：经典 A/B 测试，完全关闭算法对50%的流量。 这种方法的优点包括结果解释简单，组间指标直接可比。缺点在于，由于控制组的用户因为过于复杂的内容而产生挫折，或者因为任务过于简单而感到厌倦，导致用户流失风险高，这会产生生存偏差（survivorship bias），违反优质教育的平等获取伦理规范。

选项 2：在没有对照组的情况下进行引入前的历史数据分析（pre-post analysis）。 优点：不需要剥夺部分受众的改善，能够快速获得结果。缺点：无法将算法效应与外部因素区分开，比如季节性（学年开始）、广告渠道的流量质量变化和宏观经济事件，这使得效应评估不可靠且缺乏客观性。

选项 3：在适应引入阈值上使用回归不连续设计（RDD），并应用工具变量。 最终选择了此选项，因为算法在超过25%的错误阈值的情况下会自动触发，从而创造了自然实验。我们比较了错误为24%和26%的用户——这两组在可观察特征上几乎是相同的，但适应状态不同。为了长期评估，我们建立了去年的合成对照组，该组具有类似的初始技能分布，使用倾向得分匹配。

最终结果显示，自适应算法将课程完成率提高了18个百分点（从45%提高到53%），适用于中等初始准备水平的用户，但对高级学生产生了负面效果（-5%），因为由于非常规的解题模式，系统错误地简化了材料。基于这些数据，为有经验的用户引入了复杂度阈值的修正因子，将整体转化率提高到58%。

候选人常常遗漏的内容

当适应算法持续在线学习（online learning），其预测随时间变化，使得静态效应评估失去效用时，应该如何处理这种情况？

回答。需要使用汤普森采样（thompson sampling）或上下文强盗（contextual bandits）作为实验设计的一部分，甚至在引入阶段。与其施加固定作用，模拟的是效果的概率分布，每次新观察时更新。评估时使用离政策评估（off-policy evaluation）方法，如反倾向加权（IPW）或双重鲁棒估计（doubly robust estimators），纠正由于算法政策在收集历史数据过程中变化所带来的偏差。至关重要的是记录每个决策中模型的版本和参数，存储在ClickHouse或类似存储中，以便随后对算法版本进行分层分析，考虑其演变。

为什么在开启和关闭算法的组间进行标准平均比较（t-test）即使在随机化时也会导致偏置估计，以及该如何修正？

回答。问题出在网络效应（spillover effects）和SUTVA（稳定单元处理值假设）假设的违反。如果用户通过论坛、群组项目或聊天互相互动，则对照组会通过社会学习和经验交流“感染”影响。为此，可以采用集群随机化（cluster randomization）（在班级/流中而非个体用户的层面进行随机化）或暴露映射（exposure mapping）——模拟接触适应版本课程的概率。替代使用**双阶段最小二乘法（2SLS）**带有工具变量（例如，适应引入阈值的错误）来隔离局部平均处理效应（LATE）。

如何区分适应效果和新颖效应（novelty effect），即用户更积极互动仅仅是因为界面发生了变化，而不是由于任务匹配质量的改善？

回答。必须进行基于群体的分析（analysis by cohorts），并跟踪效果的时间动态（temporal dynamics）。如果参与指标在使用开始后的2-3周内恢复到基线水平——这就是经典的新颖效应。为此，可以使用分段回归（segmented regression）与中断时间序列（interrupted time series）或与对照组（holdout group）的比较，该组“假装”自适应，但实际上展示的是随机或固定的内容（安慰剂测试）。同样重要的是，不仅分析代理指标（在平台上的时间），还要分析硬指标（hard metrics）（最终考试或实践项目的结果），这些指标不容易受到短期动机会波动的影响，反映了实际的材料掌握情况。