问题的回答

问题的历史

指数移动平均（EMA）起源于20世纪中叶的技术分析，作为一种平滑技术，给予最近观察更大的权重。与简单移动平均不同，EMA的计算具有递归数学特性，其中每个值依赖于先前计算的EMA，形成一个抵抗向量化的依赖链。由于标准窗口函数在静态框架上操作，而非累积结果，这一特性使得在基于集合的SQL中实现起来非常困难。面试官提出这个问题是为了评估候选人的ANSI SQL递归能力以及将迭代算法转化为声明性集合逻辑的能力。

问题

在数学上，时间t的EMA定义为：EMAt = α × Price_t + (1-α) × EMA{t-1}，其中α是平滑因子（通常为2/(N+1)，用于N期平均）。基础情况使用第一期的价格作为初始EMA。在数据库上下文中，我们面临在按时间戳排序的数百万行中维持这一运行计算的挑战，其中每一行都需要访问前一行的计算结果。标准的ANSI SQL聚合函数如SUM或AVG无法表达这种递归依赖，带有ROWS或RANGE子句的窗口函数只能访问原始输入值，而不能访问前一行的计算输出。

解决方案

我们使用递归CTE（公共表表达式）来顺序遍历已排序的数据集。首先，我们使用ROW_NUMBER()建立确定性的行顺序，以处理缺口或不规则的时间戳。锚成员选择每个分区（例如，股票符号）的初始行，将初始EMA设为第一个价格。递归成员然后将CTE连接到下一个顺序行（其中row_number = previous + 1），并使用前一轮迭代的计算值应用EMA公式。这种方法严格遵循ANSI SQL:1999标准，并作为单个基于集合的操作执行。

WITH RECURSIVE numbered_trades AS (
  SELECT 
    symbol, 
    price, 
    trade_time,
    ROW_NUMBER() OVER (PARTITION BY symbol ORDER BY trade_time) AS rn
  FROM trades
),
ema_series AS (
  -- 锚：每个符号的第一行
  SELECT 
    symbol, 
    price, 
    rn, 
    price AS ema  -- 初始EMA等于第一个价格
  FROM numbered_trades
  WHERE rn = 1
  
  UNION ALL
  
  -- 递归：计算后续行的EMA
  SELECT 
    t.symbol,
    t.price,
    t.rn,
    0.2 * t.price + 0.8 * e.ema AS ema  -- α = 0.2，用于9期EMA
  FROM ema_series e
  JOIN numbered_trades t 
    ON t.symbol = e.symbol 
    AND t.rn = e.rn + 1
)
SELECT symbol, price, ema, rn
FROM ema_series
ORDER BY symbol, rn;

生活中的情况

一家定量交易公司需要为五年的历史刻度数据填充EMA指标，以验证一个新算法。数据集包含2.5亿行高频市场数据，而现有的Python Pandas解决方案需要通过网络传输数十亿字节的数据，导致在市场波动高峰期分析工作站频繁超时和内存错误。

团队首先考虑使用Pandas的ewm()方法实现一个Python预处理脚本。这个方法提供了快速原型设计和定量分析师熟悉的语法，并且通过优化的C扩展原生支持递归计算。然而，它带来了显著的数据传输开销，要求将数百万行加载到内存中，并需要复杂的分块逻辑在批处理中处理符号，而不丢失EMA计算的连续性。

其次，他们检查了使用SELF JOIN和指数权重计算的纯集合方法，其中每一行都连接到200期回顾内的所有先前行并应用几何权重。这种方法完全避免递归，从理论上允许数据库优化器并行化操作。然而，它在与回顾窗口大小相关的O(n²)复杂性方面存在缺陷，导致在处理高频刻度数据时生成巨大的中间结果集，从而使tempdb超负荷，并且由于有限窗口截断，仅提供了真实EMA的近似值。

第三，他们评估了使用ANSI SQL标准语法的递归CTE解决方案。这种方法完全在数据库引擎内执行，消除了网络传输开销，并通过严格遵循递归定义计算了数学精确的EMA。虽然在极长的符号历史上存在触及递归深度限制的风险，并且在大多数ANSI SQL实现中以单线程执行每个符号，但它在内存方面高效，并避免了自连接方法的平方膨胀。

他们选择了递归CTE方法，因为它消除了数据移动，确保了与Pandas相同的数字精度，并且可以作为数据库原生的物化视图刷新来调度，无需外部依赖。DBA配置了max_recursive_iterations参数以适应最长的符号历史（每个符号大约50000个刻度）。

实施过程在大约12分钟内处理了整个2.5亿行的数据集。结果EMA值与Pandas计算匹配到浮点精度，验证了SQL实现的数学正确性。随后该公司将查询作为每晚的物化视图刷新进行了生产化，消除了外部Python脚本的需要，并显著减少了他们的数据管道复杂性。

候选人常常忽视的内容

当源表包含序列中的间隙或不规则时间戳时，你如何处理计算？

许多候选人假设trade_time或ID列提供适合rn = e.rn + 1连接的密集序列。实际上，缺失的刻度或删除的记录会导致间隙，打破递归链。解决方案需要在递归CTE之前使用**ROW_NUMBER()或DENSE_RANK()**物化出密集排名，以确保无论时间戳间隙如何，连续整数依然存在。这将逻辑顺序与物理键值解耦，允许递归在不间断的情况下进行，同时保持正确的时间顺序。

为什么递归CTE方法可能在极长时间序列（例如，每个符号100,000+行）时失败，如何在ANSI SQL约束内缓解这一点？

候选人通常忽略ANSI SQL标准并不要求无限递归深度，并且像PostgreSQL这样的实现默认设置为1000次迭代，而SQL Server默认为100次。超过这些限制会中止查询。缓解方法涉及使用控制表进行批处理或迭代方法，但在严格的ANSI SQL中，你必须要么增加会话的递归限制（非ANSI），要么实现使用窗口函数对固定回顾期的近似EMA进行混合的方法（例如，200期），其中指数衰减使较旧的贡献变得微不足道。对于精确计算，你必须确保平台的递归限制超过最大序列长度，或使用存储过程循环（在此问题的约束中被禁止）。

当同时在单个递归查询中为多个独立时间序列（例如，不同股票符号）计算EMA时，如何防止交叉污染？

一个常见错误是遗漏递归连接谓词中的分区键。候选人写t.rn = e.rn + 1而不包括t.symbol = e.symbol，导致当行号对齐时递归跳跃到不同的符号。正确的实现需要在锚和递归成员中都携带分区键（符号），并严格在序列号增量和分区相等的情况下进行连接。这确保了每个符号的递归树保持隔离，在单个CTE执行中有效地创建了独立的计算上下文。

你会以什么方式计算一个**指数移动平均**，在顺序排列的金融数据上，每个计算值都递归依赖于先前的结果，使用严格的**ANSI SQL**而没有过程扩展？

问题的回答

问题的历史

问题

解决方案

生活中的情况

候选人常常忽视的内容

你会以什么方式计算一个指数移动平均，在顺序排列的金融数据上，每个计算值都递归依赖于先前的结果，使用严格的ANSI SQL而没有过程扩展？