问题的回答

该计算依赖于最小二乘法。斜率（β）定义为自变量X和因变量Y的协方差除以X的方差。截距（α）由Y的平均值减去斜率与X的平均值的乘积得出。在ANSI SQL中，您可以使用SUM、AVG和COUNT聚合来实现这些代数定义，通常是在GROUP BY子句内或作为具有OVER子句的窗口函数。查询必须显式计算交叉乘积的和（Σ(X - X̄)(Y - Ȳ)）和X的平方偏差的和（Σ(X - X̄)²）以解决最终系数。

生活中的情况

一个零售分析团队需要确定每个产品类别的需求价格弹性，以优化动态定价策略。他们拥有一个包含unit_price和quantity_sold的交易表，并需要量化每个不同category_id的销量如何随着价格变化。

一个提议的解决方案是将每日汇总导出到一个外部Python脚本，利用scikit-learn来拟合回归模型。这种方法在实施上简单，并且可以访问丰富的统计诊断。然而，它引入了显著的数据延迟，违反了严格的数据治理政策，因为创建了敏感销售数据的外部副本，并且阻止了对自动定价算法所需的实时仪表板更新。

另一个考虑的选项是在数据库引擎中创建用户定义的聚合函数（UDAF），这将允许像REGRESS_SLOPE(price, quantity)这样的语法。尽管优雅且可重用，但这牺牲了在不同数据库系统之间的可移植性，并且需要提升的管理权限来部署，使其在一个封闭的多租户云数据仓库环境中不适用。

所选择的解决方案直接在ANSI SQL中实现了代数公式，使用标准聚合。团队利用通过category_id分区的SUM和AVG窗口函数，在数据的单次遍历中计算所需的协方差和方差项。这种方法使计算与数据相结合，消除了提取-转换-加载（ETL）延迟，并严格遵守可移植的ANSI SQL标准，而没有专有扩展。结果是一个亚秒的延迟定价弹性仪表板，随着新交易的到来自动更新，直接使自动定价算法能够实时调整利润。

候选人常常忽视的

您如何处理X或Y中的NULL值，而不使整个组的计算无效？

候选人常常忘记，尽管ANSI SQL聚合函数会忽略NULL，但涉及NULL的算术操作会返回NULL。当计算协方差项SUM((x - avg_x) * (y - avg_y))时，如果特定行的x或y为NULL，则乘积会变为NULL，从而将该行排除在总和之外。这有效地执行了逐对删除，通常是所需的，但必须确保用于方差计算的自由度的COUNT反映的是非NULL对的数量，而不是总行数。解决方案是在子查询中使用WHERE x IS NOT NULL AND y IS NOT NULL进行过滤，或者使用COUNT(x)（过滤后等于COUNT(y)）而不是COUNT(*)，确保所有聚合项的分母一致。

计算关于总体与样本的回归有何区别，它如何影响您的SQL查询？

许多候选人在协方差公式和样本方差公式（除以n-1）之间不一致地应用。在ANSI SQL中，内置函数如VAR_POP和VAR_SAMP处理这种区别，但是在手动计算方差时，如SUM(POWER(x - avg_x, 2)) / COUNT(*)，您必须自觉选择分母。对于斜率计算，如果您在分母中手动计算X的方差，必须与协方差计算的除数相匹配。混合它们（例如，样本协方差除以总体方差）会导致斜率偏差。更正的方法是决定统计框架（总体与样本）并对协方差分子和方差分母应用相同的除法逻辑（n或n-1）。

您将如何计算决定系数（R²）以在同一查询中测量拟合优度？

候选人经常遗漏验证指标。R²计算为1 - (SS_res / SS_tot)，其中SS_res是平方残差和（Σ(y - ŷ)²），SS_tot是总平方和（Σ(y - ȳ)²）。计算ŷ（预测的y）需要在早期步骤中计算斜率和截距。在ANSI SQL中，您可以使用堆叠的公共表表达式（CTE）来计算：首先计算均值，然后在第二个CTE中计算斜率和截距，最后在外部查询中计算实际值和预测值之间的平方差。一个常见的错误是在计算的聚合同一层中引用已计算的斜率，这违反了逻辑处理顺序。解决方案是将逻辑分成顺序的CTE，以允许计算出的系数作为常量在R²的最终聚合中重用。

概述ANSI SQL方法以确定在分区组内两个连续变量之间的线性回归系数（斜率和截距），利用标准聚合函数而不依赖于统计包或过程逻辑？

问题的回答

生活中的情况

候选人常常忽视的