回答

利用CTE（公共表表达式）结合ROW_NUMBER()窗口函数，确定性地标记重复项。根据唯一逻辑键列（sensor_id，granularity）对数据集进行分区，并应用反映保留优先级的ORDER BY子句：signal_strength DESC，接着是timestamp ASC，最后是主键（例如log_id）作为最终的平局打破者，以确保确定性。外部查询随后删除所有分配的行号大于一的记录，确保每组仅保留优先级最高的行。

WITH RankedLogs AS (
  SELECT log_id,
         ROW_NUMBER() OVER (
           PARTITION BY sensor_id, granularity 
           ORDER BY signal_strength DESC, timestamp ASC, log_id ASC
         ) AS priority_rank
  FROM telemetry_logs
)
DELETE FROM telemetry_logs
WHERE log_id IN (
  SELECT log_id 
  FROM RankedLogs 
  WHERE priority_rank > 1
);

生活中的情况

一个工业物联网平台从制造机器人中获取高频振动数据，存储在名为machine_telemetry的表中。由于MQTT代理在网络分区期间重试，表中大约有40%的内容是重复记录，共享相同的robot_id和time_bucket，但有效负载校验和略有差异。报告仪表板双重计算了操作小时，扭曲了维护计划。

解决方案 1：相关自连接。 一种方法是将表与自身在robot_id和time_bucket上进行连接，删除代理键大于搭档键的行。此方法无需窗口函数。然而，它的时间复杂度接近O(N²)，导致在3亿行数据集上的性能严重下降，并且在复合键中错误处理NULL值，未能正确匹配。

解决方案 2：带分组的临时表。 工程师们考虑创建一个只包含通过GROUP BY和MIN()聚合识别出的生存log_id的临时表，然后截断原始表并重新插入。尽管逻辑上合理，但这需要大量临时存储空间，要求DDL权限在受限的生产环境中不可用，并且在并发读者中创建了一段数据看似缺失的短窗口。

解决方案 3：窗口函数CTE。 团队实施了**ROW_NUMBER()**策略，根据重复键（robot_id，time_bucket）进行分区，并按信号质量指标排序。该解决方案作为单个原子事务执行，在清理过程中防止数据不一致。它在四分钟内处理了整个积压，减少了40%的存储成本而不需要将表下线。

候选人常常遗漏的内容

为什么一个真正唯一的主键必须始终作为去重窗口函数ORDER BY子句中的最后一列，即使业务逻辑似乎仅决定按非唯一时间戳排序？

在ANSI SQL中，对于所有指定的ORDER BY键具有相同值的行的顺序是非确定性的。如果两个重复记录共享相同的timestamp和signal_strength，数据库引擎可以任意排列它们。因此，多次执行删除逻辑可能会随机选择不同的行进行保留，导致结果不一致并可能丢失关键数据。附加主键确保整体排序，确保可幂等和可复现的删除。

ANSI SQL如何处理PARTITION BY子句中的NULL值，与连接条件中的标准相等谓词相比，这种区别如何危害去重准确性？

在GROUP BY或PARTITION BY子句中，ANSI SQL将NULL值视为不可区分的，将它们分组在一起（实际上，NULL等于NULL以进行聚合）。相反，在WHERE子句或连接谓词（ON t1.x = t2.x）中，表达式NULL = NULL评估为UNKNOWN，而不是TRUE。因此，如果通过自连接去重，匹配列中的NULL值将永远不会被识别为重复，导致它们错误地存活。要在连接中正确处理NULL，必须使用IS NOT DISTINCT FROM语法（ANSI SQL:1999）。

在单个事务中删除数百万个重复项时，什么特定的并发和资源风险威胁到生产稳定性，什么ANSI SQL技术可以缓解这种风险？

一个单一的DELETE语句对于每个受影响的行获取排他锁，可能升级到表级锁，阻止所有并发插入和读取。此外，它会生成庞大的事务日志增长，风险磁盘耗尽或恢复失败。为此，一定要按照ANSI SQL的要求分批处理删除操作。这涉及在子查询中迭代删除识别出的有限子集，使用FETCH FIRST n ROWS ONLY或使用可滚动光标，逐个独立提交每个小事务，从而释放锁并逐步截断日志段。

在清除冗余遥测日志时，如何在严格遵循ANSI SQL窗口函数的情况下，根除重复条目，同时强制执行确定性保留层次结构——优先保留具有最高信号强度的记录，其次是最早的时间戳，且不使用过程迭代？

回答

生活中的情况

候选人常常遗漏的内容