Ответ на вопрос

Исторически, инженеры данных сталкивались с проблемой обработки пропущенных показаний сенсоров, отбрасывая записи или используя постоянную импутацию, что искажало аналитические результаты. Линейная интерполяция появилась как статистически предпочтительный метод для непрерывных физических процессов, предполагая прямолинейную траекторию между двумя известными точками данных.

Проблема требует восстановления NULL значений в упорядоченной последовательности, вычисляя пропорциональное значение в зависимости от временного расстояния от окружающих действительных измерений. Это должно быть выполнено без использования процессуальных циклов или соединения таблицы самой с собой, сохраняя чистую наборную логику.

Решение использует условные оконные функции для установления граничных якорей. MAX с рамкой, охватывающей все предшествующие строки, захватывает наиболее недавнее ненулевое значение и временную метку до текущего пропуска. Напротив, MIN с рамкой, охватывающей все последующие строки, захватывает следующее ненулевое значение и временную метку после пропуска. Формула интерполяции затем вычисляет взвешенное среднее на основе отношения прошедшего времени между этими границами.

WITH boundaries AS (
  SELECT 
    device_id,
    reading_time,
    reading,
    MAX(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_time,
    MAX(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_val,
    MIN(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_time,
    MIN(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_val
  FROM sensor_readings
)
SELECT 
  device_id,
  reading_time,
  COALESCE(
    reading,
    prev_val + (next_val - prev_val) * 
      (EXTRACT(EPOCH FROM (reading_time - prev_time)) / 
       NULLIF(EXTRACT(EPOCH FROM (next_time - prev_time)), 0))
  ) as interpolated_reading
FROM boundaries;

Ситуация из жизни

Фармацевтическая компания контролировала холодовые хранилища вакцин с помощью IoT-датчиков температуры, которые передавали данные каждую минуту. Перегрузка сети в часы пик вызвала sporadic NULL показания, продолжавшиеся 3-5 минут. Соблюдение нормативов FDA требовало полного температурного исторического учета без пропусков, в то время как простое удаление нарушало протоколы непрерывного мониторинга.

Удаление NULL записей изначально рассматривалось как вариант. Этот подход поддерживал фактическую целостность, храня только наблюдаемые значения. Однако он создавал временные разрывы, которые нарушали агрегацию по длительности, такую как расчет общего времени выше критических температурных порогов, что делало набор данных некондиционным для аудита.

Последние наблюдения, перенесенные вперед (LOCF) были оценены как вычислительно тривиальная альтернатива с использованием оконных функций LAST_VALUE. Хотя этот метод был производительным, он предполагал, что температура оставалась постоянной во время сбоев, что нарушало термодинамические принципы постепенного теплового дрейфа в холодильных системах, внося значительный перекос в анализ варьирования и трендов.

Линейная интерполяция в конечном итоге была выбрана. Этот подход моделировал реалистичную тепловую инерцию между измерениями, сохраняя тренды первого порядка и предоставляя математически обоснованные оценки для краткосрочных пробелов, типичных для сетевых сбоев. Хотя он предполагал монотонное линейное изменение, это оказалось точным для коротких, стабильных периодов между циклами компрессора в хранении вакцин.

Реализация успешно восстановила 99,2% пропущенных показаний в ходе аудитов соблюдения в третьем квартале. Интерполированный набор данных поддерживал изменение температуры в пределах 0,1°C от физически зарегистрированных значений, удовлетворяя требованиям FDA без необходимости в дорогих обновлениях оборудования или избыточных сенсорных сетях.

Что кандидаты часто упускают

Как вы обрабатываете NULL значения, которые возникают в самом начале или в конце раздела, где существует только одно граничное значение для интерполяции?

Кандидаты часто реализуют формулу интерполяции, не учитывая крайние случаи, что приводит к возврату NULL для ведущих или конечных пропусков, где либо prev_val, либо next_val неопределены. Решение требует оборачивания логики в выражение CASE: когда prev_time IS NULL, используйте next_val (обратная экстраполяция); когда next_time IS NULL, используйте prev_val (прямое экстраполирование или LOCF); в противном случае применяйте полную формулу интерполяции. Это гарантирует, что запрос возвращает результаты для всего набора данных, а не только для внутреннего диапазона.

Почему выражение (next_val - prev_val) / (next_time - prev_time) может привести к сбоям в строгом ANSI SQL, и какое изменение обеспечивает численную корректность?

Временная арифметика ANSI SQL возвращает тип INTERVAL, а не числовой скаляр. Попытка выполнения арифметического деления между интервалами или смешивания интервалов с десятичными числами вызывает ошибки несовместимости типов. Кроме того, целочисленное деление усечет доли секунд, разрушая точность. Кандидаты должны извлечь секунды эпохи, используя EXTRACT(EPOCH FROM (next_time - prev_time)), чтобы получить числовое представление. Им также следует обернуть делитель в NULLIF(..., 0), чтобы предотвратить ошибки деления на ноль, когда последовательные действительные показания имеют одинаковые временные метки из-за пакетных вставок.

В чем основное различие вычислительной сложности между этим подходом оконных функций и методом самосоединений с использованием коррелируемых подзапросов, и почему это важно для высокочастотных потоковых наборов данных?

Подход с оконными функциями выполняется за O(n log n) времени, доминируемого сортировкой, сохраняя линейное использование памяти в зависимости от размера раздела. Подход с самосоединением и скалярными подзапросами (например, нахождение следующего ненулевого значения через MIN(time) WHERE time > current) ухудшается до O(n²), поскольку каждая строка сканирует таблицу для своих соседей, создавая запрещенные вложенные циклы соединений. Для высокочастотной телеметрии, генерирующей миллионы строк, метод оконных функций использует упорядоченные индексы и однопроходное выполнение, в то время как самосоединения создают декартовы произведения и утечки памяти. Кандидаты часто упускают из виду, что рамки UNBOUNDED FOLLOWING могут потребовать использования дискового спуллинга для больших разделов, хотя это остается асимптотически превосходным по сравнению с квадратичной сложностью.