Odpowiedź na pytanie

Historycznie, inżynierowie danych stawali przed wyzwaniem obsługi brakujących odczytów czujników, decydując się na unikanie rekordów lub stosowanie imputacji stałej, co zniekształcało wyniki analityczne. Interpolacja liniowa pojawiła się jako statystycznie preferowana metoda dla ciągłych procesów fizycznych, zakładając prostą trasę między dwoma znanymi punktami danych.

Problem polega na rekonstrukcji wartości NULL w uporządkowanej sekwencji poprzez obliczenie proporcjonalnej wartości na podstawie temporalnej odległości od otaczających ważnych pomiarów. Musi to być osiągnięte bez uciekania się do proceduralnych pętli czy łączenia tabeli ze sobą, zachowując czystą logikę opartą na zbiorach.

Rozwiązanie wykorzystuje warunkowe funkcje okienkowe do ustalenia punktów granicznych. MAX z ramą obejmującą wszystkie poprzedzające wiersze przechwytuje najnowszą wartość nie-NULL i znacznik czasu przed aktualną luką. Z kolei MIN z ramą obejmującą wszystkie następujące wiersze przechwytuje następne wartość nie-NULL i znacznik czasu po luce. Wzór interpolacji następnie oblicza średnią ważoną na podstawie proporcji upłyniętego czasu pomiędzy tymi granicami.

WITH boundaries AS (
  SELECT 
    device_id,
    reading_time,
    reading,
    MAX(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_time,
    MAX(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_val,
    MIN(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_time,
    MIN(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_val
  FROM sensor_readings
)
SELECT 
  device_id,
  reading_time,
  COALESCE(
    reading,
    prev_val + (next_val - prev_val) * 
      (EXTRACT(EPOCH FROM (reading_time - prev_time)) / 
       NULLIF(EXTRACT(EPOCH FROM (next_time - prev_time)), 0))
  ) as interpolated_reading
FROM boundaries;

Przykład z życia

Firma farmaceutyczna monitorowała jednostki chłodzące szczepionek przy użyciu czujników temperatury IoT, które zgłaszały co minutę. Zator sieciowy podczas godzin szczytu skutkował sporadycznymi odczytami NULL trwającymi 3-5 minut. Przepisy zgodności z FDA wymagały pełnej historii temperatury bez luk, podczas gdy proste usuwanie naruszało protokoły ciągłego monitorowania.

Usunięcie rekordów NULL było rozważane najpierw. To podejście utrzymywało integralność faktów, przechowując tylko zaobserwowane wartości. Niemniej jednak stworzyło to przerwy czasowe, które zrujnowałyby agregacje oparte na czasie, takie jak obliczanie całkowitego czasu powyżej krytycznych progów temperatury, co sprawiło, że zestaw danych nie był zgodny z normami audytu.

Ostatnia obserwacja przeniesiona do przodu (LOCF) została oceniona jako obliczeniowo trywialna alternatywa z wykorzystaniem funkcji okienkowej LAST_VALUE. Choć skuteczna, metoda ta zakładała, że temperatura pozostaje stała podczas awarii, co naruszało zasady termodynamiki dotyczące stopniowego dryfu termicznego w systemach chłodnicy, wprowadzając istotny błąd w analizach wariancji i trendu.

Interpolacja liniowa została ostatecznie wybrana. To podejście modelowało realistyczną inercję termiczną między pomiarami, zachowując pierwszorzędne trendy i dostarczając matematycznie uzasadnione oszacowania dla typowych krótkotrwałych luk związanych z zakłóceniami sieciowymi. Chociaż zakładała monotoniczną zmianę liniową, okazała się dokładna dla krótkich, stabilnych okresów między cyklami kompresora w przechowywaniu szczepionek.

Wdrożenie skutecznie zrekonstruowało 99,2% utraconych odczytów podczas audytów zgodności w Q3. Zestaw danych z interpolacją utrzymywał wariancję temperatury w granicach 0,1°C od fizycznych wartości pomiarowych, spełniając wymagania FDA bez potrzeby kosztownych aktualizacji sprzętu czy redundantnych sieci czujników.

Co często umyka kandydatom

Jak radzisz sobie z wartościami NULL, które występują na samym początku lub końcu partycji, gdzie istnieje tylko jedna wartość graniczna dla interpolacji?

Kandydaci często implementują wzór interpolacji bez uwzględnienia przypadków brzegowych, co powoduje, że obliczenie zwraca NULL dla prowadzących lub końcowych luk, gdzie prev_val lub next_val jest niezdefiniowane. Rozwiązanie wymaga owinięcia logiki w wyrażenie CASE: gdy prev_time IS NULL, należy użyć next_val (ekstrapolacja wsteczna); gdy next_time IS NULL, należy użyć prev_val (ekstrapolacja w przód lub LOCF); w przeciwnym razie zastosować pełny wzór interpolacji. Gwarantuje to, że zapytanie zwraca wyniki dla całego zestawu danych, a nie tylko dla wewnętrznego zakresu.

Dlaczego wyrażenie (next_val - prev_val) / (next_time - prev_time) może potencjalnie zawodzić w ścisłym ANSI SQL, a jaka modyfikacja zapewnia poprawność numeryczną?

Aritmetyka daty i czasu ANSI SQL zwraca typ INTERVAL, a nie skalar numeryczny. Próbując wykonać dzielenie arytmetyczne pomiędzy interwałami lub mieszając interwały z wartościami dziesiętnymi, występują błędy niezgodności typów. Ponadto, dzielenie całkowite obetnie ułamkowe sekundy, niszcząc precyzję. Kandydaci muszą wydobyć sekundy epoki za pomocą EXTRACT(EPOCH FROM (next_time - prev_time)), aby uzyskać reprezentację numeryczną. Muszą również owinąć mianownik w NULLIF(..., 0), aby zapobiec błędom dzielenia przez zero, gdy kolejne ważne odczyty mają identyczne znaczniki czasowe z powodu zbiorczych wstawień.

Jaka jest zasadnicza różnica w złożoności obliczeniowej pomiędzy tym podejściem funkcji okienkowej a metodą samo-łączenia przy użyciu skorelowanych podzapytań, i dlaczego ma to znaczenie dla zbiorów danych o wysokiej częstotliwości?

Podejście funkcji okienkowej wykonuje się w czasie O(n log n), dominowanym przez operację sortowania, utrzymując liniowe wykorzystanie pamięci w stosunku do rozmiaru partycji. Podejście z samo-łączeniem z użyciem podzapytań skalarowych (np. znajdowanie następnej wartości nie-NULL z użyciem MIN(time) WHERE time > current) degradują do O(n²), ponieważ każdy wiersz przeszukuje tabelę w celu znalezienia sąsiadów, co prowadzi do kosztownych zagnieżdżonych połączeń. Dla telemetrii o wysokiej częstotliwości generującej miliony wierszy, metoda funkcji okienkowej wykorzystuje uporządkowane skanowanie indeksu i jedno-pasyjne wykonanie, podczas gdy samo-łączenia powodują produkcję kartezjańską i przepełnienia w pamięci. Kandydaci często nie zauważają, że ramy UNBOUNDED FOLLOWING mogą wymagać spooling na dysku dla dużych partycji, chociaż pozostaje to asymptotycznie lepsze od złożoności kwadratowej.