Antwort auf die Frage

Historisch gesehen standen Dateningenieure vor der Herausforderung, fehlende Sensormesswerte zu handhaben, indem sie entweder Datensätze verwarfen oder konstante Imputationen verwendeten, die beide analytische Ergebnisse verzerrten. Die lineare Interpolation erwies sich als statistisch bevorzugte Methode für kontinuierliche physikalische Prozesse, die von einer geraden Linienführung zwischen zwei bekannten Datenpunkten ausgeht.

Das Problem erfordert die Rekonstruktion von NULL-Werten in einer geordneten Sequenz, indem ein proportionaler Wert basierend auf der zeitlichen Entfernung zu den umgebenden gültigen Messungen berechnet wird. Dies muss ohne prozedurale Schleifen oder Selbstverknüpfungen realisiert werden, um pure set-basierte Logik aufrechtzuerhalten.

Die Lösung verwendet bedingte Fensterfunktionen, um Grenzwertanker zu bestimmen. MAX mit einem Rahmen, der sich auf alle vorhergehenden Zeilen erstreckt, erfasst den aktuellsten nicht-null Wert und Zeitstempel vor der aktuellen Lücke. Im Gegensatz dazu erfasst MIN mit einem Rahmen, der sich auf alle nachfolgenden Zeilen erstreckt, den nächsten nicht-null Wert und Zeitstempel nach der Lücke. Die Interpolationsformel berechnet dann den gewichteten Durchschnitt basierend auf dem Verhältnis der verstrichenen Zeit zwischen diesen Grenzen.

WITH boundaries AS (
  SELECT 
    device_id,
    reading_time,
    reading,
    MAX(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_time,
    MAX(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS UNBOUNDED PRECEDING) as prev_val,
    MIN(CASE WHEN reading IS NOT NULL THEN reading_time END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_time,
    MIN(CASE WHEN reading IS NOT NULL THEN reading END) 
      OVER (PARTITION BY device_id ORDER BY reading_time 
            ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) as next_val
  FROM sensor_readings
)
SELECT 
  device_id,
  reading_time,
  COALESCE(
    reading,
    prev_val + (next_val - prev_val) * 
      (EXTRACT(EPOCH FROM (reading_time - prev_time)) / 
       NULLIF(EXTRACT(EPOCH FROM (next_time - prev_time)), 0))
  ) as interpolated_reading
FROM boundaries;

Lebenssituation

Ein Pharmaunternehmen überwachte Kühlräume für Impfstoffe mit IoT-Temperatursensoren, die jede Minute berichteten. Netzwerküberlastungen während der Spitzenbetriebszeiten führten zu sporadischen NULL-Messungen, die 3-5 Minuten andauerten. Die regulatorische FDA-Vorgabe forderte eine lückenlose Temperaturhistorie, während einfache Löschungen die kontinuierlichen Überwachungsprotokolle verletzten.

Löschen von NULL-Datensätzen wurde zunächst in Betracht gezogen. Dieser Ansatz bewahrte die faktische Integrität, indem nur beobachtete Werte gespeichert wurden. Es führte jedoch zu zeitlichen Diskontinuitäten, die aggregierte Berechnungen, wie die Berechnung der Gesamtzeit über kritische Temperaturgrenzwerte, erschwerten und die Datensätze nicht auditkonform machten.

Last Observation Carried Forward (LOCF) wurde als rechnerisch triviale Alternative unter Verwendung von LAST_VALUE-Fensterfunktionen bewertet. Obwohl diese Methode performant war, nahm sie an, dass die Temperatur während der Ausfälle konstant blieb, was die thermodynamischen Prinzipien der allmählichen thermischen Drift in Kühlsystemen verletzte und erhebliche Verzerrungen in der Varianz- und Trendanalyse einführte.

Die lineare Interpolation wurde schließlich ausgewählt. Dieser Ansatz modellierte die realistische thermische Trägheit zwischen Messungen, bewahrte erste Trends und lieferte mathematisch fundierte Schätzungen für kurzzeitige Lücken, die typisch für Netzwerkprobleme sind. Obwohl davon ausgegangen wurde, dass eine monotone lineare Veränderung stattfand, erwies sich dies als genau für die kurzen, stabilen Perioden zwischen den Kompressorrunden in der Impfstofflagerung.

Die Implementierung rekonstruierte erfolgreich 99,2 % der verlorenen Messwerte während der Q3-Compliance-Prüfungen. Der interpolierte Datensatz hielt die Temperaturvarianz innerhalb von 0,1 °C der physikalisch aufgezeichneten Werte ein und erfüllte die Anforderungen der FDA, ohne kostspielige Hardware-Upgrades oder redundante Sensornetzwerke zu benötigen.

Was Kandidaten oft übersehen

Wie gehen Sie mit NULL-Werten um, die ganz am Anfang oder Ende einer Partition auftreten, wo nur ein Grenzwert für die Interpolation vorhanden ist?

Kandidaten implementieren häufig die Interpolationsformel, ohne Randfälle zu berücksichtigen, wodurch die Berechnung NULL für führende oder nachfolgende Lücken zurückgibt, in denen entweder prev_val oder next_val undefiniert ist. Die Lösung erfordert das Einwickeln der Logik in einen CASE-Ausdruck: Wenn prev_time IS NULL, verwenden Sie next_val (rückwärts extrapolierend); wenn next_time IS NULL, verwenden Sie prev_val (vorwärts extrapolierend oder LOCF); andernfalls wenden Sie die vollständige Interpolationsformel an. Dies stellt sicher, dass die Abfrage Ergebnisse für den gesamten Datensatz zurückgibt und nicht nur für den innere Bereich.

Warum kann der Ausdruck (next_val - prev_val) / (next_time - prev_time) in strikt ANSI SQL fehlschlagen, und welche Modifikation gewährleistet numerische Korrektheit?

Die Datums- und Uhrzeit-Arithmetik von ANSI SQL gibt einen INTERVAL-Typ zurück, keinen numerischen Skalar. Der Versuch, arithmetische Divisionen zwischen Intervallen oder das Mischen von Intervallen mit Dezimalzahlen durchzuführen, führt zu Typinkompatibilitätsfehlern. Darüber hinaus würde die ganzzahlige Division die Bruchteile der Sekunden abschneiden und die Präzision zerstören. Kandidaten müssen die epochalen Sekunden mit EXTRACT(EPOCH FROM (next_time - prev_time)) extrahieren, um eine numerische Darstellung zu erhalten. Sie müssen auch den Nenner in NULLIF(..., 0) einkapseln, um Division-by-Zero-Fehler zu vermeiden, wenn aufeinanderfolgende gültige Messwerte identische Zeitstempel aufgrund von Batch-Uploads haben.

Was ist der fundamentale Unterschied in der Rechenkomplexität zwischen diesem Ansatz mit Fensterfunktionen und einer Selbstverknüpfungsmethode mit korrelierten Unterabfragen, und warum ist das wichtig für hochfrequente Streaming-Datensätze?

Der Ansatz mit Fensterfunktionen wird in O(n log n) Zeit ausgeführt, die durch den Sortierprozess dominiert wird, und hält dabei eine lineare Speichernutzung in Bezug auf die Partitionierung bei. Ein Selbstverknüpfungsansatz mit skalaren Unterabfragen (z. B. das Finden des nächsten Nicht-NULL durch MIN(time) WHERE time > current) verschlechtert sich auf O(n²), da jede Zeile die Tabelle nach ihren Nachbarn durchsucht, was prohibitive verschachtelte Schleifenverknüpfungen erzeugt. Für hochfrequente Telemetrie, die Millionen von Zeilen erzeugt, nutzt die Methode mit Fensterfunktionen geordnete Indexscans und eine Ein-Pass-Ausführung, während Selbstverknüpfungen kartesische Produkte und Speicherüberläufe verursachen. Kandidaten übersehen oft, dass UNBOUNDED FOLLOWING-Räume möglicherweise eine Festplattenspeicherung für große Partitionen erfordern, obwohl dies asymptotisch immer noch besser ist als die quadratische Komplexität.