Odpowiedź na pytanie

Historia pytania

To pytanie powstało w wyniku ewolucji standardów SQL od SQL-92 do SQL:2003, kiedy funkcje okienne zostały formalnie wprowadzone do standardu. Przed tym postępem, programiści polegali na kursorach proceduralnych lub kosztownych obliczeniowo złączeniach, aby rozwiązywać problemy związane z sekwencjami. Wzorzec luk i wysp reprezentuje przesunięcie paradygmatu od algorytmów proceduralnych do logiki deklaratywnej opartej na zbiorach, która definiuje zestawy wynikowe, a nie kroki przetwarzania.

Problem

Pracując z tabelami zawierającymi wartości sekwencyjne, takie jak znaczniki czasowe, identyfikatory lub daty, musisz grupować kolejne wartości w ciągłe bloki (wyspy), odróżniając je od przerw (luk). Fundamenty tego wyzwania tkwią w tym, że tabele ANSI SQL reprezentują nieuporządkowane zbiory matematyczne, a wykrywanie sekwencji wymaga jawnego porządkowania. Tradycyjne klauzule GROUP BY agregują podobne wartości, ale niszczą sekwencyjne relacje potrzebne do identyfikacji ciągłości.

Rozwiązanie

Wykorzystaj różnicę arytmetyczną między ROW_NUMBER() w całym zbiorze danych a ROW_NUMBER() podzielonym przez klucz grupujący, aby wygenerować stały identyfikator wyspy. Ta technika tworzy identyczne wartości obliczeniowe dla wszystkich wierszy w tej samej ciągłej sekwencji, co pozwala na standardową agregację w celu rekonstrukcji wysp.

WITH numbered AS (
  SELECT 
    event_date,
    ROW_NUMBER() OVER (ORDER BY event_date) AS rn_global,
    event_date - ROW_NUMBER() OVER (ORDER BY event_date) AS island_grp
  FROM events
)
SELECT 
  MIN(event_date) AS island_start,
  MAX(event_date) AS island_end,
  COUNT(*) AS consecutive_days
FROM numbered
GROUP BY island_grp;

Sytuacja z życia

Zespół analityki detalicznej potrzebował zrekonstruować sesje zakupowe klientów na podstawie danych z ścieżki kliknięć przechowywanych w PostgreSQL. System rejestrował miliony wydarzeń zawierających user_id i event_time, ale brakowało gotowych identyfikatorów sesji. Wymagania biznesowe definiowały sesję jako sekwencję wydarzeń, w której żadna luka nie przekraczała 30 minut braku aktywności.

Pierwsze podejście rozważało użycie self-join z skorelowanym podzapytaniem, aby zlokalizować każdego wydarzenia bezpośredniego poprzednika. Metoda ta wymagała O(n²) porównań wierszy, co powodowało przekroczenia czasowe zapytań przy przetwarzaniu dziennych partii przekraczających pięć milionów wierszy, chociaż utrzymywała kompatybilność z systemami SQL-92 nieposiadającymi nowoczesnych funkcji okiennych.

Zespół następnie ocenił kursory pl/pgSQL, aby iterować przez wydarzenia wiersz po wierszu, jednocześnie utrzymując stan sesji w zmiennych proceduralnych. Chociaż to podejście oferowało intuicyjną logikę znajomą programistom aplikacji, porzuciło zasady przetwarzania zbiorowego i wymagało ponad czterech godzin na zakończenie dziennych partii, co powodowało niedopuszczalną latencję ETL i znaczące problemy z blokowaniem tabel.

Wybrane rozwiązanie wykorzystywało wyłącznie funkcje okienne ANSI SQL. Poprzez zastosowanie LAG() do uchwycenia poprzedniego znacznika czasu dla użytkownika i obliczenia różnic czasowych, zespół zidentyfikował granice sesji, gdzie luki przekraczały 30 minut. Warunkowa suma bieżąca generowała unikalne identyfikatory sesji, co umożliwiało agregację opartą na zbiorach. Ta metoda przetworzyła cały zbiór danych w osiem minut, skalując się liniowo w zależności od objętości i pozostając przenośnym między Oracle, SQL Server i PostgreSQL bez modyfikacji składni specyficznych dla dostawcy.

Co kandydaci często pomijają

Dlaczego nie mogę po prostu przyciąć znaczników czasu do godziny i grupować według tej wartości, aby znaleźć sesje?

Przycinanie znaczników czasu za pomocą DATE_TRUNC lub podobnych funkcji wymusza sztuczne granice na godzinach zegarowych zamiast opartych na różnicach czasowych. Dwa wydarzenia mające miejsce o 10:55 i 11:05 zostałyby oddzielone w różne grupy, mimo że dzieliło je tylko 10 minut, podczas gdy wydarzenia o 10:01 i 10:59 grupowałyby się ze sobą pomimo 58-minutowej luki. Prawidłowe wykrywanie sesji wymaga obliczenia interwału od każdego bezpośredniego poprzednika wydarzenia, a nie dostosowywania do granic kalendarza.

Jak wartości NULL w kolumnie porządkowej wpływają na wykrywanie wysp przy użyciu LAG lub LEAD?

LAG i LEAD zwracają NULL dla pierwszego i ostatniego wiersza każdej partycji. Gdy odejmujesz opóźniony znacznik czasu od bieżącego znacznika czasu w celu obliczenia luk, arytmetyka z NULL daje rezultaty NULL, co może spowodować, że całe wyspy znikną z agregacji. Musisz skorzystać z opcjonalnego parametru default w LAG (na przykład, LAG(event_time, 1, event_time) OVER (...)) lub jawnie obsługiwać NULL za pomocą COALESCE, aby zapobiec fragmentacji wysp na granicach partycji.

Co się zmienia, gdy wykrywasz wyspy w wielu kategoriach jednocześnie, na przykład dla użytkownika lub urządzenia?

Kandydaci często pomijają klauzulę PARTITION BY w funkcjach okiennych, obliczając ROW_NUMBER globalnie w całej tabeli, a nie w obrębie kategorii. Bez partycjonowania według user_id lub równoważnych kolumn grupujących, wyspy z różnych użytkowników błędnie się łączą, gdy ich sekwencje przypadkowo się czasowo zsynchronizują. Każda funkcja okienna zaangażowana w obliczanie wysp musi obejmować PARTITION BY user_id, aby zapewnić, że arytmetyka jest resetowana dla każdego odrębnego podmiotu, utrzymując niezależne wykrywanie wysp w każdej partycji.