Antwoord op de vraag

Geschiedenis van de vraag

Deze vraag is voortgekomen uit de evolutie van SQL-standaarden van SQL-92 naar SQL:2003, toen vensterfuncties formeel aan de standaard werden toegevoegd. Voor deze vooruitgang vertrouwden ontwikkelaars op procedurele cursors of computationeel kostbare zelf-joins om sequentiegerichte problemen op te lossen. Het gaten-en-eilanden patroon vertegenwoordigt de paradigmawisseling van procedurele algoritmes naar declaratieve, set-gebaseerde logica die resultaatsets definieert in plaats van verwerkingsstappen.

Het probleem

Bij het werken met tabellen die sequentiële waarden bevatten, zoals tijdstempels, IDs of data, moet je opeenvolgende waarden groeperen in aaneengeschakelde blokken (eilanden) terwijl je ze onderscheidt van onderbrekingen (gaten). De fundamentele uitdaging ontstaat omdat ANSI SQL-tabellen ongeordende wiskundige verzamelingen vertegenwoordigen, terwijl het detecteren van sequenties expliciete ordening vereist. Traditionele GROUP BY clausules aggregeren soortgelijke waarden, maar vernietigen de sequentiële relaties die nodig zijn om aaneengeschakeldheid te identificeren.

De oplossing

Maak gebruik van het rekenkundige verschil tussen ROW_NUMBER() over de hele dataset en ROW_NUMBER() gepartitioneerd op de groepeersleutel om een constante eilandidentifier te genereren. Deze techniek creëert identieke berekende waarden voor alle rijen binnen dezelfde aaneengeschakelde sequentie, waardoor standaardaggregatie de eilanden kan reconstrueren.

WITH numbered AS (
  SELECT 
    event_date,
    ROW_NUMBER() OVER (ORDER BY event_date) AS rn_global,
    event_date - ROW_NUMBER() OVER (ORDER BY event_date) AS island_grp
  FROM events
)
SELECT 
  MIN(event_date) AS island_start,
  MAX(event_date) AS island_end,
  COUNT(*) AS consecutive_days
FROM numbered
GROUP BY island_grp;

Situatie uit het leven

Een retail analytics team had de behoefte om klantwinkelsessies te reconstrueren uit clickstreamgegevens die waren opgeslagen in PostgreSQL. Het systeem registreerde miljoenen gebeurtenissen met user_id en event_time, maar miste vooraf berekende sessie-identificatoren. De bedrijfsvereisten definieerden een sessie als een reeks gebeurtenissen waarbij geen gat meer dan 30 minuten van inactiviteit overschreed.

De eerste benadering overwoog het gebruik van een self-join met een gecorreleerde subquery om de directe voorganger van elke gebeurtenis te vinden. Deze methode vereiste O(n²) rijvergelijkingen, wat leidde tot time-outs van de query bij het verwerken van dagelijkse batches die meer dan vijf miljoen rijen bevatten, hoewel het compatibel bleef met oudere SQL-92 systemen die moderne vensterfuncties misten.

Het team evalueerde vervolgens pl/pgSQL cursors om door gebeurtenissen rij-voor-rij te itereren terwijl de sessiestaat in procedurele variabelen werd behouden. Hoewel deze aanpak intuïtieve logica bood die vertrouwd was voor applicatieontwikkelaars, verliet het de principes van set-gebaseerde verwerking en vereiste het meer dan vier uur om dagelijkse batches te voltooien, wat onaanvaardbare ETL-latentie en aanzienlijke tabelvergrendelingsproblemen veroorzaakte.

De gekozen oplossing maakte uitsluitend gebruik van ANSI SQL-vensterfuncties. Door LAG() toe te passen om de vorige tijdstempel per gebruiker vast te leggen en tijdsverschillen te berekenen, identificeerde het team sessiegrenzen waar de gaten meer dan 30 minuten overschreden. Een voorwaardelijke lopende som genereerde unieke sessie-identificatoren, wat set-gebaseerde aggregatie mogelijk maakte. Deze methode verwerkte de hele dataset in acht minuten, schaalde lineair met het volume en bleef draagbaar over Oracle, SQL Server en PostgreSQL zonder specifieke syntaxiswijzigingen voor leveranciers.

Wat kandidaten vaak missen

Waarom kan ik tijdstempels niet simpelweg truncaten tot het uur en op die waarde groeperen om sessies te vinden?

Het truncaten van tijdstempels met behulp van DATE_TRUNC of soortgelijke functies dwingt kunstmatige grenzen op klokuren in plaats van relatieve tijdsverschillen. Twee gebeurtenissen die plaatsvinden om 10:55 en 11:05 zouden worden gescheiden in verschillende groepen ondanks dat ze slechts 10 minuten uit elkaar liggen, terwijl gebeurtenissen om 10:01 en 10:59 samen zouden worden gegroepeerd ondanks een gat van 58 minuten. Ware sessiedetectie vereist het berekenen van het interval vanaf de directe voorganger van elke gebeurtenis, niet het uitlijnen op kalendergrenzen.

Hoe beïnvloeden NULL-waarden in de ordeningskolom de eilanddetectie met behulp van LAG of LEAD?

LAG en LEAD geven NULL terug voor de eerste en laatste rijen van elke partitie respectievelijk. Wanneer je de lagged tijdstempel van de huidige tijdstempel aftrekt om gaten te berekenen, levert rekenkunde met NULL NULL-resultaten op, wat kan leiden tot het verdwijnen van hele eilanden uit aggregaties. Je moet de optionele default parameter in LAG gebruiken (bijvoorbeeld, LAG(event_time, 1, event_time) OVER (...)) of expliciet met COALESCE omgaan om eilandfragmentatie bij partitieworkingen te voorkomen.

Wat verandert er bij het detecteren van eilanden over meerdere categorieën tegelijkertijd, zoals per gebruiker of per apparaat?

Kandidaten vergeten vaak de PARTITION BY clausule in vensterfuncties, waardoor ROW_NUMBER globaal over de hele tabel wordt berekend in plaats van per categorie. Zonder partitionering op user_id of equivalente groepeersleutels, zullen eilanden van verschillende gebruikers verkeerd samensmelten wanneer hun sequenties toevallig temporaal uitlijnen. Elke vensterfunctie die betrokken is bij de eilandberekening moet PARTITION BY user_id bevatten om ervoor te zorgen dat de rekenkunde opnieuw wordt ingesteld voor elke unieke entiteit, zodat onafhankelijke eilanddetectie per partitie wordt gehandhaafd.