Respuesta a la pregunta

Historia de la pregunta

Esta pregunta surgió de la evolución de los estándares de SQL desde SQL-92 hasta SQL:2003, cuando las funciones de ventana fueron formalmente introducidas en el estándar. Antes de este avance, los desarrolladores dependían de cursores procedimentales o auto-uniones computacionalmente costosas para resolver problemas orientados a secuencias. El patrón de huecos y islas representa el cambio de paradigma de algoritmos procedimentales a lógica declarativa, basada en conjuntos que definen conjuntos de resultados en lugar de pasos de procesamiento.

El problema

Al trabajar con tablas que contienen valores secuenciales como marcas de tiempo, IDs o fechas, debes agrupar valores consecutivos en bloques contiguos (islas) mientras los distingues de las interrupciones (huecos). El desafío fundamental surge porque las tablas de ANSI SQL representan conjuntos matemáticos no ordenados, sin embargo, detectar secuencias requiere un orden explícito. Las cláusulas tradicionales GROUP BY agregan valores similares pero destruyen las relaciones secuenciales necesarias para identificar la contigüidad.

La solución

Aprovecha la diferencia aritmética entre ROW_NUMBER() sobre todo el conjunto de datos y ROW_NUMBER() particionado por la clave de agrupación para generar un identificador constante de isla. Esta técnica crea valores calculados idénticos para todas las filas dentro de la misma secuencia contigua, permitiendo que la agregación estándar reconstruya las islas.

WITH numbered AS (
  SELECT 
    event_date,
    ROW_NUMBER() OVER (ORDER BY event_date) AS rn_global,
    event_date - ROW_NUMBER() OVER (ORDER BY event_date) AS island_grp
  FROM events
)
SELECT 
  MIN(event_date) AS island_start,
  MAX(event_date) AS island_end,
  COUNT(*) AS consecutive_days
FROM numbered
GROUP BY island_grp;

Situación de la vida real

Un equipo de análisis de comercio minorista necesitaba reconstruir sesiones de compra de clientes a partir de datos de clics almacenados en PostgreSQL. El sistema registró millones de eventos que contenían user_id y event_time, pero carecía de identificadores de sesión pre-calculados. Los requisitos comerciales definieron una sesión como una secuencia de eventos donde ningún hueco superaba los 30 minutos de inactividad.

El primer enfoque consideró usar un auto-unión con una subconsulta correlacionada para ubicar el inmediato predecesor de cada evento. Este método requería O(n²) comparaciones de filas, causando tiempos de espera en consultas al procesar lotes diarios que superaban los cinco millones de filas, aunque mantenía la compatibilidad con sistemas heredados de SQL-92 que carecían de funciones de ventana modernas.

El equipo posteriormente evaluó cursores pl/pgSQL para iterar a través de eventos fila por fila mientras mantenía el estado de la sesión en variables procedimentales. Aunque este enfoque ofreció una lógica intuitiva familiar para los desarrolladores de aplicaciones, abandonó los principios de procesamiento basado en conjuntos y requirió más de cuatro horas para completar lotes diarios, creando una latencia ETL inaceptable y problemas significativos de bloqueo de tablas.

La solución seleccionada utilizó exclusivamente funciones de ventana ANSI SQL. Al aplicar LAG() para capturar la marca de tiempo anterior por usuario y calcular diferencias de tiempo, el equipo identificó límites de sesiones donde los huecos superaban los 30 minutos. Una suma acumulativa condicional generó identificadores de sesión únicos, permitiendo la agregación basada en conjuntos. Este método procesó todo el conjunto de datos en ocho minutos, escaló linealmente con el volumen y permaneció portátil a través de Oracle, SQL Server y PostgreSQL sin modificaciones de sintaxis específicas de proveedores.

Lo que a menudo los candidatos pasan por alto

¿Por qué no puedo simplemente truncar las marcas de tiempo a la hora y agrupar por ese valor para encontrar sesiones?

Truncar marcas de tiempo utilizando DATE_TRUNC o funciones similares impone límites artificiales en las horas del reloj en lugar de diferencias de tiempo relativas. Dos eventos ocurridos a las 10:55 y 11:05 serían separados en diferentes grupos a pesar de estar solo 10 minutos separados, mientras que los eventos a las 10:01 y 10:59 se agruparían a pesar de un hueco de 58 minutos. La verdadera detección de sesiones requiere calcular el intervalo desde el inmediato predecesor de cada evento, no alinearse con los límites del calendario.

¿Cómo afectan los valores NULL en la columna de ordenación a la detección de islas utilizando LAG o LEAD?

LAG y LEAD devuelven NULL para las primeras y últimas filas de cada partición, respectivamente. Al restar la marca de tiempo retrasada de la marca de tiempo actual para calcular huecos, la aritmética con NULL produce resultados NULL, lo que puede causar que toda la isla desaparezca de las agregaciones. Debes utilizar el parámetro opcional default en LAG (por ejemplo, LAG(event_time, 1, event_time) OVER (...)) o manejar explícitamente NULL con COALESCE para prevenir la fragmentación de islas en los límites de partición.

¿Qué cambios ocurren al detectar islas a través de múltiples categorías simultáneamente, como por usuario o por dispositivo?

Los candidatos a menudo omiten la cláusula PARTITION BY en funciones de ventana, calculando ROW_NUMBER globalmente a través de toda la tabla en lugar de por categoría. Sin particionar por user_id o columnas de agrupación equivalentes, las islas de diferentes usuarios se fusionan incorrectamente cuando sus secuencias coinciden temporalmente. Cada función de ventana involucrada en el cálculo de islas debe incluir PARTITION BY user_id para asegurar que la aritmética se reinicie para cada entidad distinta, manteniendo la detección de islas independiente por partición.