Respuesta a la pregunta

Historia de la pregunta

El Modelo de Conjunto Anidado fue popularizado por Joe Celko en la década de 1990 como un método para representar estructuras de árbol en SQL sin uniones recursivas. Al asignar a cada nodo un límite izquierdo (lft) y derecho (rgt), el modelo permite seleccionar subárboles enteros a través de consultas de rango simples. Sin embargo, dado que el estándar no impone restricciones de integridad de intervalo, inserciones masivas concurrentes o errores de migración heredados introducen frecuentemente corrupciones donde los intervalos se superponen parcialmente, destruyendo la semántica jerárquica. Esta pregunta surge en escenarios de almacenamiento de datos donde las jerarquías deben ser validadas antes de alimentar cubos OLAP o motores de recomendaciones.

El problema

En un conjunto anidado válido, cualquier par de nodos debe ser disjunto (a.rgt < b.lft) o estar en una relación de contención estricta (a.lft < b.lft Y a.rgt > b.rgt). Una superposición parcial—donde a.lft < b.lft pero a.rgt cae entre b.lft y b.rgt—crea una imposibilidad lógica en la que un nodo parece ser tanto un hermano como un descendiente, rompiendo las consultas de subárboles. Detectar estas violaciones requiere comparar cada par de intervalos para encontrar intersecciones que carecen de un adecuado envolvimiento, lo que resulta computacionalmente costoso si se realiza por procedimientos.

La solución

Empleamos un auto-join utilizando álgebra de intervalos para identificar cruces sin contención. El predicado detecta cuando el nodo a comienza antes del nodo b pero termina dentro del rango de b, lo que indica una superposición parcial.

SELECT a.id AS violating_node_a, 
       b.id AS violating_node_b,
       a.lft AS a_left, a.rgt AS a_right,
       b.lft AS b_left, b.rgt AS b_right
FROM nested_set a
JOIN nested_set b 
  ON a.lft < b.lft           -- a comienza antes que b
  AND a.rgt > b.lft          -- a termina después de que b comienza (intersección)
  AND a.rgt < b.rgt          -- pero a termina antes de que b termine (sin contención)
WHERE a.id < b.id;           -- Evitar duplicados simétricos

Esta consulta devuelve todos los pares de nodos que intersectan ilegalmente. Para hacer que sea ejecutable en entornos de producción con alta read, índices compuestos sobre (lft, rgt) y (rgt, lft) permiten escaneos solo de índices, reduciendo la complejidad de O(n²) escaneos de tablas completas a O(n log n) búsquedas de rango.

Situación de la vida real

Durante una migración sin tiempo de inactividad de una taxonomía de producto minorista desde un sistema heredado IBM DB2 a un almacén de datos PostgreSQL, el equipo de ingeniería eligió el Modelo de Conjunto Anidado para soportar consultas rápidas de agrupación de categorías para el panel de análisis. La canalización ETL calculó los valores lft y rgt usando funciones de ventana por lotes, pero condiciones de carrera en la API de exportación del sistema heredado produjeron errores de uno fuera, resultando en 147 intervalos de categoría superpuestos. Estas superposiciones causaron que los productos se contaran dos veces en los informes de ingresos, inflando las ventas proyectadas en un 12%.

Se evaluaron tres estrategias de remediación.

Estrategia 1: Validación procedural usando un cursor. Una función PL/pgSQL iteró a través de cada nodo, verificando recursivamente las superposiciones al comparar cada nodo con todos los demás con valores lft más altos. Aunque conceptualmente simple, este enfoque adquirió bloqueos a nivel de fila y tomó 38 minutos para completarse en 2.3 millones de categorías, violando la estricta SLA de frescura de cinco minutos para actualizaciones de inventario. Se rechazó debido a una degradación de concurrencia inaceptable.

Estrategia 2: Reconstrucción a través de CTE recursivo. Consideramos abandonar por completo el modelo de conjunto anidado y reconstruir el árbol a partir de una lista de adyacencia utilizando un CTE recursivo para generar nuevos intervalos correctos. Esto solucionaría la corrupción pero requería una reescritura completa de la tabla y la suspensión temporal de la API del catálogo, haciendo que la búsqueda de productos estuviera fuera de línea. También trató el síntoma en lugar de identificar los registros corruptos específicos para fines de auditoría.

Estrategia 3: Álgebra de intervalo basada en conjuntos (SQL ANSI). Implementamos la consulta de auto-join utilizando estrictamente predicados SQL estándar. Aprovechando los índices de B-tree en las columnas de intervalo, la validación se completó en 4.2 segundos, identificando exactamente cuáles de los 147 pares de nodos violaban las reglas de contención. Esto nos permitió cuarentenar solo las subcategorías afectadas para corrección manual mientras manteníamos el resto del catálogo en vivo.

Elegimos la Estrategia 3 porque proporcionó una precisión quirúrgica sin bloquear a los escritores ni requerir tiempo de inactividad. El resultado fue una taxonomía limpia donde los límites de los intervalos formaban superconjuntos estrictos, restaurando la integridad referencial y asegurando que las actualizaciones ACID posteriores no pudieran introducir nuevas superposiciones debido a las restricciones de la base de datos añadidas.

Lo que a menudo falta a los candidatos

¿Cómo distingues entre una relación de contención padre-hijo válida y una superposición parcial no válida al escribir el predicado de unión?

Los candidatos a menudo confunden la intersección con la contención. Escriben a.lft < b.lft Y a.rgt > b.lft (que solo verifica la intersección) y creen erróneamente que esto detecta violaciones. El detalle crítico es la exclusividad del punto final: para la contención estricta, el límite derecho del padre debe exceder el límite derecho del hijo (a.rgt > b.rgt). Una superposición parcial ocurre específicamente cuando a.lft < b.lft Y a.rgt > b.lft Y a.rgt < b.rgt. Los principiantes a menudo pasan por alto la tercera condición, causando que la consulta devuelva falsos positivos para pares padre-hijo válidos. Además, se olvidan de excluir pares self (a.id != b.id) o de manejar duplicados simétricos al imponer a.id < b.id, resultando en informes redundantes de violaciones.

¿Por qué podría aparecer un nodo sin superposiciones y aún así estar huérfano de la raíz, y cómo detectas esto utilizando solo operaciones de conjunto?

Un nodo huérfano existe cuando ninguna fila única contiene su intervalo completo (lft, rgt), lo que significa que no tiene un camino hacia la raíz. Los candidatos a menudo intentan resolver esto con un LEFT JOIN buscando padres NULL, pero esto no distingue el nodo raíz legítimo (que no debería tener padre) de los verdaderos huérfanos. El enfoque correcto utiliza NOT EXISTS con una exclusión para la raíz global:

SELECT c.id
FROM nested_set c
WHERE NOT EXISTS (
  SELECT 1 FROM nested_set p
  WHERE p.lft < c.lft AND p.rgt > c.rgt
)
AND c.lft != (SELECT MIN(lft) FROM nested_set);

El caso extremo que los principiantes pasan por alto es el escenario de múltiples raíces: si la tabla accidentalmente contiene dos árboles separados, el nodo con el segundo mínimo lft podría parecer no tener padre si solo verificamos el mínimo lft. La consulta debe identificar explícitamente la única raíz (mínimo lft) y excluirla; de lo contrario, marca erróneamente la segunda raíz como huérfano.

¿Cómo detectarías una violación de múltiples padres, donde un nodo está contenido por dos ancestros separados que no están jerárquicamente relacionados, utilizando estrictamente SQL ANSI sin funciones de ventana?

Esto es distinto de la detección de superposiciones porque los dos ancestros son disjuntos (hermanos válidos), sin embargo, ambos contienen incorrectamente el mismo nodo hijo. Esto viola la propiedad del árbol (único padre) pero no crea una superposición de intervalo entre los ancestros. Los candidatos a menudo intentan GROUP BY child_id HAVING COUNT(*) > 1 en todos los ancestros, pero esto falla porque un nodo profundo válido naturalmente tiene muchos ancestros (abuelos, etc.). La solución requiere identificar el padre inmediato: el ancestro con el valor lft máximo que aún es menor que el lft del hijo.

SELECT c.id AS child_id
FROM nested_set c
JOIN nested_set p ON p.lft < c.lft AND p.rgt > c.rgt
WHERE NOT EXISTS (
  SELECT 1 FROM nested_set p2
  WHERE p2.lft > p.lft AND p2.rgt < p.rgt
    AND p2.lft < c.lft AND p2.rgt > c.rgt
)
GROUP BY c.id
HAVING COUNT(*) > 1;

La subconsulta filtra por padres inmediatos al asegurar que no exista un nodo intermedio entre el candidato y el hijo. Los principiantes pasan por alto esta lógica del "ancestro más cercano", en lugar de contar todos los contenedores y marcar incorrectamente cada nodo profundo como una violación.