Respuesta a la pregunta

Historia de la pregunta

Los grandes productos constantemente implementan nuevos puntos de entrada para el contenido: bloques personalizados, recomendaciones de IA o patrones de navegación alternativos. Sin un análisis de la canibalización, el equipo podría atribuir erróneamente el éxito de una nueva característica, cuando en realidad solo hubo un traslado de usuarios entre pantallas sin un aumento en los ingresos totales.

Problema

Es necesario separar el efecto incremental (transacciones nuevas que no habrían ocurrido sin el nuevo bloque) de la canibalización (transacciones que se trasladaron de categorías antiguas al nuevo bloque). Una prueba A/B estándar a nivel de usuario no resuelve este problema, ya que el usuario ve ambos canales simultáneamente, y la elección entre ellos crea endogeneidad.

Solución

Usamos un Geo-experimento con control sintético o aleatorización agrupada por sesiones. Asignamos aleatoriamente regiones geográficas al grupo de prueba y control, midiendo el cambio en el GMV no solo a nivel de toda la plataforma, sino también desagregado por categorías de navegación. Aplicamos el método de Diferencia en Diferencias con categorías como datos de panel, para restar los ingresos canibalizados del aumento total.

Situación de la vida real

Descripción del problema

En una aplicación móvil de comercio electrónico, se lanzó un nuevo bloque "Seleccionado para ti" basado en modelos de clasificación de TensorFlow. Un mes después, la métrica de clics en la categoría cayó un 25%, mientras que el GMV total creció solo un 5%. El equipo de producto debatía: ¿es esto canibalización o una optimización real del camino del usuario? Era necesario determinar cuánto de ese 5% era realmente un aumento y cuánto era un traslado de demanda existente.

Soluciones consideradas

Primera solución: Comparación simple "antes/después" del GMV total. Este enfoque supone que, sin el nuevo bloque, las métricas se habrían mantenido sin cambios. Pros: máxima velocidad, no requiere infraestructura de experimentación. Contras: ignora la estacionalidad, campañas de marketing y tendencias orgánicas de crecimiento, lo que da una estimación sesgada del 15-20%.

Segunda solución: Prueba A/B clásica a nivel de user_id con un split 50/50 a través de un servicio de Splitting. Aquí se supone que si se oculta el bloque para el grupo de control, la diferencia en GMV mostrará el verdadero efecto. Pros: simplicidad de implementación, estadística familiar. Contras: los usuarios en la prueba aún pueden encontrar productos a través de búsqueda o categorías, creando canibalización directa dentro del grupo de prueba, y el grupo de control sin el bloque genera menos datos para la comparación de categorías.

Tercera solución: Geo-experimento con control sintético (SCM). Seleccionamos 20 ciudades con dinámicas de GMV similares, aleatorizando 10 en el grupo de prueba (bloque incluido) y 10 en el grupo de control (bloque no mostrado). Para el control, construimos la suma ponderada de ciudades lo más cercana posible a las ciudades de prueba en el periodo "antes". Pros: permite medir el efecto a nivel de mercados agregados, considerando naturalmente la canibalización entre categorías dentro de la ciudad. Contras: requiere una gran muestra (ciudades), es sensible a acciones regionales, y la complejidad en el cálculo del error de segundo orden.

Solución elegida y justificación

Optamos por la tercera opción: el geo-experimento con el Método de Control Sintético. El factor clave fue la imposibilidad de medir la canibalización dentro de un solo usuario a través de una prueba A/B normal, ya que incluso en el grupo de control sin el bloque no vemos el destino "contrafactual" de las transacciones que en el grupo de prueba habrían pasado al bloque. El nivel geográfico permitió ver cómo cambia la estructura de compras por categorías en su conjunto.

Resultado

Identificamos que del 5% de aumento total del GMV, el 3.2% era canibalización (traslado de la larga cola de categorías a los 3 productos principales del bloque), y solo el 1.8% era efecto realmente incremental. Con base en estos datos, ajustamos el algoritmo de clasificación al añadir penalización por productos populares, lo que elevó el aumento neto al 4.1%.

Lo que a menudo los candidatos pasan por alto

Pregunta 1: ¿Por qué no se puede simplemente mirar la correlación entre los clics en el nuevo bloque y la caída de clics en la categoría a nivel de sesión del usuario?

La respuesta radica en la endogeneidad de la auto-selección. Los usuarios que clican en el nuevo bloque tienen una estructura de intenciones diferente (alta intención de compra vs. navegación) que aquellos que van a las categorías. La correlación directa dará lugar al efecto de Simpson: en los datos agregados puede parecer que el bloque "robó" tráfico, pero a nivel de cohortes con alta intención veremos que aún habrían comprado, simplemente más rápido. Es necesario utilizar Causal Forest o Propensity Score Matching para comparar usuarios con historias de comportamiento similares "antes" de la exposición al bloque.

Pregunta 2: ¿Cómo calcular el efecto mínimo significativo (MDE) para un experimento con canibalización, si el efecto puede ser negativo para algunas categorías y positivo para otras?

Aquí los candidatos se equivocan al aplicar la fórmula estándar para el efecto promedio. En el caso de la canibalización, la varianza entre categorías aumenta, ya que lidiamos con un desequilibrio: algunas categorías pierden, otras ganan. Es necesario utilizar Modelos Mixtos Lineales con un efecto aleatorio de categoría y calcular el poder para la métrica combinada: GMV total menos la caída ponderada de GMV en las categorías canibalizadas con un coeficiente de compensación de riesgo.

Pregunta 3: ¿Cuál es la diferencia fundamental entre la medición experimental de la canibalización en un producto y la resolución del problema de interferencia en redes sociales?

En la analítica de productos, la canibalización es una forma de "traslado de demanda" dentro de un solo sujeto (usuario), que rara vez se modela como interferencia entre unidades. En redes sociales (por ejemplo, Facebook) la interferencia es el efecto de derrame entre usuarios a través del gráfico social. Para abordar la canibalización, utilizamos la agrupación temporal o por tipo de comportamiento, y no la aleatorización gráfica. Es importante entender que aquí la asignación de tratamiento es la exposición a la nueva interfaz de usuario, y no la comunicación entre usuarios, por lo que métodos como la aleatorización de ego-cluster no son aplicables; en su lugar, utilizamos experimentos de Switchback a nivel de segmentos de usuarios.

¿Qué método utilizarías para medir la canibalización de la demanda entre el nuevo bloque de recomendaciones de ML en la pantalla principal y las categorías de navegación existentes, con el fin de determinar el verdadero aumento incremental del GMV?

Respuesta a la pregunta

Situación de la vida real

Lo que a menudo los candidatos pasan por alto