Respuesta a la pregunta.

La personalización de notificaciones push requiere un enfoque cuasi-experimental riguroso debido a la auto-selección de usuarios según su tiempo de actividad. La posible contaminación cruzada a través de redes sociales o cuentas familiares complica aún más el aislamiento del efecto.

El método clave es Difference-in-Differences (DiD) con control sintético. El grupo de control se forma mediante propensity score matching según el tiempo de apertura de la aplicación y patrones históricos de pedidos.

Para ajustar los efectos de la hora del día, se aplica estratificación por zonas horarias. La contaminación cruzada se detecta mediante el análisis de device ID y direcciones IP en busca de cuentas compartidas.

La métrica de retención se calcula como hazard ratio utilizando el Cox proportional hazards model. Esto permite incluir datos censurados y heterogeneidad en los riesgos de abandono.

Situación de la vida real

En la aplicación Delivery Club, se planeaba implementar un modelo de ML en Python utilizando CatBoost para personalizar el tiempo de envío de notificaciones push. El problema era que los usuarios activos abrían la aplicación principalmente durante las horas de almuerzo, creando self-selection bias.

Un rollout parcial en el 20% de la audiencia causó un efecto de "boca a boca". Los usuarios del grupo de control se enteraban de las promociones de sus colegas, lo que generaba contaminación cruzada.

La primera solución considerada fue una prueba A/B clásica con segmentación geográfica. La ciudad A era el grupo de prueba, la ciudad B el control.

Pros de este enfoque incluían un aislamiento limpio de los grupos y la facilidad de interpretación de los resultados para el negocio. Contras eran las diferencias en preferencias culinarias e ingresos entre las ciudades, que creaban un sesgo del 12-15% en la retención básica.

La segunda opción fue analizar solo a los usuarios con notificaciones habilitadas (per-protocol analysis). Esto permitía centrarse en la audiencia objetivo que respondía a las comunicaciones.

Pros — alta relevancia para el equipo de producto. Contras — ignorar el efecto del opt-out bias: los usuarios que desactivaron las notificaciones tenían un churn básico 3 veces mayor, lo que distorsionaba el efecto general de la intervención.

La tercera solución fue Causal Impact de Google con la construcción de control sintético. Se utilizaron Bayesian Structural Time Series para modelar el contrafactual.

Pros incluían la consideración de tendencias temporales y estacionalidad sin necesidad de un control explícito. Contras — alta sensibilidad a la elección de covariables y fragilidad de la suposición de tendencias paralelas antes de la intervención.

El enfoque seleccionado fue un método combinado: Inverse Probability Weighting (IPW) para corregir la auto-selección por tiempo de actividad más Diff-in-Diff con clusterización de errores estándar a nivel de clústeres geográficos.

Esta solución preservaba la variabilidad individual del tiempo de envío, crítica para la personalización. Al mismo tiempo, se mantenía el control sobre los spillovers entre grupos a través de robustez clusterizada.

El resultado fue la identificación de un efecto incremental verdadero del +8.3% en la retención a 7 días. La comparación ingenua mostraba +15%. El efecto resultó ser estadísticamente significativo solo para el segmento "usuarios con 3+ pedidos en el historial".

Esto permitió optimizar el presupuesto de envío, excluyendo a los usuarios fríos de la audiencia objetivo de campañas personalizadas.

Lo que los candidatos a menudo pasan por alto

¿Cómo considerar correctamente la estacionalidad al calcular la proyección de LTV para un producto de suscripción con planes anuales y mensuales en presencia de heterogeneidad de cohortes?

Los principiantes a menudo usan un simple promedio de curvas de retención históricas sin tener en cuenta que los usuarios que llegan durante Black Friday tienen un perfil de retención cualitativamente diferente. Su churn es de 2 a 3 veces más alto que el de los usuarios orgánicos.

El enfoque correcto es construir modelos separados BG/NBD o Gamma-Gamma para cada cohorte teniendo en cuenta variables dummy estacionales. Una alternativa es usar Cohort-Based LTV con ajuste sobre Bayesian Hierarchical Modeling para el préstamo de fuerza entre cohortes (partial pooling).

¿Cuál es la diferencia entre el análisis intent-to-treat (ITT) y treatment-on-the-treated (TOT) al evaluar el efecto de un tour de onboarding, y cuándo aplicar cada enfoque?

La ITT analiza el efecto de la oferta de realizar onboarding a todos los usuarios del grupo de prueba, incluidos quienes se niegan. TOT mide el efecto de la realización del tour (efecto causal promedio de cumplidores).

ITT es conservador y adecuado para decisiones empresariales sobre la escalabilidad de la función. Refleja el comportamiento real de la audiencia teniendo en cuenta la fricción. TOT requiere instrumental variables y responde a la pregunta sobre la viabilidad de un onboarding forzado.

Un error en la elección del método conduce a una sobreestimación del efecto del 40-60%. Para TOT se pueden usar errores aleatorios en la presentación del tour como instrumento (instrument).

¿Cómo diagnosticar el problema del "peeking" al realizar pruebas A/B secuenciales y qué correcciones estadísticas aplicar?

El peeking surge al interrumpir prematuramente la prueba al alcanzar significancia. El diagnóstico implica el análisis del p-value over time: en caso de peeking, la curva muestra "un paseo aleatorio suavizado" con frecuentes cruces del umbral 0.05.

Las soluciones incluyen Group Sequential Testing con funciones de alpha-spending (O'Brien-Fleming). Una alternativa es Bayesian A/B Testing con el enfoque ROPE (Region of Practical Equivalence).

También es eficaz fijar el tamaño de la muestra a través de Data Quality Gates en Apache Airflow. Un error crítico es utilizar intervalos de confianza ingenuos sin ajuste de Bonferroni, lo que incrementa la tasa de falsos positivos al 25-30% en 5 verificaciones intermedias.