Contexto histórico: la idea de la prueba social remonta a los trabajos de Robert Cialdini en los años 80, pero la implementación masiva de notificaciones en tiempo real en productos digitales comenzó en 2015 con el desarrollo de conexiones WebSocket y plataformas de streaming similares a Kafka. Los métodos clásicos de A/B testing a menudo dan estimaciones sesgadas debido a los efectos de red (violación de SUTVA), donde el resultado de un usuario depende de la presencia de otros en línea. Los primeros intentos de evaluación se limitaban a comparar sesiones con y sin un widget visible, lo que conducía a una endogeneidad severa en la muestra.
Problema: al evaluar el efecto es necesario separar la verdadera influencia de la intervención de la variable endógena de la densidad de audiencia. Si simplemente comparamos sesiones con notificaciones y sin ellas, obtendremos sesgo de selección: en horas pico la conversión ya es más alta, y en ese momento el sistema genera más notificaciones. Además, la migración de usuarios entre la aplicación móvil y el escritorio crea contaminación, diluyendo la frontera entre tratamiento y control.
Solución: el enfoque óptimo es una evaluación de diferencias en diferencias (Difference-in-Differences, DiD) con efectos fijos bidireccionales (two-way fixed effects) por zonas horarias y categorías de productos, complementada con una variable instrumental (IV-approach) para la densidad de audiencia. Como instrumento se utiliza un choque exógeno de las condiciones climáticas o interrupciones de internet regionales, que afectan la actividad en línea, pero no están directamente relacionados con la conversión. Alternativamente, se aplica el Synthetic Control Method, donde el grupo de control se construye a partir de productos/regiones similares sin la implementación de la función, ponderados por la historia de conversión y estacionalidad.
En un marketplace de electrónica, se planeó implementar un widget que muestra "Ahora este producto está siendo visto por 15 personas" con datos reales del streaming de ClickHouse. El problema era que el equipo de producto registraba un aumento del 18% en la conversión en horas pico, pero no podía separar el efecto de las notificaciones de la alta demanda natural por la tarde. Además, se observó el efecto de "sala vacía": en horas nocturnas, el widget mostraba ceros o datos desactualizados, lo que podría disminuir la confianza.
La primera opción considerada fue un clásico A/B test con segmentación geográfica. Ventajas: simplicidad de implementación e interpretación clara. Desventajas: los efectos de red se diluyen, ya que los usuarios de diferentes ciudades ven diferentes assortments y conversiones base; además, con baja densidad de audiencia en pequeñas ciudades, el widget mostraba "Ahora ven 0 personas", creando una prueba social negativa y disminuyendo la confianza.
La segunda opción fue un diseño de regresión discontinua (Regression Discontinuity Design, RDD) en función del tiempo de lanzamiento de la función en una región específica. Ventajas: identificación causal clara en el momento del corte y posibilidad de verificación visual en un gráfico. Desventajas: no es posible separar el efecto de novedad (novelty effect) del efecto permanente; además, el rollout progresivo por zonas horarias creaba una frontera difusa de tratamiento, lo que violaba la suposición clave de RDD sobre el cambio brusco en la probabilidad de tratamiento.
La tercera opción fue un cuasi-experimento utilizando productos sin tiempo real como grupo de control (DiD). Ventajas: toma en cuenta las tendencias estacionales a través de efectos fijos; posibilidad de evaluar la heterogeneidad del efecto según el nivel de tráfico base. Desventajas: se requiere la suposición de tendencias paralelas (parallel trends assumption), que se verificó a través de la especificación de Event Study con leads y lags.
Se eligió la solución con DiD y una variable instrumental basada en datos meteorológicos: días de lluvia en las regiones aumentaban inesperadamente la actividad en línea (satisfaciendo la relevancia del instrumento), pero no afectaban directamente el deseo de comprar un teléfono (exclusion restriction). El análisis mostró que el efecto verdadero del widget es del +9% en conversión solo con una densidad >30 usuarios en línea por SKU; con menor densidad, el efecto es negativo (-4%) debido a la exhibición de datos "vacíos" o desactualizados.
Con base en estos resultados, se implementó un algoritmo adaptativo que desactiva la prueba social con bajo tráfico. El resultado fue la optimización de las reglas de visualización: el sistema pasó de una exhibición constante a una condicional, lo que aumentó la conversión media en un 7% en la plataforma y redujo el abandono del segmento de "usuarios nocturnos" en un 12%. Los ahorros en capacidad de infraestructura fueron del 15% al desactivar el procesamiento de streams para productos inactivos.
¿Cómo separar el efecto del mecanismo (intensive margin) del efecto general de la presencia de la función (extensive margin)?
Los candidatos a menudo confunden la evaluación de forma reducida (simplemente la existencia del sistema) con la evaluación del mecanismo (cómo el cambio en la densidad dentro del tratamiento afecta el resultado). El enfoque correcto es una evaluación de dos etapas (Two-Stage Least Squares, 2SLS), donde en la primera etapa se predice la frecuencia real de la visualización de notificaciones con el instrumento (el clima), y en la segunda, la conversión a partir de la frecuencia predicha. Esto permite separar el efecto limpio de la notificación del efecto "multitud" (herding behavior), que tiene una causación inversa: una alta conversión atrae más vistas, creando más notificaciones.
¿Por qué es importante la corrección por múltiples pruebas al analizar la heterogeneidad por segmentos de densidad y horas del día?
Los analistas a menudo buscan el umbral óptimo para activar la función, probando el efecto en 10, 20, 50 usuarios, y eligen el umbral con el mayor uplift. Esto lleva a un problema de minería de datos y a un inflado de errores tipo I. Se debe aplicar la corrección de Bonferroni o el procedimiento de Benjamini-Hochberg para la tasa de error familiar, o utilizar un plan de pre-análisis con la fijación de hipótesis antes del análisis. De lo contrario, el "umbral óptimo" resulta ser simplemente una anomalía aleatoria en los datos.
¿Cómo tener en cuenta el spillover negativo en el grupo de control a través del inventario general y la limitación del presupuesto del usuario?
En la prueba social en un marketplace existe un efecto de arrastre de la demanda: si el widget acelera la compra en el grupo de tratamiento de productos, esto puede reducir la conversión en el grupo de control debido al agotamiento del presupuesto o la distracción. Los candidatos ignoran los Efectos de Equilibrio General. Para la corrección, se requiere una evaluación con datos agregados a nivel de sesión de usuario (aggregate treatment effects) o el uso de modelos con equilibrio de mercado (market equilibrium models) que tengan en cuenta la limitación de la atención del usuario.