Respuesta a la pregunta

Contexto histórico. El concepto de co-browsing se trasladó del sector B2B (atención al cliente) al comercio social (por ejemplo, funciones de "Shop Together" en aplicaciones móviles). La analítica tradicional durante mucho tiempo se basó en la suposición SUTVA (Stable Unit Treatment Value Assumption), que presume la independencia de los usuarios. Sin embargo, las funciones sociales rompen esta suposición, ya que el comportamiento de un usuario afecta el comportamiento de sus conexiones, lo que hace que las pruebas clásicas A/B sean metodológicamente incorrectas.

Planteamiento del problema. La comparación estándar de medias (difference-in-means) ofrece una estimación sesgada debido a la interferencia (contaminación mutua): los usuarios del grupo de control, invitados por amigos del grupo de prueba, cambian su comportamiento, creando un efecto spillover. La auto-selección por actividad social distorsiona la distribución de covariables, y el despliegue por etapas (staggered rollout) introduce confusores temporales, como la estacionalidad y el efecto de novedad, que se correlacionan con el momento de conexión de las cohortes.

Solución detallada. Se debe aplicar aleatorización por clúster (cluster randomized trial) a nivel del gráfico de relaciones sociales, utilizando algoritmos de detección de comunidades (Louvain o Leiden) para crear clústeres con mínima conectividad entre ellos. Si la aleatorización completa no es posible, utilice diferencias en diferencias con adopción escalonada (staggered DiD), corrigiendo efectos heterogéneos mediante los métodos Callaway-Sant’Anna o Sun-Abraham, que manejan correctamente los pesos negativos de las cohortes tempranas. Para aislar el efecto directo de la red, aplique modelado de exposición (exposure mapping): determine el grado de "contagio" del grupo de control como la proporción de amigos en la prueba e incluya esto como una covariable en la regresión, o use 2SLS (mínimos cuadrados en dos etapas) con una variable instrumental (disponibilidad de la función por clúster geográfico como IV para el uso real). Para el análisis del tiempo hasta la conversión, se puede utilizar el modelo de Cox con efectos de frailty compartidos (shared frailty model), que tiene en cuenta la agrupación de riesgos dentro de grupos sociales.

Situación de la vida real

Descripción del problema. El mercado lanzó la función "Compra juntos", que permite a dos usuarios visualizar simultáneamente el catálogo y editar un carrito compartido en tiempo real. El piloto en el 10% de la audiencia mostró un aumento del 8% en la conversión, pero el equipo sospechaba que la estimación estaba inflada: los usuarios del grupo de control recibían invitaciones de amigos del grupo de prueba, lo que creaba una contaminación entre grupos. Además, la función era principalmente utilizada por aquellos que ya tenían conexiones sociales establecidas (auto-selección por participación).

Opción 1: Comparación simple "antes/después" en el grupo de adaptadores. Este enfoque implica comparar las métricas de los usuarios que comenzaron a usar el co-browsing con sus propios datos históricos o con usuarios similares sin la función. Las ventajas son evidentes: el cálculo toma minutos, es fácilmente interpretable por el negocio y no requiere una infraestructura compleja de experimentos. Sin embargo, las desventajas son críticas: el método ignora completamente la estacionalidad y el efecto de maduración, y también sufre de sesgo de auto-selección, ya que los usuarios socialmente activos tienen inicialmente una mayor tasa de conversión base.

Opción 2: Análisis de Intent-to-Treat (ITT) con aleatorización de la disponibilidad del botón. Aquí, se proporciona aleatoriamente la oportunidad de invitar amigos a diferentes cohortes, independientemente de si la utilizarán, y se comparan las métricas finales. Las ventajas incluyen la conservación de la aleatoriedad estadística de la asignación y la posibilidad de estimar el efecto general de la política de lanzamiento, incluyendo los efectos externos de red. Las desventajas se relacionan con la dilución del efecto por falta de correspondencia: muchos obtendrán acceso pero no usarán la función, lo que requiere aumentar la muestra de 3 a 4 veces; además, ITT no responde a la pregunta sobre la efectividad para los usuarios reales (TOT).

Opción 3: Diseño de discontinuidad de regresión (RDD) basado en el umbral de cantidad de amigos. El método utiliza un umbral abrupto (por ejemplo, 5 amigos) para activar la función, creando un cuasi-experimento alrededor del punto de corte. Las ventajas radican en la aleatoriedad local de la asignación cerca del umbral y la ausencia de necesidad de una aleatorización completa de toda la audiencia. Sin embargo, existen desventajas significativas: el efecto es local únicamente para los usuarios "marginales", es posible la manipulación (creación de amigos falsos), y el método no resuelve el problema de contaminación entre usuarios de diferentes lados del umbral, si tienen conexiones.

Solución elegida y justificación. Se eligió la opción 2 con aleatorización por clúster: los analistas construyeron un gráfico de relaciones sociales, aplicaron el algoritmo de Louvain para identificar comunidades densas y aleatorizaron el acceso a nivel de comunidad, no de usuario. Esto minimizó la contaminación entre el test y el control. Para la evaluación, se utilizó un modelo con variables de exposición: para cada usuario, se calculó la proporción de amigos en los clústeres de prueba (intensidad del spillover) y se incluyó como regresor. Esto permitió separar el efecto directo de la función y la influencia indirecta a través de la prueba social.

Resultado final. El efecto directo verdadero (TOT) fue de +3.2% en la conversión (en lugar del 8% en la estimación cruda). Sin embargo, se identificó un spillover positivo significativo en el grupo de control (+1.8%), causado por la influencia social de las invitaciones. El efecto total de la política (ITT) resultó ser de +2.1%. Sin considerar los efectos de red, el equipo habría subestimado el valor de la función, desechando el proyecto como "no lo suficientemente efectivo", mientras que con la consideración del spillover, la función se recuperaba en 4 meses.

Qué suelen pasar por alto los candidatos

1. ¿Por qué la prueba A/B estándar da una estimación sesgada en funciones sociales? La prueba estándar supone SUTVA: el impacto en un usuario no afecta a otros. En el caso del co-browsing, esto se rompe: un usuario de control que recibe una invitación de uno de prueba cambia su comportamiento (spillover), creando interference bias. La estimación del ATE (Average Treatment Effect) se convierte en una mezcla ponderada de efectos directos e indirectos, a menudo tendiendo a cero. Solución: usar aleatorización por clúster (randomization at network-cluster level) o métodos de inverse probability weighting para ajustar a la estructura de la red.

2. ¿Cómo separar estadísticamente el efecto directo, el efecto spillover y el efecto total? Los candidatos confunden ITT (Intent-to-Treat) y TOT (Treatment-on-Treated): ITT estima el efecto de ofrecer la función a toda la cohorte, incluyendo a aquellos que no la usaron, mientras que TOT aísla el efecto para usuarios reales. Para dividir los efectos, se aplican Principal Stratification (estratificación principal): clasifican a los usuarios según tipos de cumplimiento (compliers, always-takers) y evalúan el CACE (Complier Average Causal Effect). El spillover se evalúa a través de exposure mapping, donde la intensidad del impacto indirecto se aproxima a la proporción de conexiones en la prueba. El efecto total es una suma ponderada de los efectos directos e indirectos según la distribución de exposición.

3. ¿Por qué el estándar DiD (Difference-in-Differences) es incorrecto en un rollout escalonado? Con la implementación por etapas, las cohortes tempranas sirven como control para las tardías, pero las tardías nunca sirven como control para las tempranas, creando problema de pesos negativos (negative weighting) ante efectos heterogéneos. Un DiD clásico de dos períodos en tal diseño da estimaciones sesgadas, ya que mezcla efectos de diferentes períodos con pesos incorrectos. En su lugar, se debe utilizar los estimadores Callaway-Sant’Anna o Sun-Abraham, que utilizan únicamente observaciones never-treated o not-yet-treated como control. Una alternativa es el Synthetic Control Method para cada cohorte por separado, construido sobre un grupo donante de never-treated.