Respuesta a la pregunta

Históricamente, los enfoques para evaluar las funciones AR en la analítica de productos se han basado en el análisis correlacional o la simple comparación de medias entre usuarios con tecnología de soporte y sin ella. Este marco metodológico dominó hasta 2018, cuando los investigadores del comercio minorista no consideraron las diferencias sistemáticas en la segmentación de la audiencia según las categorías de precios de los dispositivos. Los dueños de teléfonos inteligentes de gama alta con ARKit o ARCore difieren estadísticamente en sus niveles de ingresos, adaptabilidad tecnológica y propensión a compras impulsivas de productos de alto margen.

Por lo tanto, la comparación directa crea un sesgo de auto-selección de hasta el 40%, haciendo imposible separar el efecto de la función de las diferencias preexistentes entre los grupos. La clásica prueba A/B también es inviable, ya que forzar la inclusión de AR en dispositivos incompatibles provoca fallos técnicos, bloqueos de la aplicación y una experiencia de usuario distorsionada, lo que infringe el principio fundamental de SUTVA (Stable Unit Treatment Value Assumption) y genera un efecto de reacción negativa ante la intervención.

La solución óptima requiere la aplicación del Diseño de Discontinuidad de Regresión (RDD) alrededor del umbral de características técnicas del dispositivo, por ejemplo, comparando usuarios de iPhone X y iPhone 8+, quienes tienen accesibilidad de precio similar en el mercado de segunda mano y características demográficas, pero difieren críticamente por la presencia de la cámara TrueDepth, necesaria para AR. Para tener en cuenta la implementación por fases a través de categorías de productos, complementamos el Diferencias en Diferencias (DiD) con efectos fijos de categoría-temporal (Two-Way Fixed Effects), controlando la estacionalidad y las diferencias en la gama de productos. Finalmente, aplicamos Emparejamiento por Puntaje de Propensión (PSM) basado en la categoría de precios del dispositivo y la historia de compras para ajustar la heterogeneidad residual dentro de la zona local de RDD, lo que permite extrapolar el efecto medio local (LATE) a la población general mediante Pesado de Probabilidad Inversa.

Situación de la vida real

En un gran marketplace de moda en otoño de 2023, se lanzó la prueba AR de gafas de sol utilizando tecnología de seguimiento facial. La función solo funcionaba en iPhone X+ y teléfonos Android de gama alta con Google ARCore, eliminando automáticamente el 60% de la audiencia con dispositivos económicos. Un informe analítico preliminar mostraba que los usuarios con acceso a AR se convertían en compradores 3.5 veces más frecuentemente y devolvían el producto un 30% menos, pero el equipo sospechaba un fuerte sesgo de supervivencia: los propietarios de teléfonos caros históricamente mostraban un ticket medio más alto y lealtad independientemente de las nuevas funciones.

La primera opción considerada fue la comparación directa de medias mediante t-test o Mann-Whitney U test entre grupos con y sin acceso a AR sin ajustes. Las ventajas de este enfoque incluían la instantánea calculativa, requisitos mínimos de datos y comprensión intuitiva del resultado para las partes interesadas del negocio. Las desventajas eran críticas: la endogeneidad catastrófica en ingresos y conciencia tecnológica hacía imposible separar el efecto de la función de las diferencias preexistentes entre segmentos de usuarios.

La segunda opción fue un análisis de cohortes antes-después para usuarios que actualizaron sus dispositivos de incompatibles a compatibles con AR durante el período de observación. Las ventajas incluían el control de la heterogeneidad individual a través de la comparación intra-sujeto, eliminando el sesgo por características inmedibles del usuario. Las desventajas incluían un fuerte efecto de novedad (novelty effect), estacionalidad (la actualización de teléfonos en picos en diciembre y septiembre correlaciona con diferentes patrones de compra), así como auto-selección por momento de actualización (los usuarios motivados cambian teléfonos con más frecuencia).

La tercera opción fue aplicar Diseño de Discontinuidad de Regresión alrededor del umbral del modelo iPhone X (chip A11 Bionic), comparando usuarios de iPhone 8+ e iPhone X, que no son estadísticamente diferentes en sus características sociodemográficas y categoría de precios en el mercado de segunda mano, pero solo difieren por la presencia de la cámara TrueDepth. Las ventajas de este método incluían la creación de una distribución cuasi aleatoria en la zona local alrededor del umbral, lo que proporcionaba una evaluación causal válida (LATE) sin necesidad de aleatorización. Las desventajas incluían la validez externa limitada: los resultados son aplicables solo a los usuarios “marginales”, que fluctúan entre la compra de un viejo y un nuevo buque insignia, así como la necesidad de verificar la suposición de continuidad de las covariables (continuity assumption) y la ausencia de manipulación puntual (heap).

Se eligió una solución combinada: RDD para evaluar el efecto puro de la función en los usuarios marginales en el umbral del dispositivo, integrada con Diferencias en Diferencias con adopción escalonada para tener en cuenta el rollout gradual a través de las categorías de productos (primero marcas premium, luego mercado masivo). Para extrapolar resultados desde el umbral a toda la población, se aplicó Pesado de Probabilidad Inversa (IPW) basado en la distribución de precios de los dispositivos y características demográficas. El resultado final mostró que el verdadero efecto fue del +8% en conversiones y -12% en devoluciones, mientras que el análisis ingenuo sin ajustes mostraba distorsionados +35% y -28% respectivamente, lo que cambió críticamente la decisión empresarial sobre la escalabilidad de la función y evitó expectativas de inversión exageradas.

Lo que los candidatos a menudo pasan por alto

¿Cómo se deben manejar correctamente los efectos de red (spillover effects), cuando los usuarios con AR comparten fotos de la prueba virtual en redes sociales o mensajerías, influyendo en las decisiones de compra de sus contactos que no tienen dispositivos compatibles y que formalmente pertenecen al grupo de control?

Los candidatos a menudo ignoran la violación de SUTVA a través del grafo social, asumiendo la aislación de grupos. En la práctica, si un amigo ve la prueba de las gafas a través de Instagram Stories y realiza una compra, esto contamina el grupo de control. El enfoque correcto es aplicar Mínimos Cuadrados en Dos Etapas (2SLS) con una variable instrumental (la fecha de lanzamiento de un modelo específico de teléfono en una región específica), que solo afecta la disponibilidad de AR para el “emisor”, pero no para el “receptor” directamente. Alternativamente, se utiliza exposure mapping, donde modelamos la intensidad de las conexiones sociales entre usuarios e introducimos en el modelo la interacción treatment × exposure, permitiendo evaluar cuantitativamente el efecto directo de AR contra el efecto indirecto de viralidad.

¿Por qué la metodología Intent-to-Treat (ITT) con el posterior cálculo del Efecto de Tratamiento Promedio Local (LATE) es preferible a los intentos de realizar una prueba A/B “forzada”, forzando la inclusión de la función AR para la mitad aleatoria de la audiencia, incluso si esto es técnicamente posible a través de renderizado en la nube?

Esta pregunta evalúa la comprensión de la ética experimental y las restricciones de cumplimiento. Forzar la inclusión de AR a través de renderizado en la nube en dispositivos incompatibles crea una experiencia de usuario artificial con alta latencia y baja resolución, lo que resulta en una experiencia catastrófica y una alta tasa de abandono de usuarios (churn), violando el principio de “no causar daño”. Esto crea selection into non-compliance: los usuarios rápidamente desactivan la función o eliminan la aplicación, haciendo imposible la evaluación del efecto y creando sesgo en el cumplimiento. El enfoque correcto es el diseño de aliento: en lugar de forzar la inclusión, mostramos aleatoriamente un banner con la oferta de probar AR (solo a propietarios de dispositivos compatibles), creando un análisis ITT donde el tratamiento es la oferta, no el uso real. Luego, a través de regresión IV (variable instrumental - aleatorización de la oferta) obtenemos LATE — el efecto solo para aquellos que realmente usaron la función (compliers), lo que proporciona una evaluación conservadora pero causally limpia sin riesgo de sabotaje técnico del producto.

¿Cómo considerar el sesgo en la cobertura del catálogo (catalog coverage bias), cuando los modelos AR están creados solo para el 30% de los productos, predominantemente del segmento premium, y esto crea sesgo en la evaluación del ticket medio y LTV, si se analiza solo los SKU disponibles?

Los candidatos olvidan el problema de generalizabilidad y truncation bias, comparando el segmento premium (donde AR está disponible) con el mercado masivo (donde no está). Si no se corrige la muestra, atribuiremos erróneamente un chequeo alto al efecto de AR, cuando en realidad medimos la diferencia entre segmentos de precios. La solución requiere la aplicación de Pesado de Probabilidad Inversa (IPW) o Estimación Doble Robustez: primero modelamos el puntaje de propensión — la probabilidad de que un artículo tenga un modelo AR, basada en sus características observables (precio, marca, categoría, estacionalidad). Luego, ponderamos las observaciones inversamente proporcionales a esta probabilidad, para hacer que la muestra con AR sea representativa de todo el catálogo. Adicionalmente, utilizamos métodos de control sintético para categorías sin AR, creando una combinación linear ponderada de categorías con AR, que imita el comportamiento contrafáctico de las categorías ausentes, permitiendo evaluar el efecto a nivel de negocio completo, y no solo en la submuestra de productos premium.