Respuesta a la pregunta

La evolución del e-commerce de la búsqueda textual a la interfaz multimodal comenzó con la aparición de Redes Neuronales Convolucionales (CNN) en aplicaciones móviles a mediados de 2010. Los enfoques clásicos de A/B testing se enfrentan aquí a la fragmentación del hardware: el mismo algoritmo de búsqueda visual demuestra diferente precisión en dispositivos de gama alta y en smartphones económicos.

Investigaciones tempranas mostraron que los usuarios con dispositivos de gama baja tienen patrones de visualización sistemáticamente diferentes, lo que crea una amenaza a la violación de la suposición de independencia del error respecto a las covariables en modelos econométricos estándar. Esto hace que la simple comparación de grupos a través de la prueba t o regresión básica sea metodológicamente inválida.

La endogeneidad fundamental surge de la auto-selección a nivel de adopción: los usuarios técnicamente capacitados (early adopters) tienden a probar nuevas funciones y tienen una alta conversión básica. Adicionalmente, se observa canibalización estructural: la búsqueda visual "toma" consultas de la búsqueda textual, pero al mismo tiempo transforma consultas textuales de poca información en incrustaciones visuales altamente informativas.

La heterogeneidad técnica de la calidad de la cámara introduce una capa adicional de error de medición, que se correlaciona con el perfil SES del usuario. Los métodos estándar para controlar el sesgo de selección, como el Emparejamiento por Puntuación de Propensión, son insuficientes aquí debido a la heterogeneidad no observada en la alfabetización visual de los usuarios.

La estrategia óptima es Mínimos Cuadrados en Dos Etapas (2SLS) usando capacidades de hardware de la cámara (presencia de Telephoto Lens, soporte de Night Mode) como variable instrumental (IV). La restricción de exclusión se cumple con la condición de que las especificaciones de la cámara afectan la conversión solo a través de la posibilidad de usar la búsqueda visual, y no a través de características correlacionadas con el ingreso.

La validez del instrumento se verifica a través de la Prueba de Sobreidentificación usando variaciones exógenas en lotes de cámaras. Para la canibalización, se aplica Estratificación Principal: segmentar a los usuarios en estratos según el modelo de clase latente, donde las clases se definen por la probabilidad de cambiar de la búsqueda textual.

Los Efectos de Tratamiento Heterogéneos se evalúan mediante Bosques Causales con clustering a nivel de tipo de dispositivo para tener en cuenta la correlación de errores dentro de las clases de hardware. Además, se controlan los metadatos de la toma (datos EXIF sobre la exposición) para aislar el efecto específicamente del reconocimiento, y no de las condiciones externas.

Situación de la vida real

El equipo del marketplace "FashionHub" lanzó la búsqueda visual en el 20% del tráfico, observando un crecimiento del 18% en la conversión entre adopters. Sin embargo, una auditoría reveló que el 70% de los usuarios con iPhone 12+ (cámara de alta calidad) estaban en el grupo de prueba, mientras que el segmento Android económico quedó en el control, creando una confusión basada en el hardware. La métrica clave —el número promedio de tarjetas de producto vistas antes de la compra— aumentó de manera desproporcionada en el segmento de dispositivos premium.

Una comparación burda entre adopters vs no-adopters daría una estimación de +18% en la conversión, pero llevaría consigo un sesgo de supervivencia. Los usuarios que tomaron fotos de productos ya mostraban una alta intención de compra y tolerancia al fricción en la UX. La ventaja del enfoque es la simplicidad de interpretación y la rapidez en obtener resultados. La desventaja es que no se puede separar el efecto causal de la función de la auto-selección de audiencias técnicas con altas tasas de conversión basales.

El rollout geográfico con Diferencias en Diferencias implicaba lanzar primero en Moscú (alta penetración de smartphones premium), seguido de regiones un mes después. La ventaja es la posibilidad de tener en cuenta tendencias temporales y la estacionalidad de la moda. La desventaja es que las regiones variaban en ingreso disponible y valores de moda, lo que violaba la suposición de tendencias paralelas; la audiencia de Moscú tenía elasticidades sistemáticamente diferentes hacia la novedad en funciones digitales.

Variables Instrumentales con Emparejamiento por Puntuación de Propensión utilizó la imposibilidad técnica de lanzar la búsqueda visual en dispositivos sin Auto-Focus y OIS (Estabilización Óptica de Imagen) como un experimento natural. Los usuarios con dispositivos compatibles fueron emparejados con otros similares en demografía y historia de búsqueda textual, pero con dispositivos no compatibles. La ventaja es la exogeneidad del instrumento (el hardware precede la decisión de compra). La desventaja es que la relevancia del instrumento se verificó a través de la primera etapa de la estadística F (45, >10 de umbral), y la restricción de exclusión requería convicción de que la cámara afecta la compra solo a través de la búsqueda.

Se eligió una solución IV con control adicional sobre las condiciones de iluminación a través de API de determinación de la hora del día y análisis de metadatos EXIF de fotos (ISO, tiempo de exposición). El resultado final: el verdadero Efecto Promedio de Tratamiento Local (LATE) fue de +4.2% en la conversión (todo lo demás — sesgo de selección), concentrándose en la categoría "calzado" (donde la coincidencia de color es crítica), y ausente en "accesorios" (donde la marca domina sobre las características visuales).

Qué ignorar comúnmente los candidatos

¿Por qué no se puede simplemente hacer una prueba A/B a nivel de usuario, si la infraestructura lo permite?

Los candidatos ignoran los efectos de red en el entrenamiento del Modelo de Embeddings Visuales: cuando los usuarios toman fotos, esos datos caen en la muestra de entrenamiento de la Red Siamés, mejorando la calidad de búsqueda para todos los usuarios, incluyendo el grupo de control (efectos de derrame). Además, la SUTVA (Suposición de Valor de Tratamiento de Unidad Estable) se viola a través de la contaminación de rankings: si la búsqueda visual eleva productos relevantes en el feed general de recomendaciones, esto influye en el comportamiento del grupo de control.

La solución es Aleatorización por Clúster a nivel de tipo de dispositivo o usar Mapeo de Exposición con ajustes sobre la intensidad de uso de la función en el clúster a través de Ponderación por Probabilidad Inversa.

¿Cómo separar la canibalización de la búsqueda textual de la creación de nueva demanda, cuando la intención no es latente?

El enfoque estándar de comparación de consultas totales ignora el volumen ajustado por calidad. Es necesario aplicar el Marco de Estratificación Principal: definir cuatro estratos (Cumplidores, Nunca-tomadores, Siempre-tomadores, Desafiantes) basados en los resultados potenciales del uso de búsqueda textual en presencia/ausencia de búsqueda visual.

Luego, evaluar el Efecto Causal Promedio del Cumplidor (CACE) para aquellos que cambiarían de búsqueda textual a visual solo si estuviera disponible. Adicionalmente, usar Distancia en el Espacio de Embedding entre las consultas textuales del usuario y las categorías de productos: si la búsqueda visual reduce la distancia semántica entre la consulta y la compra, este es un efecto incremental, y no de sustitución.

¿Cuál es el peligro de condicionar en el número de reconocimientos exitosos al analizar la retención?

Este es un clásico Sesgo de Collider (estructura M): condicionar en "éxito del reconocimiento" (que depende tanto de la calidad de la cámara como de la complejidad de la consulta) abre caminos espurios entre hardware y retención. Los candidatos a menudo filtran "subidas fallidas", creando selección sobre una variable dependiente.

El enfoque correcto es Corrección de Dos Pasos de Heckman o Modelo Tobit para resultados inflacionados por ceros, donde se modela conjuntamente la decisión de usar la función y el resultado condicionado al uso, teniendo en cuenta el Ratio de Mills Inverso de la primera ecuación del modelo probit con predictores (iluminación, hora del día, categoría de producto).