Respuesta a la pregunta
El contexto histórico sugiere que las interfaces de voz han pasado de sistemas de comandos simples a soluciones completas de PNL basadas en transformadores, sin embargo, la metodología para evaluarlas sigue siendo no trivial debido a la heterogeneidad en la adopción de la tecnología. El problema radica en que la función solo está disponible en dispositivos con ciertas características técnicas, lo que crea un sesgo de selección sistemática, y el rollout geográfico viola el principio de distribución aleatoria. Para aislar el verdadero efecto es necesario usar una combinación de Diferencia en Diferencias con efectos fijos por región y tiempo, complementada con Método de Control Sintético para regiones con patrones lingüísticos únicos, así como Variables Instrumentales para corregir la endogeneidad del uso de la función.
Situación de la vida real
En un marketplace de electrónica, se lanzó la búsqueda por voz primero en Moscú y San Petersburgo, planeando una expansión gradual a otras regiones. El problema era que la función solo funcionaba en iPhone XS y modelos más nuevos con iOS 15+, así como en los modelos insignia de Android que soportan ML en el dispositivo, lo que creaba un sesgo en los ingresos y el conocimiento técnico de la audiencia. Además, había una clara estacionalidad: la implementación coincidió con un crecimiento de demanda pre-navideño, distorsionando la comparación directa “antes-después”. El equipo consideró tres enfoques para la evaluación.
La primera opción implicaba una simple comparación de las métricas promedio en regiones con y sin la función durante el mismo período de tiempo. Las ventajas de este enfoque son la simplicidad de implementación y la rapidez de obtención de resultados. Las desventajas son la crítica no consideración de las diferencias sistemáticas entre regiones (Moscú históricamente muestra una mayor conversión) y la imposibilidad de separar el efecto de la función de la tendencia estacional. Esta opción fue rechazada debido al alto riesgo de conclusiones falsas positivas.
La segunda opción utilizó Propensity Score Matching para crear un grupo de control de usuarios sin búsqueda por voz, pero con características de dispositivos y comportamientos similares. Ventajas: intento de eliminar el sesgo en atributos observables. Desventajas: la incapacidad de considerar factores no observables (por ejemplo, la propensión a la adopción temprana de tecnología), que afectan tanto la posesión de un dispositivo moderno como la disposición a realizar compras. Además, el matching pierde efectividad en presencia de efectos fijos por región.
La tercera opción combinó Diferencia en Diferencias a nivel de regiones con Variables Instrumentales a nivel de usuarios. Como instrumento se utilizó la bandera de disponibilidad técnica de la función en el dispositivo (depende del modelo de smartphone y la versión del OS, pero no de las preferencias del usuario directamente) para predecir el uso real a través de Mínimos Cuadrados en Dos Etapas. Para regiones con dialectos únicos (Kazan, Novosibirsk) se aplicó Control Sintético, ponderando las regiones de control según las tendencias previas de conversión. Ventajas: separación del efecto de disponibilidad del efecto de auto-selección de usuarios y control de tendencias regionales. Desventajas: complejidad en la interpretación del Efecto de Tratamiento Promedio Local (LATE) y exigencias respecto a la suposición de tendencias paralelas. Esta opción fue elegida como la más robusta.
Como resultado del análisis, se encontró que la búsqueda por voz proporciona un aumento incremental del 18% en la profundidad de navegación entre los usuarios con dispositivos compatibles, pero no se detectó un efecto estadísticamente significativo en la conversión a compra. Además, en categorías con términos técnicos (componentes informáticos) se observó una disminución en la conversión debido a errores en el reconocimiento de vocabulario específico. Esto permitió al equipo ajustar la hoja de ruta: mejorar el reconocimiento de términos técnicos antes de la escalabilidad y enfocar el marketing en categorías de productos “simples” (electrodomésticos), donde la búsqueda por voz mostró los mejores resultados.
Lo que los candidatos suelen pasar por alto
¿Cómo separar el efecto a corto plazo de novedad (novelty effect) de un cambio de comportamiento sostenido al evaluar interfaces de voz?
Los candidatos a menudo ignoran la dinámica temporal de la adopción. Es necesario realizar un análisis de cohortes por el día del primer uso de la función y rastrear la retención de uso durante un horizonte de 3-4 semanas. Si la intensidad de uso cae siguiendo una curva de atenuación exponencial hasta un nivel base, el efecto es debido a la novedad. Para una evaluación correcta, sólo se debe utilizar el período establecido (steady state) o ponderar las observaciones en función de la vida útil de la cohorte. También es importante verificar la heterogeneidad del efecto según la frecuencia de uso: los power users pueden mostrar un comportamiento sostenido, mientras que los usuarios ocasionales son propensos al efecto de novedad.
¿Cómo manejar correctamente los valores cero (zeroes) en los datos cuando un usuario activó la búsqueda por voz, pero no obtuvo resultados debido a un error de reconocimiento?
La regresión lineal estándar o el modelo logístico son inadecuados aquí debido a la distribución mixta: una gran cantidad de ceros (intentos fallidos) y una distribución continua de resultados positivos. Es necesario aplicar un modelo de dos partes (modelo hurdle) o Modelo Binomial Negativo Inflado por Ceros para métricas de conteo (número de vistas). La primera parte del modelo evalúa la probabilidad de búsqueda exitosa (ecuación de selección), la segunda — la intensidad de uso dado el éxito (ecuación de resultado). Ignorar esta estructura lleva a una subestimación del efecto, ya que los intentos fallidos se clasifican erróneamente como falta de interés, y no como una barrera técnica.
¿Por qué no se puede utilizar una simple comparación de Intent-to-Treat (ITT) de todos los usuarios en la región de implementación contra la región de control en este caso?
El análisis ITT mezcla el efecto de la disponibilidad de la función con el efecto de su uso real, difuminando la evaluación. Si solo el 10% de la audiencia tiene dispositivos compatibles y solo el 20% de ellos intentará la función, ITT mostrará un efecto del 2% incluso con una efectividad del 100% para los usuarios reales. Para decisiones empresariales, el efecto más crítico es el Treatment-on-Treated (TOT) o el Efecto de Tratamiento Promedio Local (LATE), obtenido a través de variables instrumentales. Los candidatos pasan por alto que el cumplimiento (compliance) aquí no es del 100%, y es necesario escalar la evaluación ITT inversamente proporcional a la proporción de cumplidores para obtener el verdadero efecto en aquellos que realmente utilizan la función.