Antwoord op de vraag
Historische context suggereert dat spraakinterfaces een evolutie hebben doorgemaakt van eenvoudige commando-systemen naar volledige NLP-oplossingen op basis van transformatoren, maar de methodologie voor hun evaluatie blijft niet eenvoudig vanwege de heterogeniteit van de acceptatie van de technologie. Het probleem is dat de functie alleen beschikbaar is op apparaten met bepaalde technische specificaties, wat een systematische selectie-bias creëert, en de geografische uitrol verstoort het principe van willekeurige verdeling. Om het werkelijke effect te isoleren, moet een combinatie van Difference-in-Differences met vaste effecten per regio en tijd worden gebruikt, aangevuld met de Synthetic Control Method voor regio’s met unieke linguïstische patronen, evenals Instrumental Variables voor correctie van de endogeniteit van het gebruik van de functie.
Situatie uit het leven
In een elektronica-marktplaats werd de spraakzoekfunctie aanvankelijk gelanceerd in Moskou en Sint-Petersburg, met de bedoeling deze geleidelijk uit te breiden naar andere regio’s. Het probleem was dat de functie alleen werkte op de iPhone XS en nieuwer met iOS 15+, evenals op Android-vlaggenschipmodellen met ondersteuning voor on-device ML, wat een bias creëerde met betrekking tot de inkomens- en technologische geletterdheid van het publiek. Daarnaast was er een duidelijke seizoensgebondenheid — de implementatie viel samen met de kerstvakantieperiode, wat de directe vergelijking van "voor-na" verstoorde. Het team overwoog drie benaderingen voor de evaluatie.
De eerste optie hield een eenvoudige vergelijking in van gemiddelde statistieken in regio’s met en zonder functie over dezelfde tijdsperiode. Voordelen van de benadering — eenvoud van implementatie en snelheid van de resultaten. Nadelen — kritische ongeachtheid van systematische verschillen tussen regio’s (Moskou toont historisch een hogere conversie) en het onvermogen om het effect van de functie van de seizoensgebonden trend te scheiden. Deze optie werd verworpen vanwege het hoge risico op valse positieve conclusies.
De tweede optie gebruikte Propensity Score Matching om een controlegroep van gebruikers zonder spraakzoekfunctie, maar met vergelijkbare apparaatspecifieke kenmerken en gedrag, te creëren. Voordelen — een poging om de bias op basis van waargenomen kenmerken te elimineren. Nadelen — onvermogen om niet-waargenomen factoren (bijvoorbeeld de neiging tot vroegtijdige adoptie van technologie) die zowel invloed hebben op het bezit van moderne apparaten als op de bereidheid om aankopen te doen, in aanmerking te nemen. Bovendien verliest matching zijn effectiviteit in aanwezigheid van regionale vaste effecten.
De derde optie combineerde Difference-in-Differences op regionaal niveau met Instrumental Variables op niveau van gebruikers. Als instrument werd de vlag van technische beschikbaarheid van de functie op het apparaat gebruikt (afhankelijk van het smartphone-model en de versies van het besturingssysteem, maar niet van de voorkeuren van de gebruiker) om het daadwerkelijke gebruik te voorspellen via Two-Stage Least Squares. Voor regio's met unieke dialecten (Kazan, Novosibirsk) werd Synthetic Control toegepast, waarbij de controleggroepen werden gewogen op basis van eerdere conversietrends. Voordelen — scheiding van het effect van beschikbaarheid van het effect van de zelfselectie van gebruikers en controle van regionale trends. Nadelen — moeilijkheid van de interpretatie van Local Average Treatment Effect (LATE) en de eisen aan de aanname van parallelle trends. Deze optie werd gekozen als de meest robuuste.
Uit de analyse bleek dat spraakgestuurd zoeken een incrementele toename van de diepte van de catalogusweergave van 18% oplevert onder gebruikers met compatibele apparaten, maar er was geen statistisch significante impact op de conversie naar aankoop. Bovendien was er in categorieën met technische termen (computercomponenten) een daling in de conversie door fouten in de herkenning van specifieke woordenschat. Dit stelde het team in staat om de roadmap aan te passen: verbeter de herkenning van technische termen vóór opschaling en concentreer de marketing op categorieën van "eenvoudige" producten (huishoudelijke apparaten), waar spraakgestuurd zoeken de beste resultaten bood.
Wat kandidaten vaak vergeten
Hoe het kortetermijneffect van vernieuwing (novelty effect) te scheiden van de duurzame gedragsverandering bij de evaluatie van spraakinterfaces?
Kandidaten negeren vaak de temporele dynamiek van adoptie. Het is noodzakelijk om cohortanalyses op basis van de datum van de eerste gebruik van de functie te maken en het retentiongebruik over een periode van 3-4 weken te volgen. Als de gebruiksintensiteit een exponentieel afnamepatroon vertoont tot op het basisniveau, is het effect alleen nieuwigheid. Voor een correcte evaluatie moeten alleen gevestigde periodes (steady state) worden gebruikt of moeten de observaties door de levensduur van de cohort worden gewogen. Het is ook belangrijk om de heterogeniteit van de effectiviteit op basis van gebruiksfrequentie te controleren — power users kunnen duurzaam gedrag vertonen, terwijl toevallige gebruikers onderhevig zijn aan het vernieuwingseffect.
Hoe moet men nulwaarden (zeroes) in de gegevens verwerken wanneer een gebruiker spraakgestuurd zoeken heeft geactiveerd, maar geen resultaten heeft ontvangen vanwege een fout in de herkenning?
Standaard lineaire regressie of logistische modellen zijn hier niet geschikt vanwege de gemengde verdeling: een massa nullen (mislukte pogingen) en een continue verdeling van positieve uitkomsten. Het is nodig om het Two-part model (hurdle model) of Zero-Inflated Negative Binomial voor tellingstatistieken (aantal weergaven) toe te passen. Het eerste deel van het model evalueert de kans op een succesvolle zoekopdracht (selection equation), het tweede deel — de intensiteit van het gebruik onder voorwaarde van succes (outcome equation). Het negeren van deze structuur leidt tot een onderschatting van het effect, omdat mislukte pogingen ten onrechte worden gecategoriseerd als een gebrek aan interesse, en niet als een technische barrière.
Waarom kan in dit geval geen eenvoudige Intent-to-Treat (ITT) vergelijking van alle gebruikers in de regio van implementatie tegen een controlegroep worden gebruikt?
ITT-analyse mengt het effect van de beschikbaarheid van de functie met het effect van het feitelijke gebruik, wat de evaluatie verzwakt. Als slechts 10% van het publiek compatibele apparaten heeft en slechts 20% van hen de functie probeert, zal ITT een effect van 2% laten zien, zelfs bij 100% effectiviteit voor de werkelijke gebruikers. Voor zakelijke beslissingen is vooral het Treatment-on-Treated (TOT) effect of Local Average Treatment Effect (LATE), verkregen via instrumentele variabelen, van cruciaal belang. Kandidaten vergeten dat compliance (naleving) hier niet 100% is, en dat het noodzakelijk is om de ITT-evaluatie omgekeerd evenredig te schalen aan het aandeel van de nalevers om het werkelijke effect voor degenen die de functie daadwerkelijk gebruiken, te verkrijgen.