De evolutie van e-commerce van tekstzoekopdrachten naar multimodale interfaces begon met de opkomst van Convolutional Neural Networks (CNN) in mobiele applicaties in het midden van de jaren 2010. Klassieke benaderingen van A/B-testen worden hier geconfronteerd met hardware fragmentatie: hetzelfde algoritme voor visuele zoekopdracht vertoont verschillende nauwkeurigheden op flagship-apparaten en budget-smartphones.
Vroege onderzoeken toonden aan dat gebruikers met low-end apparaten systematisch verschillende kijkpatronen vertonen, wat een bedreiging vormt voor de violation assumption over de onafhankelijkheid van de fout ten opzichte van covariaten in standaard econometrische modellen. Dit maakt eenvoudige groepsvergelijkingen via t-test of basisregressie methodologisch onvalide.
Fundamentele endogeniteit vloeit voort uit self-selection op het niveau van adoptie: technisch onderlegde gebruikers (early adopters) zijn tegelijkertijd geneigd om nieuwe functies uit te proberen en hebben een hoge basisconversie. Daarnaast vindt er een structurele kannibalisatie plaats: visuele zoekopdracht 'neemt' zoekopdrachten van tekstzoekopdrachten weg, maar transformeert tegelijkertijd laag-informatieve tekstuele zoekopdrachten in hoog-informatieve visuele embeddings.
Technische heterogeniteit van camerakwaliteit introduceert een extra laag van measurement error die correleert met het SES-profiel van de gebruiker. Standaardmethoden voor het beheersen van selection bias, zoals Propensity Score Matching, zijn hier onvoldoende vanwege de aanwezigheid van unobserved heterogeneity in de visuele geletterdheid van gebruikers.
De optimale strategie is Two-Stage Least Squares (2SLS) met behulp van camerafunctionaliteiten (aanwezigheid van Telephoto Lens, ondersteuning voor Night Mode) als instrumentele variabele (IV). De exclusiebeperking wordt nageleefd onder de voorwaarde dat cameratenmerken de conversie alleen beïnvloeden via de mogelijkheid om visuele zoekopdrachten te gebruiken, en niet via correlaties met inkomenskenmerken.
De validiteit van de instrumenten wordt gecontroleerd via de Overidentification Test met behulp van exogene variatie in camerabatches. Voor kannibalisatie wordt Principal Stratification toegepast: het opdelen van gebruikers in stratum op basis van een latent class model, waarbij de klassen worden gedefinieerd op basis van de waarschijnlijkheid van omschakeling van tekstzoekopdrachten.
Heterogene Treatment Effects worden geschat via Causal Forests met clustering op het niveau van het apparaattype om de correlatie van fouten binnen hardwareklassen in aanmerking te nemen. Daarnaast worden metadata van opnames (EXIF-gegevens over belichting) gecontroleerd om het effect speciaal van herkenning te isoleren, en niet van externe omstandigheden.
Het team van de marketplace 'FashionHub' lanceerde visuele zoekopdrachten op 20% van het verkeer en observeerde een conversiegroei van 18% onder adopters. Echter, een audit onthulde dat 70% van de gebruikers met iPhone 12+ (hoge camerakwaliteit) in de testgroep viel, terwijl het budgetsegment van Android in de controle bleef, waardoor hardware-gebaseerde verwarring ontstond. De sleutelmeting – het gemiddelde aantal bekeken productkaarten voordat een aankoop werd gedaan – groeide onevenredig in het premiumapparaatsegment.
Een ruwe vergelijking van adopters versus niet-adopters zou een schatting van +18% voor conversie geven, maar zou een overlevingsbias met zich meebrengen. Gebruikers die een foto van het product maakten, toonden al een hoge aankoopintentie en tolerantie voor friction in de gebruikerservaring. Het pluspunt van de aanpak is de eenvoud van interpretatie en de snelheid van resultaat. Het minpunt is de onmogelijkheid om het causale effect van de functie te scheiden van self-selection van technisch onderlegde doelgroepen met een hoge baseline-conversie.
Geografische rollout met Difference-in-Differences hield in dat er eerst in Moskou (hoge penetratie van premium smartphones) werd gelanceerd, en daarna een maand later in de regio's. Pluspunt: de mogelijkheid om rekening te houden met tijdstrends en seizoensgebondenheid van mode. Minpunt: de regio's verschilden qua disposable income en modewaarden, wat de parallel trends assumption verstoorde; het Moskouse publiek had een systematisch andere elasticiteit ten opzichte van nieuwigheid in digitale functies.
Instrumentele variabelen met Propensity Score Matching gebruikten de technische onmogelijkheid om visuele zoekopdrachten op apparaten zonder Auto-Focus en OIS (Optical Image Stabilization) te starten als een natuurlijk experiment. Gebruikers met compatibele apparaten werden vergeleken met vergelijkbare demografieën en tekstzoekgeschiedenis, maar met niet-ondersteunde apparaten. Pluspunt: de exogeniteit van het instrument (hardware gaat vooraf aan de aankoopbeslissing). Minpunt: de vereiste relevantie werd gecontroleerd via de first-stage F-statistic (was 45, >10 drempel), en de uitsluitingsrestrictie vereiste overtuiging dat de camera de aankoop alleen via de zoekopdracht beïnvloedt.
IV-oplossing werd gekozen met extra controle over lichtomstandigheden via API voor tijd van de dag en analyse van EXIF-metadata van de foto (ISO, belichtingstijd). Het eindresultaat: de ware Local Average Treatment Effect (LATE) was +4,2% voor conversie (alles daarbuiten was selection bias), waarbij het effect geconcentreerd was in de categorie 'schoenen' (waar kleurmatching kritisch is), en afwezig was in 'accessoires' (waar merk de visuele kenmerken domineert).
Waarom kan er geen A/B-test op gebruikersniveau worden uitgevoerd, als de infrastructuur dit toestaat?
Kandidaten negeren netwerkeffecten bij de training van het Visual Embeddings Model: wanneer gebruikers foto's maken, komen deze gegevens in de trainingsset van het Siamese Network, wat de zoekkwaliteit voor alle gebruikers, inclusief de controlegroep, verbetert (spillover effecten). Daarnaast wordt SUTVA (Stable Unit Treatment Value Assumption) geschonden door het besmetten van de rangorde: als visuele zoekopdrachten relevante producten in de algemene aanbevelingsfeed verhogen, beïnvloedt dit het gedrag van de controlegroep.
De oplossing is Cluster Randomization op het niveau van apparaattype of het gebruik van Exposure Mapping met een aanpassing voor het gebruiksintensiteit van de functie in de cluster via Inverse Probability Weighting.
Hoe kan men de kannibalisatie van tekstzoekopdrachten scheiden van het creëren van nieuwe vraag wanneer de intentie niet latent is?
De standaardaanpak voor het vergelijken van totale zoekopdrachten negeert het quality-adjusted volume. Er moet een Principal Stratification Framework worden toegepast: vier stratum (Compliers, Never-takers, Always-takers, Defiers) definiëren op basis van de potentiële uitkomsten van het gebruik van tekstzoekopdrachten met aanwezig/afwezig visueel.
Vervolgens moet de Complier Average Causal Effect (CACE) worden geschat voor degenen die alleen zouden overschakelen van tekst naar visueel als het beschikbaar zou zijn. Daarnaast moet de Embedding Space Distance tussen tekstuele zoekopdrachten van de gebruiker en productcategorieën worden gebruikt: als visuele zoekopdracht de semantische afstand tussen zoekopdracht en aankoop verkort, is dit een incrementeel effect in plaats van substitutie.
Wat is het gevaar van conditioning op het aantal succesvolle herkenningen bij het analyseren van retentie?
Dit is een klassieke Collider Bias (M-structuur): de voorwaarde voor 'succesvolle herkenning' (die afhankelijk is van zowel de kwaliteit van de camera als de complexiteit van de zoekopdracht) opent spurieuze paden tussen hardware en retentie. Kandidaten filteren vaak 'failed uploads', wat leidt tot selection on dependent variable.
De juiste aanpak is Heckman Two-Step Correction of Tobit Model voor zero-inflated uitkomsten, waarbij gezamenlijk de beslissing om de functie te gebruiken en de uitkomst conditional on usage wordt gemodelleerd, rekening houdend met de Inverse Mills Ratio uit de eerste equation van het probit-model met predictors (belichting, tijd van de dag, productcategorie).