De historische context van dergelijke veranderingen gaat terug naar 2017, toen Netflix de vijfsterrenclassificatie verwierp ten gunste van binaire 'duimen omhoog/omlaag', en YouTube volgde dit voorbeeld door de dislike-knoppen te verbergen. Deze veranderingen werden gedreven door het feit dat vijfsterrenbeoordelingen een 'Aziatische' inflatie lieten zien (concentratie rond 4-5 sterren) en slecht correleerden met de feitelijke consumptie van content. Het probleem ligt in het isoleren van het pure effect van de wijziging van het feedbackmechanisme van confounding factoren: seizoensgebondenheid van categorieën, zelfselectie van actieve gebruikers en tijdelijke degradatie van Collaborative Filtering-modellen door de sporadische nieuwe signalen.
Om dit op te lossen, wordt Staggered Difference-in-Differences (DiD) toegepast met contentcategorieën, waarbij de behandelde categorieën (treatment) worden vergeleken met de nog niet overgestapte categorieën (control), rekening houdend met de verschillende implementatietijden. Voor categorieën zonder directe analogieën wordt de Synthetic Control Method gebruikt, die een gewogen combinatie van controlecategorieën creëert die een contrafactuele structuur nabootst. De endogeniteit van de zelfselecterende beoordelaars wordt gecorrigeerd via Heckman Correction of Propensity Score Matching op basis van kijkgeschiedenis en tenure. Voor de beoordeling van de kwaliteit van aanbevelingen wordt de Counterfactual Evaluation toegepast met metrics zoals NDCG en MAP op hold-out steekproeven, met uitzondering van de burn-in periode van 2-4 weken voor de stabilisatie van de factor matrix.
De streamingdienst ‘CinemaFlow’ plande de vervangingen van het verouderde vijfsterren systeem door een binair systeem om de betrokkenheid te verhogen. Het belangrijkste probleem was dat het team vreesde dat de voorspellende kracht van aanbevelingen zou afnemen door de vermindering van de granulariteit van signalen, en was ook bezorgd over een scherpe daling van de activiteit van gebruikers die gewend waren aan de gedetailleerde schaal. Het was nodig om een evaluatiemethode te vinden die rekening hield met de geleidelijke uitrol over genres (eerst documentaires, dan komedies) en netwerkeffecten, waarbij de zichtbaarheid van bestaande beoordelingen invloed had op de bereidheid van nieuwe gebruikers om te stemmen.
Een optie was klassiek A/B testen waarbij gebruikers op het niveau van user_id werden gesegmenteerd. De voordelen van deze benadering omvatten de zuiverheid van het experiment en de eenvoud van de interpretatie van causale effecten. Nadelen waren kritisch: het Collaborative Filtering algoritme verloor zijn integriteit door het mengen van twee soorten signalen in één matrix, wat artefacten in aanbevelingen voor beide groepen creëerde; er was een risico op kruisbesmetting via sociale functies (gebruikers zagen de beoordelingen van vrienden uit een andere groep); het bedrijf was bang voor negatieve reacties op de gefragmenteerde gebruikerservaring binnen één product.
Als alternatief was er een voor/na analyse waarbij de metrics voor elke categorie afzonderlijk vóór en na de overgang werden vergeleken. De voordelen waren technische eenvoud en geen noodzaak om het oude systeem voor sommige gebruikers in stand te houden. Nadelen omvatten de onmogelijkheid om het effect van de interventie te scheiden van seizoensgebonden schommelingen in kijkgedrag (bijvoorbeeld, kerstfilms worden anders beoordeeld in december), het negeren van het groepsgedragseffect en de zelfselectie van vroege volgers van het nieuwe systeem, wat leidde tot een vertekende beoordeling.
Er werd gekozen voor een hybride aanpak van Staggered DiD met Synthetic Controls en Instrumental Variables. Deze methode stelde ons in staat om categorieën die nog niet waren overgestapt op het binaire systeem als controles te gebruiken voor diegene die dat wel waren, met correctie van de temporele trends. Synthetic Control compenseerde de heterogeniteit tussen genres, terwijl de IV-aanpak, met gebruik van de tijd van het plaatsen van content (wanneer er minder online gebruikers zijn en zwakkere herding), als instrument hielp om het pure effect van de beoordelingsinterface te isoleren. De keuze was ingegeven door de noodzaak om de functionaliteit van het aanbevelingssysteem tijdens de overgang te behouden en ongevoelige beoordelingen te verkrijgen bij gedeeltelijke beschikbaarheid van gegevens.
Het uiteindelijke resultaat toonde aan dat het aantal beoordelingen met 220% was gestegen door de verlaging van de cognitieve belasting, maar de nauwkeurigheid van aanbevelingen (gemeten met NDCG@10) daalde in de eerste drie weken met 12%. Deze periode kwam overeen met het hertrainen van het Matrix Factorization-model, waarna de metrics herstelden tot het baseline-niveau dankzij de verhoging van de density van de matrix. Op basis van deze gegevens nam het productteam de beslissing om een volledige uitrol met een extra budget voor een koude start voor nieuwe gebruikers uit te voeren.
Hoe moet de periode van degradatie van de kwaliteit van aanbevelingen tijdens de hertraining van het model correct in acht worden genomen en moet deze worden gescheiden van het echte effect van het nieuwe systeem?
Antwoord: Het is noodzakelijk om het concept 'burn-in periode' formeel te definiëren, meestal 2-4 weken, gedurende welke metrics voor de kwaliteit van aanbevelingen uit de hoofdcausale analyse worden uitgesloten. Gebruik Counterfactual Evaluation op historische hold-out sets, waarbij offline metrics (NDCG, MAP, Precision@K) vóór en na de overgang worden vergeleken, maar stratificerend naar het niveau van gebruikersactiviteit. Het is belangrijk om de metrics coverage en diversity afzonderlijk van accuracy te volgen, aangezien binaire signalen de populariteitsbias kunnen vergroten bij ontoereikende regularisatie.
Hoe om te gaan met de endogeniteit van zelfselectie bij gebruikers die bereid zijn beoordelingen achter te laten onder het nieuwe systeem en hun gedrag te scheiden van het effect van de interface zelf?
Antwoord: Gebruikers die content onder het binaire systeem beoordelen, verschillen systematisch van 'sterren'-beoordelaars (geneigd naar extreme voorkeuren). Pas Heckman Correction toe (tweedelige model met selection equation) of Inverse Probability Weighting op basis van propensity scores, berekend op basis van waargenomen kenmerken (kijkgeschiedenis, tenure, sessietijd). Gebruik als Instrumental Variable willekeurige variaties in de interface (de volgorde van de plaatsen van de like/dislike knoppen) of A/B-testen van de zichtbaarheid van aggregated ratings om het pure effect van de dataverzameling te isoleren.
Hoe het effect van groepsgedrag (herding) kwantitatief te beoordelen en dit te scheiden van de echte voorkeur van de gebruiker bij de analyse van het aantal beoordelingen?
Antwoord: Scheid gebruikers in 'pioniers' (first-movers), die de lege beoordelingssteller zien, en 'volgers', die een niet-nul aantal stemmen zien. Pas Regression Discontinuity Design (RDD) toe rond drempelwaarden voor zichtbaarheid van beoordelingen (bijvoorbeeld wanneer content in de top-10 van de categorie verschijnt). Vergelijk de kans op beoordeling door gebruikers die het geaggregeerde resultaat zien met degenen die 'wees de eerste' zien. Voor dynamische correctie gebruik Thompson Sampling of Bayesian methoden om de echte kwaliteit van de content te beoordelen, waarbij netwerkeffecten worden gefilterd via tijdsvertragingen tussen publicatie en beoordeling.