Risposta alla domanda

Il contesto storico è formato dall'evoluzione delle normative sulla privacy (GDPR, CCPA, ePrivacy Directive), che obbligano le aziende a richiedere il consenso esplicito degli utenti per l'elaborazione dei dati. Fino al 2018, gli analisti si affidavano all'attribuzione deterministica con tracciamento completo del percorso utente, ma l'introduzione delle piattaforme di gestione del consenso (CMP) ha portato a una scomparsa sistematica dei dati (missing not at random), distorcendo i funnel e le metriche LTV.

Il problema risiede nell'endogeneity self-selection: gli utenti che rifiutano i cookie si distinguono sistematicamente per comportamento (maggiore sensibilità al prezzo, utilizzo di ad-blockers, clicca meno frequentemente sugli annunci), creando un bias di sopravvivenza (survival bias) nei dati osservati. Un confronto standard tra coorti con e senza consenso porta a una sopravvalutazione dell'efficacia dei canali, poiché gli utenti ``persi'' non sono un campione casuale.

La soluzione si basa sull'inferenza causale utilizzando variabili strumentali (IV) o design discontinuo di regressione (RDD) in base ai valori soglia della propensione a dare consenso (propensity score). Viene applicato il two-stage least squares (2SLS), dove l'istrumento è rappresentato dalla variante di design del banner CMP (ad esempio, la posizione del pulsante “Accetta”), che influisce sulla probabilità di consenso ma non correla direttamente con la conversione. Per valutare l'effetto a lungo termine, viene utilizzato il Synthetic Control Method, che crea una combinazione ponderata di regioni o segmenti con un alto livello di consenso come "donatori" per modellare uno scenario controfattuale senza l'introduzione di un consenso rigoroso. Inoltre, viene implementata l'attribuzione probabilistica basata su first-party data e server-side tracking, che consente di recuperare parte delle catene "perse" tramite modelli probabilistici (catene di Markov o valore di Shapley per i canali).

Situazione della vita reale

Il team di una piattaforma e-commerce ha affrontato una crisi dopo l'introduzione del banner di consenso conforme al GDPR nella regione UE: la quota di rifiuti dal tracciamento ha raggiunto il 60%, mentre la conversione osservata in un utente pagante è diminuita del 35%. L'azienda temeva una catastrofica diminuzione dell'efficacia del marketing, ma era necessario separare la vera diminuzione della domanda dall'artefatto della perdita di dati di attribuzione.

Il primo approccio esaminato è stato il semplice confronto delle metriche prima e dopo l'introduzione (analisi pre-post). Pro: implementazione immediata e interpretazione chiara. Contro: completa ignoranza della stagionalità (il lancio è coinciso con l'inizio del calo estivo), delle campagne concorrenti esterne e delle modifiche agli algoritmi di iOS App Tracking Transparency, rendendo il risultato non valido.

Il secondo approccio è stato il confronto del traffico UE con il traffico proveniente da paesi non UE (geo-experiment). Pro: presenza di un gruppo di controllo con tracciamento completo. Contro: fondamentali incomparabilità delle regioni a causa di differenze nel comportamento d'acquisto, fluttuazioni valutarie e diversi stadi di sviluppo del mercato, portando a uno spostamento della stima del 15-20%.

Il terzo approccio è stato l'applicazione di CausalImpact utilizzando un modello di serie temporali strutturali bayesiane. Pro: considerazione delle dipendenze temporali e della stagionalità. Contro: sensibilità alla scelta delle covariate (predictors) e all'ipotesi di assenza di shock sincronici, che risulta rischioso in un periodo di cambiamenti globali nelle politiche sulla privacy.

La soluzione scelta è stata il Synthetic Control Method (SCM) utilizzando segmenti di utenti con un alto tasso di consenso storico (donatori) per costruire un EU sintetico ponderato. Inoltre, sono state applicate variabili strumentali a livello di coorte: sono stati utilizzati esperimenti A/B randomizzati per il design del banner (colore del pulsante, predefiniti) come strumento per valutare l'Effetto Medio di Trattamento Locale (LATE). Questo ha permesso di isolare il puro effetto della disponibilità dei dati, piuttosto che del design del banner.

Il risultato finale ha mostrato che la vera diminuzione della conversione era solo dell'8% (anziché 35%), il resto rappresentando un artefatto di perdita di attribuzione. È stato ristrutturato il modello MTA (Multi-Touch Attribution) utilizzando una calibrazione basata sull'incrementalità attraverso geo-based holdouts, ripristinando la precisione della previsione del ROAS a un livello di ±3% rispetto ai valori pre-consenso.

Cosa spesso ignorano i candidati

Come correggere il bias nell'attribuzione, quando parte degli utenti forniscono consenso parziale (solo cookie necessari), creando percorsi utente incompleti?

I candidati spesso propongono semplicemente di escludere gli utenti non consenzienti dall'analisi, aumentando il selection bias. L'approccio corretto è utilizzare pattern-mixture models o multiple imputation by chained equations (MICE) tenendo conto del meccanismo di assenza (MNAR). È necessario modellare la probabilità di conversione come funzione dei segnali comportamentali osservati (eventi first-party) anche in assenza di third-party identifiers, impiegando surrogate outcomes per ripristinare l'estimando causale.

Perché le metriche standard del click-through rate (CTR) potrebbero mostrare un aumento dopo l'introduzione del consenso rigoroso e come interpretarlo?

Questo è un classico survivorship bias: rimangono solo utenti altamente motivati, disposti al tracciamento, che già avevano un alto CTR. I candidati trascurano la necessità di valutare l'effetto intention-to-treat (ITT) su tutta la popolazione, e non solo sul gruppo per protocollo. È necessario applicare l'analisi del complier average causal effect (CACE) utilizzando la randomizzazione del design del banner di consenso come strumento per valutare l'effetto sui "compliant".

Come distinguere l'effetto della perdita di dati dalla vera diminuzione della domanda nell'introduzione del meccanismo di consenso in condizioni in cui non è legalmente possibile creare un gruppo di controllo senza banner?

In questo caso, è fondamentale applicare il difference-in-differences (DiD) con un design di adozione scaglionata o controllo sintetico utilizzando "early" e "late" adopters in diverse giurisdizioni. I candidati spesso non considerano l'assunzione delle tendenze parallele, che deve essere validata attraverso la specificazione dello studio degli eventi con lead e lag. È anche importante utilizzare proxy variables (ad esempio, dati aggregati sulle spese con carta di credito o dati panel dai fornitori) come fonte alternativa di verità per la validazione delle metriche interne, correggendo il rumore di privacy differenziale.