Analisi di businessAnalista di prodotto

Quale metodo permetterebbe di valutare quantitativamente l'effetto causale dell'introduzione del servizio "Acquista ora, paga dopo" (Buy Now Pay Later) sul valore medio degli acquisti e sulla frequenza dei resi nei negozi online, se l'accesso alla funzione è determinato dal punteggio di credito con una soglia rigida di approvazione, escludendo la possibilità di un classico A/B testing, e il comportamento degli utenti dipende fortemente dai picchi stagionali di consumo?

Supera i colloqui con l'assistente IA Hintsage

Risposta alla domanda

Contesto storico. Negli ultimi anni, il BNPL (Buy Now Pay Later) è diventato uno standard per le integrazioni fintech nel retail, consentendo agli utenti di rateizzare i pagamenti senza interessi. Gli analisti si trovano ad affrontare un problema fondamentale: non è possibile condurre un esperimento randomizzato, poiché il rifiuto di approvare un prestito per motivi etici e legali non è possibile, e gli utenti si selezionano autonomamente in base alla solvibilità. Questo crea un classico problema di endogeneità, in cui la correlazione osservata tra l'uso del BNPL e un valore medio degli acquisti elevato è dovuta a caratteristiche preesistenti dei clienti solvibili, e non al prodotto stesso.

Definizione del problema. Le sfide principali includono un netto divario nelle caratteristiche al limite della soglia di approvazione (ad esempio, 700 punti), la stagionalità (Black Friday, periodo pre-natalizio), la cannibalizzazione delle vendite future (intertemporal substitution) e l'aumento dei resi a causa di acquisti impulsivi. È necessario isolare l'effetto incrementale netto puro (LATE — Local Average Treatment Effect) per gli utenti al limite della soglia di approvazione, minimizzando l'influenza dei fattori confondenti.

Soluzione dettagliata. L'approccio ottimale è il Sharp Regression Discontinuity Design (RDD) al limite del punteggio con una banda (bandwidth) di ±30-50 punti. La metodologia si basa sull'ipotesi di casualità locale: gli utenti con 695 e 705 punti non sono statisticamente diversi in base a caratteristiche osservabili e non osservabili, ma appartengono a gruppi diversi (controllo e trattamento). Inoltre, si applica il Difference-in-Differences (DiD) per monitorare la dinamica prima e dopo l'introduzione all'interno di questa banda, il che controlla la stagionalità. Per valutare la cannibalizzazione si utilizza uno Event Study con ritardi (spese nei t-3, t-2 mesi prima dell'utilizzo del BNPL). Se è disponibile uno strumento (soglia di approvazione), ma ci sono casi di non conformità (approvati, ma non hanno utilizzato il BNPL), si applica il Fuzzy RDD tramite il Two-Stage Least Squares (2SLS). È importante controllare l'equilibrio delle covariate (Covariate Balance Tests) e la densità della distribuzione (McCrary test) per la validazione del design.

Situazione dal vivo

Un marketplace di elettronica ha integrato il BNPL da una banca partner con una soglia di approvazione rigida di 650 punti sulla scala interna. L'azienda ha registrato un aumento del valore medio degli acquisti del 35% per gli utenti con BNPL, ma sospettava che si trattasse di un effetto di auto-selezione di clienti più abbienti. Era necessario prendere una decisione sull'ampliamento del limite di credito, ma era necessaria una valutazione del vero effetto causale.

Opzione 1: Semplice confronto tra "utilizzato BNPL" e "non utilizzato" senza considerare la soglia. Pro: implementazione massima semplicistica in SQL, non richiede statistiche complesse. Contro: grave distorsione nella selezione (selection bias) — gli utenti approvati hanno un reddito e una storia di acquisti migliori, dando una stima sovradimensionata dell'effetto fino al +40%, non collegato al prodotto. Il risultato non è utile per prendere decisioni.

Opzione 2: Analisi prima-dopo per l'intera audience senza divisione in gruppi. Pro: tiene conto delle tendenze generali di crescita della piattaforma e è semplice da interpretare. Contro: non è possibile separare l'effetto del BNPL dall'impennata stagionale (vendite natalizie) e dalle campagne di marketing simultanee. La stima risulta distorta a causa di shock temporali della domanda.

Opzione 3: Regression Discontinuity Design (RDD) alla soglia di 650 punti con banda ±40 punti. Pro: utilizza un netto divario nella probabilità di approvazione come esperimento naturale, valutando l'effetto per gli utenti “marginali” che “hanno appena passato” o “non hanno passato” la soglia. Controlla per caratteristiche non misurabili nella vicinanza locale. Contro: valuta solo l'effetto locale (LATE), che non può essere generalizzato per tutti gli utenti con punteggi elevati; richiede un grande campione nella vicinanza della soglia per la potenza statistica.

Risultato scelto: combinazione di Sharp RDD per gli utenti nell'intervallo di 610-690 punti con Propensity Score Matching per spese storiche e categorie di acquisti, integrato con il Difference-in-Differences per monitorare la dinamica nei 90 giorni dopo l'acquisto. Per controllare la stagionalità, sono stati introdotti effetti fissi settimanali (Week Fixed Effects). Questo ha permesso di isolare l'effetto netto del prodotto dalle caratteristiche del mutuatario.

Risultato finale: identificato un aumento statisticamente significativo del valore medio degli acquisti del 17% (ITT — Intent-to-Treat) per gli utenti marginali, ma un aumento della quota di resi dell'11% a causa di acquisti impulsivi. L'effetto si è rivelato eterogeneo: elevato per l'elettronica (+24%), nullo per i prodotti per la casa. Sulla base dei dati, è stata modificata la soglia di approvazione per le categorie di prodotti rischiosi, riducendo il tasso di resi del 4% senza perdita di ricavi.

Cosa i candidati spesso trascurano

Come differenziare l'effetto della "novità" (novelty effect) da un cambiamento del comportamento sostenibile utilizzando RDD?

È necessario condurre un Dynamic RDD analizzando l'effetto in intervalli di tempo (cohort-level RDD). Si valuta l'effetto separatamente per le settimane 1-2 (novità) e i mesi 3-6 (comportamento sostenibile). Se i coefficienti differiscono significativamente (verifica tramite Chow test), utilizziamo solo la finestra a lungo termine o introduciamo un'interazione temporale con il trattamento. È anche importante controllare il pre-trend parallel — assenza di divari negli esiti (spese) nei periodi precedenti al momento in cui si supera la soglia, il che confermerà la validità del design e l'assenza di effetti di anticipazione.

Come valutare correttamente la cannibalizzazione delle vendite future (intertemporal substitution) con l'introduzione del BNPL?

Il RDD standard valuta solo l'effetto statico al momento dell'acquisto. Per la cannibalizzazione si costruisce uno Event Study con ritardi e anticipi (leads/lags) rispetto al momento del primo utilizzo del BNPL. Si analizzano le spese nei periodi t-3, t-2, t-1 (prima) e t+1, t+2, t+3 (dopo) mesi. Se la somma dei coefficienti sugli anticipi (pre-periods) è negativa e significativa, ciò indica un prestito dal futuro (l'utente pianificava l'acquisto e lo ha accelerato grazie al BNPL). Utilizziamo le Local Projections del metodo Jordà per i moltiplicatori dinamici, il che consente di valutare l'effetto incrementale netto su un lungo periodo.

Perché in questo caso non si può utilizzare una semplice corrispondenza per propensione (Propensity Score Matching) senza RDD, e quali assunzioni vengono violate?

PSM richiede l'assunzione di Unconfoundedness (Ignorability), che non è possibile in presenza di caratteristiche non misurabili che influenzano l'approvazione (ad esempio, "disciplina finanziaria", fonti di reddito informali, non incluse nel punteggio). Queste variabili latenti sono correlate sia con l'approvazione che con le spese, creando distorsioni. RDD attenua questa richiesta a una casualità locale attorno alla soglia (Local Randomization), dove le caratteristiche non misurabili sono distribuite casualmente. I candidati spesso ignorano la necessità di controllare la densità della distribuzione dei punteggi (McCrary test) e l'equilibrio delle covariate (Covariate balance tests) nella vicinanza della soglia, il che è critico per la validità delle conclusioni.