Risposta alla domanda

Contesto storico: La funzione di divisione del pagamento (split payment) ha tradizionalmente dominato i settori dei viaggi e dei servizi B2B, ma la sua introduzione su larga scala nel classico e-commerce (elettronica, moda) è iniziata relativamente di recente con l'aumento dei pagamenti mobili. La principale complessità analitica consiste nel fatto che gli utenti si auto-selezionano in cluster sociali (gruppi giovanili, famiglie), dove la decisione di acquisto viene presa collettivamente, creando interferenze tra il gruppo di test e il gruppo di controllo e rendendo non valido il classico A/B testing.

Definizione del problema: È necessario isolare il puro effetto causale del split payment sulle metriche dell'economia unitaria, separandolo da (1) fluttuazioni stagionali nella domanda di beni costosi, (2) tendenze naturali all'aumento del valore medio dell'ordine nelle giovani coorti, (3) endogeneità delle connessioni sociali (amici benestanti invitano amici benestanti), e (4) rollout graduale per categorie, che distorce i tagli temporali.

Soluzione dettagliata: L'approccio ottimale è una combinazione di Difference-in-Differences (DiD) con randomizzazione a cluster a livello di 'grafico sociale' (non utente), integrata con Fuzzy Regression Discontinuity Design (RDD) sulla soglia di attivazione della funzione (ad esempio, 30.000 ₽). Per la correzione rispetto all'endogeneità delle connessioni sociali si utilizza un approccio IV (Instrumental Variables), dove lo strumento è la posizione della categoria nel piano di rollout (variazione esogena), che precede l'effettivo utilizzo della funzione. Per valutare l'eterogeneità dell'effetto nei segmenti si utilizza il Causal Forest, che consente di evidenziare gli effetti medi condizionali (CATE) per diversi cluster di utenti. Le metriche vengono valutate in due modalità: Intent-to-Treat (ITT) — effetto della presenza del pulsante, e Treatment-on-the-Treated (TOT) — effetto dell'effettivo utilizzo, il che richiede una corretta gestione del non-compliance attraverso il Two-Stage Least Squares (2SLS).

Situazione della vita reale

Contesto: Un grande marketplace di elettronica lancia la funzione "Condividi il carrello" per acquisti superiori a 50.000 ₽, consentendo a due utenti di dividere il pagamento equamente. Il pilota è avviato nella categoria "Smartphone", con piani di espansione a "Laptop". Dopo il primo mese, l'azienda registra un aumento del 25% del valore medio dell'ordine nella categoria di test, ma l'analista sospetta che il 70% degli utenti della funzione siano studenti di età compresa tra 18 e 22 anni, che storicamente avevano un basso ARPU, ma nel pilota hanno iniziato ad acquistare iPhone in gruppo, creando un effetto di "acquisto collettivo".

Opzione di soluzione 1: semplice confronto Before/After (t-test sui medi). Vantaggi: realizzazione immediata, non richiede infrastruttura complessa. Svantaggi: ignora completamente la stagionalità (l'inizio dell'anno scolastico aumenta la domanda di gadget), le tendenze generali della crescita del commercio mobile e l'auto-selezione di ordini di alto valore vicino alla soglia di 50.000 ₽. Il risultato è sovrastimato di 15-18 punti percentuali.

Opzione di soluzione 2: Difference-in-Differences con la categoria "Accessori" come controllo. Vantaggi: elimina le tendenze temporali generali, facile interpretazione. Svantaggi: violazione dell'assunzione di parallel trends — la categoria smartphone ha un'elasticità della domanda diversa e una dinamica dei prezzi diversa rispetto agli accessori. Inoltre, c'è un spillover effect: gli utenti possono acquistare uno smartphone collettivamente, ma la custodia — già senza split payment nella categoria di controllo, contaminando così il gruppo di controllo.

Opzione di soluzione 3: Regression Discontinuity Design (RDD) rigorosamente sulla soglia di 50.000 ₽. Vantaggi: utilizza una soglia esogena per un quasi esperimento, valuta l'effetto locale (LATE) per ordini al limite. Svantaggi: non si scala su tutta la gamma di prezzi, ignora ordini di 80.000 ₽ (lì l'effetto potrebbe differire). Inoltre, la caratteristica fuzzy — gli utenti possono manipolare il prezzo (aggiungendo un accessorio) per soddisfare la condizione.

Soluzione scelta e giustificazione: È stato implementato un approccio ibrido: Fuzzy RDD per ordini nella fascia 45.000–55.000 ₽ (identificazione pura al limite) + DiD per la tendenza generale con l'uso del Synthetic Control Method (SCM) — creazione di un controllo sintetico ponderato da altre categorie, replicando la dinamica degli smartphone prima dell'introduzione. Per gli effetti sociali è stata applicata la clusterizzazione per device ID (identificazione dei dispositivi utilizzati da un gruppo di persone) come proxy per le connessioni sociali.

Risultato finale: L'effetto incrementale vero è stato di +8,4% sul valore medio dell'ordine (invece del +25% osservato), mentre la conversione nel segmento 18-25 anni è aumentata del 12%, ma la frequenza degli acquisti è diminuita del 5% nel trimestre successivo (effetto di "rinvio" degli acquisti fino a quando il gruppo non si unisce). La funzione è stata lanciata solo nelle categorie con un valore medio dell'ordine di 40.000–70.000 ₽, dove l'effetto è statisticamente significativo.

Cosa i candidati spesso trascurano

1. Problema di interferenza (contaminazione) attraverso i grafici sociali: un utente del gruppo di controllo può essere invitato da un amico del gruppo di test per un acquisto collettivo.

Risposta: Nel classico A/B test si presume la Stable Unit Treatment Value Assumption (SUTVA) — indipendenza delle unità. Nel caso dello split payment, ciò viene violato, poiché il trattamento (presenza del pulsante) di un utente influisce sul comportamento di un altro (inviti). La soluzione corretta è la randomizzazione a cluster (cluster randomization) a livello di componenti sociali (grafi di amicizia), oppure analisi degli effetti di rete attraverso exposure mapping, dove l'exposure è definito come la quota di amici con accesso alla funzione. Alternativamente, si può utilizzare la bipartite graph clustering per dividere il grafo in cluster isolati prima dell'esperimento.

2. Differenza tra gli effetti ITT (Intent-to-Treat) e TOT (Treatment-on-the-Treated) in condizioni di bassa penetrazione della funzione.

Risposta: Molti analisti erroneamente valutano l'effetto per tutti quelli che hanno visto il pulsante (ITT) come l'effetto per coloro che lo hanno utilizzato (TOT). Se solo il 10% di coloro che vedono il pulsante cliccano su "Dividi", allora l'ITT declassa l'effetto reale di 10 volte. Per valutare il TOT è necessario un IV-approach, dove lo strumento $Z$ è il fatto di visualizzare il pulsante (randomizzato), e la variabile endogena $D$ è il fatto di utilizzo. La stima 2SLS fornirà l'Local Average Treatment Effect (LATE) per i complainers — coloro che utilizzerebbero la funzione, solo se disponibile. Questo è critico per il caso aziendale: l'effetto per "inclini al raggruppamento" è 3-4 volte superiore rispetto all'effetto medio.

3. Cannibalizzazione a lungo termine e forward-looking bias: lo split payment potrebbe non creare nuova domanda, ma solo ridistribuire future acquisti individuali a un acquisto collettivo attuale.

Risposta: I candidati tendono a guardare solo alle metriche delle transazioni immediate. È necessaria un'analisi di coorte con orizzonte di 90+ giorni, confrontando la frequenza di acquisti (purchase frequency) degli utenti che hanno utilizzato lo split payment, contro un controllo abbinato. Questo richiede la costruzione di un propensity score matching (PSM) basato su caratteristiche pre-trattamento (storia degli scontrini, stagionalità). È anche importante verificare il compositional shift — l'assortimento si è spostato verso beni ad alta marginalità ma a bassa ripetizione di acquisto (ad esempio, console invece di giochi), creando l'illusione di crescita del valore medio dell'ordine con riduzione dell'LTV.