질문에 대한 답변

역사적 배경. 최근 몇 년간 BNPL (Buy Now Pay Later)은 리테일에서 표준 핀테크 통합 형태가 되었으며, 사용자들이 이자를 내지 않고 결제를 분할할 수 있게 해줍니다. 분석가들은 근본적인 문제에 직면하게 됩니다: 윤리적이고 법적인 이유로 신용 승인 거부가 불가능하기 때문에 랜덤화된 실험을 시행할 수 없습니다. 또한 사용자들이 신용 능력에 따라 자가 선택하게 됩니다. 이는 BNPL 사용과 높은 장바구니 사이의 관찰된 상관관계가 고객의 기존 특성에 의해 결정되도록 하는 고전적인 내생성을 초래합니다.

문제 제기. 주요 도전 과제는 승인 기준 경계에서의 특성 간의 급격한 격차(예: 700점), 계절성 (블랙 프라이데이, 연말연시), 미래 판매의 잠식 (intertemporal substitution), 충동구매로 인해 반품이 증가하는 것입니다. 승인 경계에 있는 사용자들에 대한 순수한 증분 효과 (LATE — Local Average Treatment Effect)를 격리를 요구하며, 혼란 변수가 미치는 영향을 최소화해야 합니다.

자세한 해결책. 최적의 접근 방식은 **Sharp Regression Discontinuity Design (RDD)**를 활용하여 스코어 경계 (±30-50점)에서의 분석을 수행하는 것입니다. 이 방법론은 사용자들이 신용 점수 695점과 705점에서 통계적으로 관찰 가능한 특성에 차이가 없지만 서로 다른 집단(대조군과 실험군)으로 분류된다는 지역적 우연성을 가정합니다. 또한 이 범위 내에서 도입 전후의 동태를 추적하기 위해 **Difference-in-Differences (DiD)**가 사용되며, 이는 계절성을 통제합니다. 잠식 평가를 위해서는 Event Study를 사용하여 과거 3개월(t-3, t-2) 동안 BNPL을 사용하기 전의 소비량을 분석합니다. 만약 도구(승인 기준)가 사용 가능하지만 불일치가 있을 경우(승인되었지만 BNPL을 사용하지 않은 경우) Fuzzy RDD와 **Two-Stage Least Squares (2SLS)**가 적용됩니다. 공변량 균형(Covariate Balance Tests)과 밀도의 분포(McCrary test)를 통해 디자인의 유효성을 검증하는 것이 중요합니다.

실제 사례

전자상거래 마켓플레이스가 내부 스코어링 기준으로 650점을 최소 승인 기준으로 설정하여 파트너 은행의 BNPL을 통합하였습니다. 비즈니스는 BNPL을 사용하는 고객의 평균 장바구니가 35% 증가했다고 기록했지만, 이러한 결과는 보다 부유한 고객의 자가 선택 효과일 수 있다는 의구심이 있었습니다. 신용 한도를 확장할 결정을 내려야 했으나, 실제 인과효과를 평가할 필요가 있었습니다.

옵션 1: "BNPL 사용" vs "사용하지 않음"의 단순 비교. 장점: SQL에서 간단하게 구현할 수 있으며, 복잡한 통계가 필요하지 않습니다. 단점: 선택 편차(selection bias)가 심각해질 수 있으며, 승인된 사용자는 일반적으로 더 높은 소득과 구매 이력을 가지고 있기 때문에 제품과 관련 없는 +40%의 과대평가된 효과를 가져옵니다. 이 결과는 의사 결정에 적합하지 않습니다.

옵션 2: 전체 오디언스를 대상으로 한 전후 분석. 장점: 플랫폼 전반의 성장 추세를 인식하고 해석이 간단합니다. 단점: BNPL 효과를 연말세일 등의 계절적 급증과 동시에 헷갈리게 분리할 수 없습니다. 평가가 수요의 외적 충격으로 인해 편향될 가능성이 있습니다.

옵션 3: 650점 경계에서의 Regression Discontinuity Design (RDD) 및 ±40점 구간. 장점: 승인 가능성의 급격한 변화를 자연 실험으로 활용하여 "경계 사용자"에 대한 효과를 평가합니다. 이는 측정할 수 없는 특성에 대한 제어를 가능하게 합니다. 단점: 결과적으로는 국소 효과(LATE)만을 평가할 수 있어서 모든 높은 스코어의 사용자에게 그대로 적용할 수 없으며, 통계적 파워를 위해 경계 근처에 대규모 샘플이 필요합니다.

선택한 솔루션: 610-690점 구간의 사용자에 대한 Sharp RDD와 역사적 지출 및 구매 카테고리를 기반으로 한 Propensity Score Matching의 조합에, 구매 후 90일 동안의 동태를 추적하기 위해 Difference-in-Differences을 적용하였습니다. 시즌성을 통제하기 위해 주 단위 고정 효과를 도입했습니다(Week Fixed Effects). 이로 인해 대출자의 특성으로부터 제품의 순수 효과를 격리할 수 있었습니다.

최종 결과: 주변의 사용자에 대한 평균 장바구니의 통계적으로 유의미한 증가가 17%로 나타났습니다(ITT — Intent-to-Treat), 그러나 충동구매로 인해 반품 비율이 11% 증가했습니다. 효과는 이질적이었으며, 전자제품의 경우 +24%, 생활용품의 경우는 제로 효과를 보였습니다. 이러한 데이터를 기반으로 위험 카테고리 제품에 대한 승인 기준이 조정되었고, 매출 손실 없이 반품 비율이 4% 감소했습니다.

후보자들이 자주 간과하는 점

RDD를 사용할 때 "신규성 효과(novelty effect)"와 지속적인 행동 변화의 효과를 어떻게 구별할 수 있을까요?

Dynamic RDD를 통해 시간 간격(cohort-level RDD)에서의 효과 분석이 필요합니다. 첫 1-2주(신규성)와 3-6개월(지속적인 행동)에 대해 효과를 별도로 평가합니다. 만약 계수가 유의미하게 차이가 나면(Chow test를 통한 검증), 장기적 창만 사용하거나 치료와의 시간 상호작용을 도입합니다. pre-trend parallel 검증도 중요합니다 — 즉, 경계 이전의 지출에서 결과 간의 차이가 없음을 확인해야 디자인의 유효성과 예측 효과를 확인할 수 있습니다.

BNPL 도입 시 미래 판매의 잠식을 어떻게 올바르게 평가할 수 있을까요?

표준 RDD는 구매 시점에서의 정적 효과만을 평가합니다. 잠식을 평가하기 위해서는 BNPL 사용 첫 순간을 기준으로 한 Event Study를 구축해야 하며, 이 경우 이전 및 이후의 지출 변화를 분석해야 합니다. t-3, t-2, t-1 (이전)와 t+1, t+2, t+3 (이후) 기간의 지출을 고려합니다. 만약 리드(이전 기간)의 계수 합계가 부정적이고 유의미하다면, 이는 사용자들이 BNPL을 통해 구매를 가속화하려는 의도가 있었음을 나타냅니다. 또한 Jordà의 Local Projections 방법을 사용하여 동적 지수를 평가하는 것이 가능하여 순수한 이전 효과를 장기간에 걸쳐 평가할 수 있습니다.

왜 이 경우 Propensity Score Matching을 RDD 없이 사용할 수 없고 어떤 가정이 위반되는 것인가요?

PSM은 Unconfoundedness (Ignorability) 가정을 요구하지만, 이는 승인에 영향을 미치는 측정할 수 없는 특성이 존재할 경우 불가능합니다 (예: '재정적 책임감', 비공식적인 소득원 등). 이러한 잠재 변수는 승인과 지출 모두와 상관관계가 있어 편향을 유발합니다. RDD는 이 요구 사항을 경계 근처의 지역적 무작위성(Local Randomization)으로 완화시켜줍니다. 즉, 이곳에서 측정할 수 없는 특성이 무작위로 분포됩니다. 후보자들은 종종 경계 근처의 점수 분포 검증(McCrary test) 및 공변량 균형 검증(Covariate balance tests)의 필요성을 간과하는데, 이는 결과의 유효성에 중요합니다.