비즈니스 분석가제품 분석가 / Product Analyst

어떻게 대규모 A/B 테스트 없이 전면적으로 KYC(고객 신원 확인)를 도입한 것이 핀테크 애플리케이션의 사용자 유지 및 수익화에 미친 인과 효과를 정량적으로 평가할 수 있을까요? 이때 데이터는 계절성의 영향을 받으며 절차의 완료 시간에 따른 자기 선택 효과가 강하게 나타납니다.

Hintsage AI 어시스턴트로 면접 통과

질문에 대한 답변

역사적 배경

핀테크 제품에서 KYC는 사용자 경험에 중대한 마찰을 일으키는 규제 요건입니다. 전통적인 효과 평가 방법은 대규모 도입 시 법적 및 윤리적 이유로 인해 무작위 통제가 불가능하기 때문에, 분석가들은 일반적으로 자기 선택의 내생성과 외부 시장 충격을 고려하지 않는 단순한 코호트 보고서에 의존해 왔습니다.

문제 제기

KYC 절차를 수행하는 사용자와 첫날에 인증을 하는 사용자 간의 본질적인 이탈, 계절적인 활동 변동 및 기본 특성의 차이를 분리해야 합니다. 뒤늦게 도입하는 사용자는 동기와 금융 행동에서 체계적으로 다를 수 있어 생존 편향이 발생할 수 있습니다.

상세 해결책

지연된 인증을 하는 사용자로부터 유사한 대조군을 구성하기 위해 **Difference-in-Differences (DiD)**와 **Propensity Score Matching (PSM)**의 조합을 적용합니다. Synthetic Control Method를 사용하여 비슷한 외부 세그먼트를 결합하여 강건성 검사를 수행합니다(예: 규제가 지연된 지역의 사용자). 계절성을 고려하기 위해 월 고정 효과를 포함하고 Event Study Design을 적용하여 평행 추세 가정을 검증합니다.

실생활 사례

회사는 3월에 18세 이상 모든 사용자에게 서류를 통한 이중 인증을 의무화하였는데, 이는 세금 신고 시즌과 겹쳤습니다. 비즈니스는 활동 감소를 감지했지만 KYC 효과를 계절적 하락과 경쟁사의 푸시 알림 대량 발송과 구별할 수 없었습니다. 분석가들은 도입 후 60일 동안 30일 유지율 및 ARPU에 미치는 순 영향을 평가해야 했습니다.

옵션 1: 사전 및 사후 메트릭 간 단순 비교(Pre-Post Analysis)

분석가들은 KYC 이전 한 달 간의 평균 유지율을 계산하고 이후의 지표와 비교합니다. 이 방법은 최대한 단순하고 신속한 응답을 제공하지만 계절성(3월 vs 4월), 외부 경쟁 활동 및 자연적인 상승 또는 하강 추세를 무시하여 최대 40%의 편향을 초래합니다.

옵션 2: KYC에 영향을 받지 않는 10대 사용자를 대조군으로 하는 단순 DiD

팀은 대상 그룹(18세 이상)과 KYC의 영향을 받지 않는 그룹 간의 변화를 비교할 것을 제안합니다. 장점은 전체 시장 추세와 계절성을 고려하는 것이지만, 단점은 10대와 성인이 원칙적으로 다른 금융 행동을 가지고 있어 평행 추세 가정이 깨지고, 각 코호트가 상이한 생애 주기 효과를 겪고 있다는 것입니다.

옵션 3: 시간 지연을 고려한 합성 대조군

KYC가 도입되지 않은 지역의 사용자로부터 6개월 간의 활동을 기준으로 가중치를 부여하여 인위적인 대조군을 생성합니다. 이 방법의 장점은 한 개의 대조군에 대한 의존도를 최소화하고 긴 역사적 데이터를 통해 계절 패턴을 자동으로 계산하는 것입니다. 단점은 데이터 양에 대한 높은 요구 사항, 가중치 해석의 복잡성, 역사적 기간의 이상치에 대한 민감성입니다.

선택된 해결책 및 근거

KYC를 2-3주 연기한 사용자를 대조군으로 삼고 PSM-DiD 하이브리드 접근법을 선택했습니다. 더불어 Synthetic Control을 통한 검증을 수행하여 관찰된 특성(연령, 기기, 과거 활동)을 PSM을 통해 균형을 맞추고, DiD가 시간적 효과를 포착하였습니다. 합성 대조군은 특정 대조군 선택에 대한 결과가 민감하지 않음을 확인했습니다.

최종 결과

분석 결과, KYC는 첫 주의 7일 유지율을 18% 감소시키고 사기 거래를 제외하여 평균 장바구니 금액을 22% 증가시켰습니다. 90일 LTV에 대한 순 효과는 중립적(-2%, 통계적으로 유의미하지 않음)으로 나타났습니다. 이러한 데이터를 바탕으로 제품 팀은 인증 과정을 세 개의 미세 단계로 나누어 35%의 마찰을 줄이고 사기 방지 효과를 유지했습니다.

지원자가 자주 놓치는 점


관찰 기간이 제한된 상황에서 KYC의 장기 효과를 분석할 때 오른쪽 검열(right censoring) 데이터를 올바르게 처리하는 방법은 무엇인가요?

지원자들은 KYC를 늦게 완료한 사용자가 관찰 기간 동안 행동을 나타낼 시간이 적어 편향이 생긴다는 점을 종종 무시합니다. 생존 분석 방법(Survival Analysis)을 적용해야 하며, 예를 들어 Cox 비례 위험 모델이나 Kaplan-Meier 추정기를 사용해야 합니다. 대안으로 LTV와 같은 지표의 경우 Tobit 회귀 또는 검열된 데이터 모델을 사용할 수 있습니다. 또한 DiD에서 "순" 코호트(clean controls)를 올바르게 처리하는 staggered adoption design을 적용해야 하며, 표준 두 기간 DiD는 단계적인 도입에서 편향된 추정값을 초래합니다.


PSM의 표준 방법이 KYC의 맥락에서 편향된 추정값을 제공할 수 있는 이유와 시간 동력을 고려하기 위해 필요한 수정 사항은 무엇인가요?

표준 PSM은 시간 의존성과 사용자 동기나 기대되는 거래량과 같은 숨겨진 교란 변수를 무시합니다. KYC와 관련하여 Time-Dependent Propensity Score Matching을 사용하여 각 기간 별로 점수를 계산하거나 **Inverse Probability of Treatment Weighting (IPTW)**를 시간 변화 공변량과 함께 사용하는 것이 중요합니다. 또한 관찰된 데이터 범위를 벗어난 외삽을 피하기 위해 일반 지지 조건(overlap condition)을 확인하고 소규모 샘플의 강건성을 높이기 위해 **Coarsened Exact Matching (CEM)**을 사용해야 합니다.


KYC 통과의 진정한 효과와 기대 효과(anticipation effect)를 구별하고 평행 추세 가정이 이행되었는지 검증하는 방법은 무엇인가요?

효과를 구분하기 위해 사건 연구 디자인(Event Study Design)을 적용하여 사건 전후의 상대적 시간(relative time)에서 더미 변수를 사용해야 합니다. 만약 선행 변수의 계수가 통계적으로 유의미하게 0과 다르면, 이는 기대 효과를 나타내거나 평행 추세의 위반을 의미합니다. 강건성을 확인하기 위해 더 이른 기간에 도입 날짜를 이동한 Placebo test나 변경되지 말아야 할 결과 변수를 대상으로 한 Falsification test를 활용해야 합니다. 추세에 위반이 발생하는 경우 **Synthetic Difference-in-Differences (SDiD)**를 적용하여 트렌드의 비일치를 수정할 수 있습니다.