질문에 대한 답변

과거에는 2FA와 같은 마찰 안전 조치의 도입을 평가하는 방식이 단순한 "전/후" 비교에서 준실험적 방법으로 발전해왔습니다. 고전적인 A/B 테스트가 인증 아키텍처의 기술적 제한이나 윤리적 안전 문제로 인해 불가능할 경우, 분석가들은 개입 효과를 시간적 추세와 분리할 수 있는 차이-차이 (Difference-in-Differences, DiD) 방법에 의존하게 됩니다. 주요 문제는 추가적인 마찰인 2FA를 수용할 준비가 되어 있는 사용자는 높은 동기를 가진 사용자와 체계적으로 다르기 때문에 자기 선택의 내재성이 발생하고 간단한 상관관계 평가가 왜곡된다는 것입니다.

문제 제기는 강제 인증의 진정한 효과를 계절적 활동의 급증(예: 연말 할인 행사), 신규 집단의 자연적 유지율 저하, 보안 조치를 낸 사용자들의 기본 특성 차이를 구분하는 것입니다. 이전의 잘못된 비즈니스 판단은 자연적인 계절적 활동 하락을 2FA의 부정적 효과로 잘못 해석하거나, 반대로 자기 선택 효과를 성공적인 기능으로 잘못 판단하여 전체 청중에게 마찰 조치를 부적절하게 확대할 수 있습니다.

자세한 해결책은 Staggered Difference-in-Differences (DiD) 방법을 적용하여 서로 다른 사용자 그룹(코호트)이 서로 다른 시점에 필수 2FA를 실시받도록 하는 것입니다. 각 코호트의 대조군은 조치 도입 직전 등록한 사용자이거나 아직 개입되지 않은 코호트로 설정됩니다. 자기 선택 조정을 위해 **Inverse Probability Weighting (IPW)**를 사용하여 이전 행동(생체 인식 사용 기록, 비밀번호 변경 빈도)에 기반하여 관측치의 가중치를 산출하여 그룹 특성을 평형적으로 만듭니다. 계절성을 감안하기 위해서는 시간 고정 효과(주간 또는 월간 더미 변인)를 사용합니다. 강건한 검증으로는 Synthetic Control Method(처리된 코호트의 추세를 모방하기 위해 비처리된 코호트를 가중하는 합성적 통제)와 Event Study(도입 이전과 이후의 효과 역학을 시각화하고 평행 추세 가정을 검증)를 사용합니다.

실제로,

모바일 뱅크에서는 사기 증가로 인해 모든 로그인에 필수 2FA를 도입하기로 결정하고 선택 사항을 폐지했습니다. 롤아웃은 등록 날짜에 따른 코호트로 구성되었습니다. 3월 1일 이전에 등록한 사용자들은 변화가 없었고(대조군), 이후 매주 등록한 사용자들은 강제 2FA를 받았습니다(처리). 시작 후 2주가 지나자 메트릭은 "처리된" 코호트에서 30일 유지율이 25% 감소한 재앙적인 결과를 보여주었고, 이는 제품 팀 내에서 혼란을 일으키고 변경 사항을 되돌리자는 제안을 불러일으켰습니다.

첫 번째 검토된 방법은 2FA 사용자를 대조군과 비교하여 동일한 관찰 기간에 대해 유지율을 단순 비교하는 것입니다. 이 접근법의 장점은 즉각적인 계산 가능성과 가시성입니다. 단점은 치명적인 방법론적 오류가 있습니다: 강제 도입 전에 자발적으로 2FA를 활성화한 사용자들은 지나치게 활동적이거나 편집증적이어서 자연적인 유지율이 40% 높았고, 이러한 비교를 부정확하게 만듭니다.

두 번째 방법은 시간에 대한 통제가 없는 코호트 유지율 곡선(Cohort Retention Curves) 분석으로, "3월 코호트"와 "2월 코호트"를 단순히 시각적으로 비교합니다. 장점은 생애 주기의 시작점이 다름을 고려하는 것입니다. 단점은 계절성을 무시(3월에는 세금 신고 시기로 활동 피크 후 자연적인 감소가 있음)하고 3월에 시작된 새로운 광고 채널로 인한 트래픽 품질 저하의 전반적 추세와 효과를 분리할 수 없다는 것입니다.

세 번째 방법은 Callaway-Sant'Anna 방법을 활용한 Staggered DiD를 적용하여 그룹-시점 효과(Group-Time ATT)를 추정하고 각 코호트 내에서 성향 점수 매칭(Propensity Score Matching)을 수행하는 것입니다. 장점은 다양한 처리 시간을 적절히 다루며 이미 처리된 것을 "갓 처리된" 것에 대한 대조군으로 사용하지 않고, 고정 효과를 통해 계절성을 통제하는 것이었습니다. 단점은 해석의 복잡성과 평행 추세 검증 필요성이 있으며, 소규모 코호트의 이상치에 민감하다는 것입니다.

최종적으로 선택된 것은 세 번째 해결책으로, 첫 두 가지가 지나치게 낙관적(자기 선택)이나 비관적(계절성) 시나리오를 나타냈기 때문입니다. 분석 결과 진정한 인과 효과는 30일 유지율이 -8%로 확인되었고(25%가 아님), 평균 청구액이 +20% 증가했다는 결과가 나왔습니다. 최종 결과로 제품 팀은 필수 2FA를 유지하면서 "30일 신뢰하는 장치" 옵션을 추가하여 마찰을 줄이고 유지율을 60일 내에 기본 수준으로 되돌렸으며, 사기 거래를 60% 줄이는 데 성공했습니다.

후보자들이 간과하는 점

왜 표준 2방향 고정 효과(TWFE) 추정기가 사용자 및 시간 고정 효과가 있는 선형 회귀에서 다단계 디자인에서 편향되거나 심지어 부호가 반대인 추정치를 생성할 수 있으며, 대체로 어떤 현대적인 추정기를 사용해야 하는가?

표준 TWFE 접근에서는 초기 코호트에서 이미 처리된 사용자들이 자동으로 후속 코호트의 대조군으로 사용됩니다. 만약 2FA의 효과가 시간에 따라 변화한다면(예: 사용자가 적응하고 마찰이 줄어들 때) 또는 서로 다른 코호트 간에 다를 경우(초기 채택자 vs 후기 채택자), 이전에 처리된 단위들은 "나쁜" 반사실로 인해 부정적인 가중치(negative weights) 문제가 발생하고 평가가 왜곡됩니다. TWFE 대신 Callaway-Sant'Anna 추정기를 사용하는 것이 좋으며, 이는 각 그룹과 시간에 대해 중간 처치 효과(ATT)를 개별적으로 계산하고 대조군을 오로지 결코 처리되지 않거나 아직 처리되지 않은 단위로 설정하여 이미 처리된 것을 대조군 풀에서 제외함으로써 올바른 식별을 보장합니다. 초보자에게: 9월에 규칙을 도입받은 수업과 10월에 규칙을 도입받은 수업을 비교하는 것입니다. 10월까지 첫 번째 클래스가 이미 적응하고 두 번째는 충격을 받고 있을 경우, 왜곡된 그림이 나올 것입니다. 현대적인 방법은 아예 규칙을 한 번도 받지 않은 사람들과만 비교합니다.

어떻게 "오염" 혹은 "유출" 치료 상황을 다룰 수 있으며, 왜 단순히 이러한 사용자를 샘플에서 제외하는 것이 편향을 초래하는가?

"전향적인" 사용자를 단순히 제외하는 것은 컷오프 편향(truncation bias) 또는 선택 편향(selection bias)을 초래합니다. 남아 있는 사용자들은 마찰을 피할 동기가 덜 하거나 기술적 전문성이 낮은 사용자들이므로, 이는 목표 인구에 대한 효과 평가를 왜곡하게 됩니다. 올바른 접근법은 Intent-to-Treat(ITT) 분석을 적용하는 것으로, 모든 사용자가 처음 배정된 그룹(2FA를 포함한 모바일 애플리케이션)에 따라 분석되며, 사용자의 실제 행동(웹으로 전환)에 의존하지 않습니다. 특정 메커니즘(Treatment-on-Treated, TOT)의 효과를 평가하기 위해 Two-Stage Least Squares(2SLS) 방법을 사용하며 실제 2FA 사용을 도입 코호트에 대한 소속으로 도구화하여 평가를 "불복종**(non-compliance)으로부터 정화합니다. 초보자에게: 이는 임상 시험과 유사합니다. 약을 투여 받기로 된 참가자가 약을 중단하는 경우입니다. 이를 삭제하면 특정 유형의 환자가 약을 "미워한다"는 사실에 대한 정보를 잃게 되어 효과성을 과대 평가하게 됩니다. ITT는 "배정"을 분석하고 "실제 사용"이 아닌 "이탈"을 분석하여 무작위성을 유지합니다.

마찰의 순수한 효과(코드를 입력해야 하는 필요성)를 신호 효과 또는 "signposting"(2FA 존재 자체가 불러오는 감정적 안전감)와 어떻게 구분하며, 수익성 평가 시 왜 매개 분석을 수행해야 하는가?

이러한 효과의 분리가 중요한 이유는, 이들은 행동에 미치는 영향이 반대 방향이라는 것입니다: 마찰은 전환율과 로그인 빈도를 감소시키는 반면, 안전 신호는 대규모 거래를 수행할 의향과 플랫폼에 대한 신뢰를 증대시킵니다. 이를 나누기 위해 Causal Mediation Analysis(예: Imai-Keele-Tingley 접근)를 사용하여 총 효과(Total Effect)를 직접적(마찰) 및 간접적(안전 인식에 의한 매개체)을 분해합니다. 대안적으로, "안전성 향상" 배너와 2FA 아이콘을 포함하되 코드를 입력할 필요가 없는 placebo 그룹을 만들어, [전체 2FA] vs [2FA 없는 배너] vs [대조군]을 비교하여 요소를 격리합니다. 만약 평균 청구액이 플라세보 그룹에서도 증가하면 신호 효과가 지배합니다. 만약 전체 그룹에서만 증가하면 효과는 인증 과정 자체 때문입니다. 초보자에게: 식당에 입구 경비원이 생겼다고 상상해 보십시오. 사람들이 안전하게 느끼면서 더 많은 돈을 쓸 수 있지만 (신호), 어떤 사람들은 검색 절차를 피하기 위해 들어가고 싶지 않아 할 수 있습니다 (마찰). 경비원을 유지할 가치가 있는지 이해하기 위해서는 이러한 효과를 분리할 필요가 있으며, 그렇지 않으면 친절한 경비원을 새로 고용해야 할지, 혹은 "경비 중"이라는 표지판을 거는 것으로 충분할지 이해하지 못할 것입니다.