질문에 대한 답변

역사적 맥락. 공동 브라우징(co-browsing) 개념은 B2B 분야(고객 지원)에서 소셜 커머스로(예: 모바일 애플리케이션의 '함께 쇼핑하기' 기능) 전파되었습니다. 전통적인 분석은 오랫동안 사용자들이 독립적이라는 가정을 전제로 하고 있었으나(SUTVA: Stable Unit Treatment Value Assumption), 소셜 기능은 이러한 가정을 위반합니다. 한 사용자의 행동이 그와 관계된 다른 사용자들의 행동에 영향을 미치기 때문에, 이는 고전적인 A/B 테스트를 방법론적으로 부정확하게 만듭니다.

문제 제기. 표준 평균 비교(difference-in-means)는 상호작용(interference)으로 인해 편향된 추정을 제공합니다: 테스트 그룹의 친구로부터 초대를 받은 대조군 사용자들이 행동을 바꾸면서 spillover 효과가 발생합니다. 사회적 활동에 따른 자기 선택이 공변량 분포를 왜곡하고, 단계적인 배포(staggered rollout)는 시즌성과 신기술 효과 등 시간 관련 혼란 변수를 도입합니다.

자세한 해결책. 사회적 관계 그래프 수준에서 **군집 무작위화(cluster randomized trial)**를 적용해야 하며, Louvain 또는 Leiden 커뮤니티 탐지 알고리즘을 사용하여 상호 연결성이 최소화된 군집을 만들어야 합니다. 완전한 무작위화가 불가능한 경우 **다양성 차이(staggered DiD)**를 사용하여 이질적인 효과를 Callaway-Sant’Anna 또는 Sun-Abraham 방법으로 조정해야 합니다. 이를 통해 초기 군집의 부정적인 가중치를 올바르게 처리할 수 있습니다. 네트워크로 인한 직접 효과를 분리하기 위해서는 **노출 모델링(exposure mapping)**을 적용하여 대조군의 '감염' 정도를 테스트의 친구 비율로 정의하고 이를 회귀 분석의 공변량으로 포함시키거나, 2SLS (2단계 최소제곱법)를 사용하여 지리적 클러스터의 기능 가용성을 IV로 사용하여 실제 사용을 분석해야 합니다. 전환까지의 시간을 분석하기에는 **공유 쇠약 모델(shared frailty model)**이 적합하며, 이는 사회적 그룹 내 위험의 군집화를 고려합니다.

실제 사례

문제 설명. 한 마켓플레이스가 두 사용자가 동시에 카탈로그를 탐색하고 실시간으로 공동 장바구니를 편집할 수 있는 '함께 쇼핑하기' 기능을 배포했습니다. 10%의 사용자로 진행된 파일럿에서는 전환율이 8% 증가했지만 팀은 평가가 과대평가되었다고 의심했습니다. 대조군 사용자는 테스트 그룹의 친구들로부터 초대받았고, 이로 인해 그룹 간 오염이 발생했습니다. 또한 기능은 사회적 관계가 이미 형성된 사용자들이 주로 사용했기에(참여도에 따른 자기 선택) 문제가 발생했습니다.

옵션 1: 어댑터 그룹에 대한 단순 ‘전/후’ 비교. 이 접근법은 공동 브라우징을 사용하기 시작한 사용자들의 메트릭을 그들의 과거 데이터나 기능이 없는 유사 사용자와 비교합니다. 장점은 명백합니다: 계산에 몇 분밖에 걸리지 않고, 비즈니스에서 쉽게 해석할 수 있으며 복잡한 실험 인프라를 요구하지 않습니다. 하지만 단점은 중대합니다: 이 방법은 계절성과 성숙도 효과를 완전히 무시하며, 사회적으로 활동적인 사용자는 기본 전환율이 더 높기 때문에 자기 선택의 편향을 겪습니다.

옵션 2: 버튼 가용성의 무작위화로 의도된 처리(Intent-to-Treat, ITT) 분석. 이 경우, 친구를 초대할 수 있는 기능을 서로 다른 집단에 무작위로 제공하고, 최종 메트릭을 비교합니다. 장점에는 배정의 통계적 무작위성이 유지되고 출시 정책의 전체 효과를 평가할 수 있는 가능성이 포함됩니다. 단점은 기능을 사용하지 않는 '받는' 사용자와 함께 효과를 압도적으로 희석하게 되는 점으로, 많은 사용자가 기능을 사용할 것이지라도 결국 기능을 사용하지 않아 샘플 크기를 3배에서 4배로 늘려야 한다는 점입니다. 뿐만 아니라, ITT는 실제 사용자에게 효과적인지를 묻는 질문에는 답하지 않습니다(TOT: Treatment-on-Treated).

옵션 3: 친구 수 임계값에 대한 회귀 불연속 설계(Regression Discontinuity Design, RDD). 이 방법은 기능을 활성화하기 위한 급작스러운 임계값(예: 친구 5명)을 사용하여 절단점을 중심으로 준 실험을 생성합니다. 장점은 임계값 주변 배정의 지역적 무작위성과 전체 청중을 완전히 무작위화할 필요가 없다는 점입니다. 그러나 중요한 단점은 효과가 오직 '경계' 사용자에게만 국한되며, 사용자들 간의 오염(예: 가짜 친구 늘리기)이 가능하고, 이 방법은 서로 연결된 두 그룹 간의 오염 문제를 해결하지 못합니다.

선택한 해결책 및 근거. 군집 무작위화 옵션 2가 선택되었습니다: 분석가들은 사회적 관계 그래프를 구축하고, Louvain 알고리즘을 통해 조밀한 커뮤니티를 식별한 다음 사용자의 개별이 아니라 커뮤니티 수준에서의 접근을 무작위화했습니다. 이는 테스트와 대조군 간의 오염을 최소화했습니다. 평가를 위해 노출 변수 모델을 사용했으며, 각 사용자에 대해 테스트 집단의 친구 비율(spillover의 강도)을 계산하여 회귀 모델의 변수로 포함시켰습니다. 이를 통해 기능의 직접 효과와 사회적 증거를 통한 간접 효과를 분리할 수 있었습니다.

최종 결과. 실제 직접 효과(TOT)는 8%의 초기 추정치 대신 +3.2%의 전환률로 나타났습니다. 그러나 초대의 사회적 영향으로 인해 대조군에 +1.8%의 유의미한 긍정적 spillover가 발견되었습니다. 정책의 전체 효과(ITT)는 +2.1%로 나타났습니다. 네트워크 효과를 고려하지 않았다면 팀은 기능의 가치를 과소평가하여 '효과가 불충분하다'고 프로젝트를 기각했을 것이지만, spillover를 고려함으로써 기능은 4개월 만에 투자 대비 수익을 얻을 수 있었습니다.

후보자들이 자주 간과하는 점

1. 소셜 기능에서 표준 A/B 테스트가 왜 편향된 추정을 제공하는가? 표준 테스트는 SUTVA를 가정합니다: 한 사용자의 영향이 다른 사용자에게 영향을 미치지 않는 것을 말합니다. 그러나 공동 브라우징에서는 이것이 위반됩니다: 대조군 사용자가 테스트 사용자로부터 초대를 받으면 행동이 변하게 되어(spillover), **상호작용 편향(interference bias)**를 생성합니다. 평균 처리 효과(ATE: Average Treatment Effect)의 평가는 종종 직접 효과와 간접 효과의 가중 혼합으로 이루어지며, 이는 자주 0에 가깝게 됩니다. 해결책: **군집 무작위화(randomization at network-cluster level)**나 네트워크 구조를 고려한 역확률 가중치(inverse probability weighting) 방법을 사용합니다.

2. 직접 효과, spillover 효과 및 총 효과를 어떻게 통계적으로 분리하는가? 후보자들은 ITT(의도 처리, Intent-to-Treat)와 TOT(처리 대상을 위한, Treatment-on-Treated)를 혼동합니다: ITT는 기능 제안을 반드시 이용하지 않은 집단에서의 전체 효과를 평가하는 반면, TOT는 실제 사용자에게 발생한 효과를 분리하여 평가합니다. 효과를 분리하기 위해 **주요 층화(Principal Stratification)**를 적용하여 사용자를 복종(compliers)과 항상 수용하는(always-takers) 유형으로 분류한 다음, **CACE(Complier Average Causal Effect)**를 평가합니다. Spillover 효과는 **노출 모델링(exposure mapping)**을 통해 추정되며, 간접적인 영향의 강도는 테스트의 관계 비율로 근사됩니다. 총 효과는 노출 분포에 따라 직접 및 간접 효과의 가중 합계입니다.

3. 왜 표준 DiD(Difference-in-Differences)가 단계적 롤아웃에서 부정확한가? 단계적인 배포에서 초기 집단은 후속 집단의 대조군 역할을 하지만, 후속 집단은 결코 초기 집단의 대조군 역할을 할 수 없으므로 **부정 가중치 문제(negative weighting)**가 발생합니다. 이러한 디자인에서 고전적인 2기간 DiD는 잘못된 가중치를 가진 다양한 기간의 효과를 혼합하여 편향된 추정을 제공합니다. 그 대신 Callaway-Sant’Anna 또는 Sun-Abraham 추정기를 사용하여 단지 이전에 처리되지 않았거나 아직 처리되지 않은 관측치를 대조군으로 이용하는 것이 필요합니다. 대안으로는 각 집단에 대해 별도로 구축된 **합성 대조 방법(Synthetic Control Method)**을 활용할 수 있습니다.