질문에 대한 답변.

역사적으로 e-commerce의 발전은 고립된 상품 카드에서 복잡한 의사결정 지원 도구로 진화했습니다. 2010년대에는 특징 비교 기능의 도입이 증가하는 품목 수와 사용자의 인지적 과부하에 대한 대응으로 나타났습니다. 그러나 전통적인 메트릭스는 비교 사용과 높은 장바구니 금액 사이의 상관관계에서 항상 내생성 문제에 직면했습니다: 이 기능은 이미 구매 의사가 높은 동기 부여된 소비자들에 의해 사용됩니다.

측정의 문제는 세 가지 복잡성에 있습니다: 참여에 따른 자기 선택(bias), 카테고리에 따라 단계적으로 이루어지는 롤아웃(시간 비동기성), 그리고 카테고리 내 네트워크 효과로 인해 비교가 한 SKU에서 다른 SKU로 수요를 이동시킵니다. 이러한 요인들을 통제하지 않으면 분석가는 활성 사용자에 대해 왜곡된 평가를 받게 되고, 기능을 사용하지 않는 외부 효과를 무시하게 됩니다.

자세한 해결책은 **수단 변수를 사용한 방법 (Instrumental Variables, IV)**과 **차이의 차이 (Difference-in-Differences, DiD)**의 조합이 필요합니다. 도구로는 버튼의 유사 무작위 노출을 사용하며, 예를 들어 UI 요소의 위치를 변경하는 A/B 테스트나 화면 해상도와 같은 외생적 요인이 보여지는 방식을 변경합니다. 이는 사용자의 의도와 무관한 변동성을 분리하는 데 도움이 됩니다. 시간적 추세를 통제하기 위해서는 DiD를 사용하여 서로 다른 시작점(staggered DiD)을 비교하고, 기능이 이미 시작된 카테고리에 대한 효과를 검토하여 **코호트 고정 효과 (cohort fixed effects)**를 조정합니다. 핵심 메트릭은 **지역 평균 처리 효과 (Local Average Treatment Effect, LATE)**로, 이는 비교 버튼의 가시성 덕분에 비교를 이용한 사람들, 즉 '수용자'(compliers)의 효과를 나타냅니다. 이는 보수적인, 그러나 인과적으로 깨끗한 평가를 제공합니다.

실제 사례

맥락: 대형 전자상거래 마켓플레이스가 스마트폰 및 노트북의 '특징 비교' 기능을 출시했습니다. 한 달 후 분석 결과, 비교를 연 사용자의 평균 장바구니 금액이 40% 높게 나타났지만, 구매까지 평균적으로 4배 더 많은 페이지를 탐색했습니다.

해결책 옵션 1: 그룹 간 직접 비교 (t-test). 분석가는 SQL로 비교 기능을 사용한 사용자와 사용하지 않은 사용자의 평균 메트릭을 비교합니다. 장점: 단일 쿼리로 몇 분 만에 결과를 제공합니다. 단점: 자기 선택을 완전히 무시합니다; 높은 참여는 기능 사용 이전에 나타납니다; 평가가 상승합니다.

해결책 옵션 2: 시간에 따른 Before/After 분석. 기능 도입 전후 전체 플랫폼 메트릭을 비교합니다. 장점: 해석이 쉽게 가능하고, 전체 추세가 보입니다. 단점: 계절성(출시가 새로운 iPhone 발표와 일치함), 마케팅 캠페인 및 전반적인 비즈니스 성장으로 인해 진정한 효과가 은폐됩니다; 기능의 영향을 외부 충격에서 분리할 수 없습니다.

해결책 옵션 3: 회귀 불연속 (Regression Discontinuity, RD). 특정 임계값을 설정하여 비교 버튼이 같은 카테고리의 3개 상품을 본 후에만 나타납니다. 장점: 급격한 변화를 통해 임계값 근처에 무작위 변동성을 만듭니다. 단점: 사용자는 임계값을 달성하기 위해 빈 탭을 여는 등의 방식을 조작합니다; '흐림(fuzziness)'이 RD의 기본 가정을 위반합니다.

해결책 옵션 4: UI 테스트가 포함된 수단 변수. 버튼의 가시성(밝기, 크기)에 대해 독립적인 A/B 테스트를 수행하며 기능에는 변화를 주지 않고 클릭 확률에 영향을 미칩니다. 이 테스트는 **2단계 최소 제곱 회귀 (Two-Stage Least Squares, 2SLS)**의 도구 역할을 합니다. 장점: 무작위성이 도구의 외생성을 보장합니다; 버튼의 가시성 때문에 비교를 수행할 수밖에 없는 사용자들에 대한 효과가 측정됩니다. 단점: 도구의 강도를 위해 큰 샘플이 필요합니다 (first-stage F-statistic > 10); LATE의 해석이 비즈니스에 어려울 수 있습니다.

선택된 해결책과 타당성: 옵션 4(주요)와 옵션 2(견고성 검사)의 조합입니다. IV 평가가 마진 사용자를 위한 인과적 효과를 제공하며, DiD가 카테고리 간의 신뢰할 수 있는 편향이 없음을 보장합니다. 이 접근 방식은 기능 효과를 사용자의 내재적 활동과 분리할 수 있습니다.

최종 결과: 진정한 증분 효과는 AOV에서 +8%였으며(관찰된 40% 대신), 구매 결정 시간은 통계적 유의미성이 변하지 않았습니다. 기능은 유지되었으나 추천 알고리즘이 수정되어 낮은 과거 참여도의 사용자는 비교 버튼을 표시하지 않도록 하여 수익 손실 없이 서버 부하를 줄였습니다.

후보자들이 자주 놓치는 점

여러 대안 선택 분석 시 세션 내 상관관계 오류를 올바르게 처리하려면 어떻게 해야 합니까?

사용자가 상품을 비교할 때 각 SKU에 대한 결정이 동일한 세션 내에서 상관관계를 가집니다. 이는 독립 관측치 가정(i.i.d.)을 위반하며, 평가의 표준 오류가 낮게 나와서 효과 유의성에 대한 잘못된 긍정적 결론을 초래할 수 있습니다. 이를 보정하기 위해 사용자 또는 세션 수준에서 **클러스터 표준 오차 (clustered standard errors)**를 사용하거나 **계층 선형 모델링 (hierarchical linear modeling, HLM)**을 적용해야 합니다. 이는 특히 패널 데이터 작업 시 중요합니다. 한 사용자가 여러 비교를 생성하는 경우 클러스터링을 무시하면 t-통계량이 2-3배 높아질 수 있습니다.

비교 목록에 포함되지 않은 상품에 대한 부정적 외부 효과(negative spillover)를 어떻게 측정합니까?

비교 기능은 비교 목록에 포함되지 않았지만 가까운 대체품인 상품의 판매를 잠식할 수 있습니다. 후보자들은 SKU 수준에서만 볼 때가 많아 카테고리의 전체 균형을 놓치는 경우가 많습니다. 이러한 효과를 평가하기 위해서는 카테고리 수준의 집계 메트릭을 분석하고(category-level DiD) 재고 수준(inventory levels)을 통제해야 합니다. 특정 모델에 대한 수요를 끌어당기는 비교가 재고 부족을 유발하면, 비교 목록에 있는 경쟁사 판매의 관찰된 증가는 사용자의 선호도가 아닌 stock-out의 아티팩트일 수 있습니다.

기능 도입 효과를 사용자 학습 효과(learning-by-doing) 및 새로움 효과(novelty effect)와 어떻게 분리합니까?

새로운 기능을 발견한 사용자는 플랫폼 사용 경험이 쌓일 수 있으며, 이는 전환율에 영향을 미칩니다. 초급 분석가는 종종 초기 수용자의 메트릭 증가를 제품 순수 효과로 해석합니다. 이러한 효과를 분리하기 위해서는 **사용자 근속 고정 효과 (user tenure fixed effects)**를 включ하거나 동일한 역사적 세션 수를 가진 사용자로 샘플을 제한하는 것이 필요합니다. 대안적으로는 **코호트 분석(cohort analysis)**을 사용하여 기능이 출시 첫날부터 사용 가능한 신규 사용자와 출시 전 코호트 간의 비교를 통해 경험의 영향을 분리할 수 있습니다.