질문에 대한 답변

역사적 맥락

전자상거래의 진화는 2008년 Amazon Subscribe & Save 도입에서 시작되었습니다. 소매업체들은 재주문 시 인지적 부담을 줄여 유지하는 방법이 공격적인 할인보다 효과적이라는 것을 인식했습니다. 2015년까지, 고객들이 우유나 기저귀 구매 사이의 간격을 분석하는 Machine Learning 기반의 스마트 리스트가 등장했습니다. 그러나 초기 효과 평가에서는 리스트를 생성하는 사용자들이 원래 더 높은 계획성과 충성도를 보였기 때문에 차가운 대상과의 직접적인 비교가 부적절했습니다.

문제의 제기

주요 문제는 자기 선별의 내생성입니다: 리스트 생성은 우연한 영향이 아니라 비용을 최적화하려는 사용자의 의도적인 결과입니다. 이는 리스트 유무(치료)가 관찰되지 않는 특성(조직력, 가족 규모, 소비의 규칙성)과 상관관계가 있는 표본 편향으로 이어집니다. 추가적으로 시간적 역학이 개입됩니다: 빠르게 상하는 상품에 대한 리스트의 효과(주간 보충)는 계절 상품(크리스마스 장식)의 효과와 다르며, ML 추천은 장바구니에 대한 자발적 추가의 카니발리제이션을 초래하여 총 수익 분석을 왜곡합니다.

상세 해결 방법

최적의 접근 방식은 Difference-in-Differences (DiD)와 Propensity Score Matching (PSM), 그리고 Fixed Effects의 조합입니다. 첫 번째 단계에서 Causal Forest를 사용하여 상품 카테고리별 효과의 이질성을 평가하고, 리스트가 실제로 빈도를 높이는 세그먼트를 확인합니다. 인과 관계를 분리하기 위해 Regression Discontinuity Design (RDD)을 적용하여 이전 주문 수의 임계값에 따라 리스트 기능이 접근 가능해지는 경우(예: 세 번째 주문 후)로 설정하여 지역적 랜덤화의 준실험적 조건을 만듭니다. 또는 지역별 점진적 도입 시에는 Synthetic Control Method를 사용하여 시험 지역의 동태를 재현하는 가중 조합의 대조 지역을 구성합니다. 카니발리제이션을 고려하기 위해서는 리스트 사용자 메트릭스뿐만 아니라 Diversion Ratio — 자발적 세션에서 계략적 주문으로 전이된 비율도 분석합니다.

실생활 사례

맥락: 하이퍼마켓 '식품항상'에서 AI 구매 이력 및 유통 기한 분석을 기반으로 한 자동 보충 리스트 기능 '스마트 냉장고'를 도입했습니다. 목표는 가정용품과 식품의 반복 구매 시 마찰을 줄여 주문 빈도를 20% 높이는 것이었습니다.

해결안 1: 리스트가 있는 사용자와 없는 사용자 비교 (Before-After)

분석팀은 첫 번째 주에 리스트를 생성한 10,000명의 평균 장바구니 금액과 주문 빈도를 리스트가 없는 임의의 사용자 대조군과 비교할 것을 제안했습니다. 이 접근 방식의 장점은 최대한 간단한 실행과 빠른 결과를 얻을 수 있다는 점입니다. 단점은 카테고리 자체의 편향 문제로 사용자들은 자녀가 있는 가족이 되어 매주 주문하는 반면, 대조군은 임의 방문자들로 단발적인 주문만 일어났습니다. 관찰된 35%의 증가는 기능의 효과가 아닌 자기 선별의 결과였습니다.

해결안 2: 버튼의 가시성을 통해 강제 A/B 테스트

제품팀은 50%의 사용자에게 '리스트 생성' 버튼을 밝은 녹색으로 표시하고 나머지 50%에게 회색으로 숨김 메뉴에서 보여주어 기능의 도달 차이를 만들 것을 제안했습니다. 장점은 기능 접근 가능성의 순수한 효과를 평가할 수 있다는 점입니다. 단점은 윤리적 및 UX적 위험: 충성도 높은 사용자에게 유용한 기능을 숨기는 것이 그들의 경험을 부정적으로 만들 수 있으며, 리스트 생성에 대한 낮은 전환율(2% 대 15% 테스트)은 통계 테스트의 힘이 부족하게 만들고 장기적인 습관 효과를 평가할 수 없게 했습니다.

해결안 3: 활동 임계값에 따른 회귀 단절 설계 (선택된 해결안)

분석가들은 60일 내 3회 주문 기준으로 회귀 단절 방법을 선택했습니다: 이 기준을 충족한 사용자들은 자동으로 '스마트 냉장고'에 ML 추천 기능을 이용할 수 있는 반면, 2회 주문한 사용자들은 이용할 수 없었습니다. 이는 임계값 근처에서 지역 랜덤화의 준실험적 조건을 생성했습니다. 장점은 임계값 주변의 협소한 구역에서 자기 선별의 편향을 최소화하는 것이며 (2회와 3회 주문 사용자는 관찰 가능한 특성상 통계적으로 구별할 수 없음), 단점은 결과의 일반화가 제한된다는 것입니다; 모든 사용자에게가 아닌 '경계' 사용자에 대해서만; 임계값 주변에서의 공변량 분포의 연속성을 확인할 필요가 있습니다.

최종 결과: 분석 결과, 실제로 주문 빈도가 12% 증가했으며 (표면적으로 보이는 35% 대신) 평균 장바구니 금액은 '가정용 화학 및 종이 제품' 카테고리에서 8% 증가했습니다. 신선식품에 대해서는 유통기한의 물리적 제한으로 인해 통계적으로 유의미한 효과가 발견되지 않았습니다. 수익의 30%는 자발적 구매가 계획으로 전환되어 카니발리제이션에서 비롯된 것으로 나타났습니다. 이러한 데이터를 바탕으로 회사는 ML 모델을 조정하여 자극성 카테고리(사탕, 칩스)를 추천에서 제외하여 전체 수익 증가를 유지하고 사용자 만족도를 높였습니다. 이는 '스마트 냉장고'가 해로운 습관을 '추천'하지 않게 되었습니다.

후보자들이 자주 간과하는 점

왜 사용자의 메트릭스만을 비교하여 일반적인 t-test나 선형 회귀를 통해 결과를 평가할 수 없습니까?

그 이유는 내생성과 자기 선별의 본질적인 문제 때문입니다. 리스트를 생성하기 위해 시간을 할애하는 사용자는 비관찰 특성상 임의 방문자와 본질적으로 다릅니다: 그들은 더 높은 계획 소비, 더 큰 가족 규모, 더 일관된 생활 스케줄을 가지고 있습니다. OLS 회귀는 인구 통계를 통제하더라도 '계획 문화'를 잠재 변수로 포착할 수 없습니다. 이는 기능의 효과를 과대 평가하게 만듭니다. 높은 메트릭스는 리스트가 아닌 높은 사용자의 참여도로 설명되기 때문입니다. 정확한 평가를 위해서는 도구 변수를 사용하거나 (IV), 준실험 설계 (RDD, DiD) 또는 이질성을 가진 매칭 기법 (PSM-DiD)을 사용하여 개인 선호 의존하지 않는 변화를 분리해야 합니다.

계획하는 사용자의 효과와 리스트 기능의 진정한 효과를 어떻게 구분할 수 있습니까?

intensive margin (이미 계획한 구매자의 빈도 증가)와 extensive margin (충동 구매자를 계획으로 유도)에 대한 구분이 필요합니다. 이를 위해 Causal Forest나 Heterogeneous Treatment Effects 분석을 사용하여 서브그룹별 효과를 평가합니다. 핵심 통찰력은 생성된 리스트 수에 대한 가변 하를 사용하여 순서 로지스틱 회귀를 활용하는 것입니다. 기능이 작동하면 리스트 수가 0에서 1로 전환할 때 중요한 메트릭스 증가가 나타나야 하며 (extensive margin), 5에서 6으로의 이동 시에는 미미한 변화가 있어야 합니다 (intensive margin, 자기 선별이 지배적이므로). 또한, 기본 이탈 리스크를 통제하여 time-to-event (다음 주문까지의 시간)를 Cox Proportional Hazards Model을 통해 분석하는 것이 중요합니다. 이는 자연스러운 규칙성을 인위적인 시스템의 제안과 구분할 수 있게 해줍니다.

리스트를 통한 계획된 구매와 자발적 장바구니 추가 간의 카니발리제이션을 올바르게 고려하는 방법은 무엇입니까?

후보자들은 종종 diversion ratio와 장바구니 구성을 분석해야 한다는 필요성을 무시합니다. triple-difference 모델(DiD의 추가 차원)을 구축하여 리스트 사용자가 기능 도입 전후 장바구니 구조 변화를 대조군과 비교해야 합니다. 'share of wallet' 메트릭스 (전통적으로 자발적으로 구매하는 카테고리의 비율)가 중요합니다 (사탕, 스낵 등). 리스트 사용자에서 충동적인 카테고리 비율이 감소하고 대조군에서 증가한다면 이는 카니발리제이션의 신호가 됩니다. 정량 평가를 위해 Almost Ideal Demand System (AIDS) 또는 Rotterdam Model이 사용되며 구입 채널 간의 대체 탄력성을 평가합니다. 이러한 분석이 없다면 회사는 리스트 기능 개발에 잘못 투자하고 전체 수익에 제로 인크리멘탈 효과를 가져올 수 있습니다.