질문에 대한 답변

역사적 맥락. 전통적인 온라인 소매에서 주문의 상품 결품(out-of-stock) 문제는 전통적으로 품목 취소 또는 수동으로 관리자의 전화 통화를 통해 해결되었습니다. 이는 전환율과 고객 만족도를 심각하게 저하시켰습니다. ML 추천 시스템의 발전으로 인해 의미론적 근접성, 가격 동등성 및 대체 이력에 따라 실시간으로 대체 품목을 제안하는 것이 가능해졌습니다. 그러나 대체가 있는 주문과 없는 주문을 단순히 비교하면 편향된 평가가 이루어집니다. 왜냐하면 대체의 존재 자체가 최초의 재고 부족과 상관관계가 있으며, 자동 대체를 허용하는 사용자는 이를 금지하는 사용자와 체계적으로 다르기 때문입니다.

문제 설정. 핵심 어려움은 자가 선택의 내재성(endogeneity)입니다. 충성도 높은 사용자는 더 자주 자동 대체를 허용하며, 우연한 재고 부족은 카테고리에 따라 고르지 않게 샘플에 영향을 미칩니다(신선식품 vs 기술). 또한, 도입이 창고 수준에서 발생하여, 일반 재고를 통한 오염(contamination)으로 인해 사용자 수준에서 전통적인 A/B 테스트 수행이 불가능합니다. ML 대체 품질의 순수 효과를 기본 재고 부족의 부정적인 영향을 분리해야 하며, 카테고리에 따라 이질성을 고려해야 합니다.

자세한 해결책. 최적의 접근 방식은 창고 수준에서의 Difference-in-Differences (DiD)와 효과의 이질성을 평가하기 위한 Causal Forest의 조합입니다. ML 대체가 도입된 창고(treatment)에 대해 데이터 수요 및 시즌성이 유사한 자동 대체가 없는 창고를 통해 대조군을 설정하는 Synthetic Control Method를 사용합니다. treatment 창고 내 사용자들 사이에서, 최근 주문 빈도, 평균 주문 금액, 카테고리 선호도를 기준으로 대체를 허용하는 사용자와 거부하는 사용자를 Naive Propensity Score Matching을 통해 맞춥니다. 효과는 대체 가능성 카테고리(높음/중간/낮음)에 따라 Conditional Average Treatment Effect (CATE)로 평가되어 기술적 효과를 선별적 효과에서 분리합니다.

실제 사례

"제품플러스" 회사는 온라인 주문에서 결품 품목에 대한 스마트 대체 시스템을 도입했습니다. 문제는 15%의 주문이 결품 품목을 포함하고 있어 사용자 이탈로 이어진다는 것이었습니다. 분석가들은 ML 대체가 재고 부족의 부정적 영향을 실제로 줄이는지, 또는 단순히 구매 문제를 가리는지 측정할 필요가 있었습니다.

첫 번째 옵션 — 사용자 기반의 전통적인 A/B 테스트로 "자동 대체 포함" 및 "제거" 그룹으로 나누기. 장점: 간단한 해석 및 전환율 메트릭에 대한 직접 비교 가능. 단점: 하나의 창고가 두 그룹을 모두 지원하기 때문에 실제로는 불가능하며, 상품이 소진되면 컨트롤 그룹으로 "돌려보낼" 수 없으며, 이는 물류 붕괴 및 오염을 초래합니다.

두 번째 옵션 — 동일 창고에서 "전과 후" 비교, 대조군 없음. 장점: 계산의 간단함 및 다른 창고와의 조정 필요 없음. 단점: 제품 수요의 계절성 및 상품 구성 변화로 인해 결과가 왜곡되며, 함수 효과를 전체 증가에서 분리할 수 없습니다.

세 번째 옵션 — 도시의 미니 창고를 무작위화 유닛으로 사용하여 Difference-in-Differences의 준실험 디자인. 장점: 체계적인 추세와 계절성을 제거하여 통계적으로 의미 있는 결과를 도출할 수 있습니다. 단점: 평행 추세에 대한 엄격한 가정과 합성 통제를 구축할 충분한 동질의 창고 수가 필요합니다.

선택된 해결책: 팀은 자동 대체 수용 경향에 따라 사용자를 세분화하기 위해 Causal Forest를 추가로 적용하여 세 번째 옵션을 선택했습니다. 이를 통해 "보수적인 사용자"와 "조기 수용자" 간의 효과를 분리하여, Naive Propensity Score Matching을 통해 과거 주문 이력을 수정했습니다.

최종 결과: ML 대체가 높은 대체 가능성의 카테고리(유제품, 생필품)에 대해서만 12%의 유지율 증가를 가져다주지만, 틈새 제품(크래프트 맥주, 유기농 제품)에 대해서는 8%의 만족도 감소를 초래한다는 것이 밝혀졌습니다. 제품플러스 회사는 높은 선호 상관성의 카테고리로 자동 대체를 제한하여 NPS가 0.4 포인트 상승하고 수동 정리의 운영 비용이 23% 감소했습니다.

지원자가 자주 놓치는 점

자동 대체 기술의 효과와 특정 ML 모델의 품질 효과를 어떻게 구별하고 생존 편향(survivorship bias)을 피할까요?

답변: 후보자들은 종종 기술적 효과(대체 가능성)와 질적 효과(대체 품질)를 혼동합니다. 이를 분리하려면, "도즈-응답 함수"(dose-response function)를 구축해야 하며, 여기서 "도즈"는 모델 메트릭에 따라 대체의 관련성 확률(NDCG@1)입니다. 모델의 acceptance rate 주변에서 Fuzzy Regression Discontinuity를 이용해 기능 존재의 효과에서 품질 효과를 분리할 수 있습니다. 또한 생존 편향을 고려해야 합니다: 첫 주문에서 나쁜 대체를 받은 사용자는 기능을 영구히 비활성화할 수 있으며, 이는 성공 사례를 지지하는 샘플을 왜곡하게 됩니다. 이를 수정하기 위해 Heckman selection model을 적용하여 샘플에서 최초 경험 이후 남아있을 확률을 모델링하는 선택 방정식과 만족도 결과 방정식을 동시에 모델링합니다.

한 카테고리에서 불량 대체가 다른 전반적인 주문 및 다른 품목의 취소에 영향을 미칠 때 교차 오염(spillover)을 어떻게 고려해야 할까요?

답변: 표준 접근법은 카테고리의 효과를 독립적으로 평가하여 장바구니에 대한 부정적 spillover를 무시합니다. 교차 카테고리 효과를 고려하기 위해, 대체품을 의존하는 서로 연결된 상품 시스템으로 모델링해야 하며, Graph Causal Models 또는 Structural Equation Modeling (SEM)을 사용합니다. 구체적으로: 카테고리 의존성 그래프를 구축하고(예: 요구르트 대체가 오트밀에 미치는 영향), Total Treatment Effect를 통해 이웃 품목의 공변량을 조절하면서 효과를 평가합니다. 대안으로는, "실망 플래그"(대체 표시 후 장바구니에서 다른 품목을 제거)의 매개변수를 사용하는 Mediation Analysis를 적용합니다. 이는 대체군에서의 직접 효과와 장바구니 변경을 통한 간접 효과를 분리하여 대체로부터의 유익을 높게 평가하는 것을 피할 수 있습니다.

ML 모델이 동적 학습 효과를 보이고, 대체 품질이 시간이 지남에 따라 개선되고 반응군에서 시간적 추세를 생성할 경우 결과를 어떻게 올바르게 해석할까요?

답변: 초급 분석가들은 효과의 비정상성(non-stationarity)을 무시하고 모든 관찰 수평에서 일정한 ATE가 있다고 가정합니다. 동적 학습 모델에서 "오늘"의 효과는 과거 한 달 전의 효과와 체계적으로 다르며, 이는 Stable Unit Treatment Value Assumption (SUTVA)의 시간적 안정성 가정을 위반합니다. 해결책은 Time-Varying Coefficient Models 또는 Bayesian Structural Time Series (BSTS)를 적용하여 효과의 추세를 잠재 변수로 모델링하는 것입니다. DiD의 경우, 시간과 treatment 간의 상호작용을 포함하여 (event study design), 각 시간 조각에 대한 평행 추세의 가설을 검증해야 합니다. 효과가 증가할 경우, 모델의 learning curve(알고리즘 개선)와 사용자의 adaptation(기능에 대한 사용자 적응)을 구분하기 위해 다양한 사용자 코호트와 버전의 모델 코호트를 사용하여 분해하는 것이 중요합니다.