문제의 역사적 맥락은 e-commerce에서 사용자 콘텐츠의 진화에 뿌리를 두고 있습니다. 디지털 거래의 초기에는 전문적인 설명이 지배적이었으나, Web 2.0의 발전으로 UGC(User Generated Content)로의 전환이 이루어져 신뢰는 향상되었지만 정보 과부하 문제를 초래했습니다. 현대 사용자는 제품에 대한 수십 개의 리뷰와 마주하게 되어 인지 부하와 결정 시간이 증가하고 있습니다. Large Language Models(LLM)의 출현은 요약을 자동화할 수 있도록 했지만, 소비자의 진정한 목소리를 기계적 해석으로 대체하는 것은 표시된 정보와 사용자 행동 간의 인과 관계에 불확실성을 초래합니다.
문제 제기는 세 가지 요인으로 인해 전통적인 A/B 테스트를 불가능하게 합니다. 첫째, 카테고리별 단계적 롤아웃으로 인해 staggered adoption이 발생하여 시간이 지남에 따라 대조군이 실험군으로 변모하여 비교의 안정성을 저해합니다. 둘째, AI 요약의 품질은 내재적입니다: 리뷰 수가 많은 카테고리는 정확한 배지를 얻고, 적은 카테고리는 왜곡된 배지를 받아 상품의 인기와 함께 숨겨진 교란 요인으로 작용합니다. 셋째, deception effect의 위험이 있습니다: 사용자가 배지와 실제 상품 간의 불일치를 발견할 경우 플랫폼에 대한 신뢰가 하락하게 되어 장기적인 유지에 영향을 미치며, 이는 코호트 분석을 통해서만 측정할 수 있습니다.
자세한 해결책은 준실험적 방법의 조합을 요구합니다. 주요 도구는 Staggered Difference-in-Differences(DiD)로, 이는 카테고리 고정 효과와 시간 효과를 포함하여 단계적 구현 조건에서 효과를 포착할 수 있게 합니다. 생성 품질의 내재성을 고려하기 위해 Causal Forest를 사용하여 학습 데이터의 양에 따른 이질적인 영향을 모델링합니다. 병행 추세를 검증하기 위해 변화 없는 카테고리에서 Placebo 테스트를 수행하고, 시간에 따른 반품 추세를 추적하기 위해 Survival Analysis를 사용하여 전환의 단기 효과와 신뢰의 장기 효과를 분리하는 것이 매우 중요합니다.
가구 및 장식품을 전문으로 하는 마켓플레이스 "ДомашнийУют"는 상품 페이지에서 참여도 감소라는 중대한 문제에 직면했습니다. 사용자의 68%가 텍스트 리뷰 블록에 도달하지 못하고 조립 품질 및 자재에 대한 중요한 정보를 놓치고 있었습니다. 제품 팀은 전통적인 댓글을 시각적인 AI 배지로 요약하여 핵심 요점을 전달하는 혁신적인 해결책을 제안했지만, 이해관계자는 모델의 '환각'으로 인한 신뢰 지표의 잠재적인 저하와 반품 증가를 우려했습니다. 분석가들은 사용자에 대한 전통적인 스플릿 테스트를 수행할 수 없는 상황에서 도입의 순수한 인과 효과를 측정해야 하는 과제를 안고 있었습니다.
첫 번째 옵션은 A/B 테스트를 통해 사용자 수준에서 user_id의 해시를 기반으로 랜덤화를 시도하는 것이었습니다. 이 접근 방식의 장점은 엄격한 인과 관계 식별과 표준 t-test 또는 bootstrap을 통한 간단한 통계 처리의 용이성이 포함되었습니다. 하지만 단점은 제품에 치명적이었습니다: 사용자는 소셜 미디어에서 상품 스크린샷을 공유하여 그룹 간 오염을 일으켰고, 서로 다른 사용자 간의 동일 상품의 다르게 표시되는 것이 UX의 일관성을 저해하고 인지 불일치를 초래했습니다.
두 번째 옵션은 Synthetic Control Method를 기반으로 하여, AI 배지를 도입하는 각 카테고리에 대해 유사한 역사적 전환율과 계절성을 가진 변화가 없는 카테고리들에서 가중된 합성 통제를 생성하는 방식이었습니다. 핵심 장점은 사용자들이 자연스럽게 인식하고 트래픽 분리를 하지 않아 사용자 경험의 완전성을 유지할 수 있다는 점입니다. 하지만 고유한 카테고리에 대한 신뢰성 있는 통제를 구축할 수 없는 한계와 모든 카테고리에 동시에 영향을 미치는 글로벌 충격에 대한 편향의 위험이 주요한 단점으로 작용했습니다.
최적의 해결책은 Staggered Difference-in-Differences와 Two-Way Fixed Effects(TWFE) 및 Causal Forest의 조합으로, 원본 데이터의 양에 따른 효과의 이질성을 분석하는 것이었습니다. 이 접근 방식은 처음에 대량 전자 제품을 도입하고, 다음으로 가구를 도입하는 단계적 구현 순서를 외부 변화의 원천으로 활용하면서 카테고리 고정 효과와 시간 고정 효과를 통제할 수 있게 해주었습니다. 선택의 핵심 요인은 정확한 요약을 가진 고부하 카테고리와 '환각'을 가진 틈새 카테고리에 대한 다양한 영향을 모델링할 수 있는 가능성이었습니다. 이는 확장 결정을 내리는 데 전략적 이점을 제공했습니다.
최종 구현은 두드러진 이질성을 드러냈습니다: 50개 이상의 리뷰가 있는 카테고리는 인지 부하 감소로 인해 전환율이 12% 증가했으며, 3%는 정밀한 주요 특성을 전달하여 반품률이 감소했습니다. 반대로 10개 미만의 리뷰가 있는 틈새 카테고리에서는 배지와 실제 상품 품질 간 불일치로 인해 반품이 8% 증가하여 데이터 부족으로 인해 AI 요약을 완전히 중지하겠다는 결정을 내리게 되었습니다. 결과적으로 플랫폼은 전체 GMV에 중립적인 영향을 유지했지만 사용자 경험의 질을 크게 높이고 고처리량 카테고리에서 반품 처리에 대한 운영 비용을 줄일 수 있었습니다.
생성 품질의 내재성으로 인한 교란 요인
후보자들은 종종 배지 도입을 이진 효과로 해석하며, LLM 요약의 효율성이 원본 리뷰의 양에 따라 변하는 연속 함수라는 점을 간과합니다. 실제로, 높은 전환율을 가진 카테고리는 처음부터 더 많은 리뷰를 유치하여 역인과성을 생성하고 있습니다: 인기 → 데이터 양 → AI 품질 → 관찰되는 전환율 상승으로, 이는 시각적 배지에만 잘못 기인합니다. 올바른 접근 방식은 리뷰 양에 대한 도구 변수로서의 상품 나이와 같은 변수나 리뷰 수의 임계값에 따른 Regression Discontinuity를 사용하여 생성 품질의 순수 효과를 카테고리의 인기 효과와 분리하는 것입니다.
카테고리 간 스필오버 및 주의 대체
후보자들은 종종 사용자가 동일 세션 내에서 카테고리 간 상품을 비교하며, 이는 cross-category spillovers를 생성한다는 점을 간과합니다. 만약 '스마트폰' 카테고리에 매력적인 AI 배지가 등장하고, '케이스' 카테고리에서는 전통적인 텍스트 블록이 있다면, 이는 정보의 비대칭을 초래하여 전환 카테고리에서 수요를 끌어오게 됩니다. 이를 위해 정확한 평가를 위해서는 모델에 교차 카테고리 효과를 포함해야 하며, 사용자의 전체 주문에서 카테고리의 지분 변화를 분석해야 합니다.
노출의 동적 효과와 학습 곡선
초급 분석가들은 짧은 관찰창에서 정적인 효과를 고정하며, AI 콘텐츠에 대한 인식이 사용자 경험 축적에 따라 시간이 지남에 따라 변화한다는 점을 간과합니다. 최초 사용자는 배지를 객관적인 집계로 인식하지만, 첫 번째 반품이 발생하면 AI 회의론이 생기고 긍정적인 효과는 감소하거나 부정적으로 반전됩니다. 이 패턴을 식별하기 위해서는 지연 및 선행 변수를 포함한 Event Study와 AI 콘텐츠와의 첫 접촉에 대한 '연령'을 기반으로 사용자 세분화가 필요하여 학습 곡선을 구축하고 장기적인 효과의 지속성을 예측할 수 있습니다.