비즈니스 분석가제품 분석가 / 분석 리드

가상 피팅 기능(AR try-on)이 액세서리 카테고리에서 반품 감소와 전환율 증가에 미치는 인과 효과를 평가하기 위해 어떤 방법을 사용해야 하는가? 기능의 가용성이 기술적 특성(카메라 TrueDepth/ARKit)에 의해 제한되어 사용자 수익에 대한 체계적 선택 편향이 발생하고 출시가 상품 카테고리별로 단계적으로 이루어지는 경우.

Hintsage AI 어시스턴트로 면접 통과

질문에 대한 답변

역사적으로 AR 기능의 평가 접근법은 제품 분석에서 상관 분석 또는 기술 지원 여부에 따라 사용자 간 평균을 단순 비교하는 데 의존했다. 이러한 방법론적 프레임워크는 2018년까지 지배적이었고, 리테일 연구자들은 기기 가격 카테고리에 따라 관객 구분의 체계적 차이를 고려하지 않았다. ARKit 또는 ARCore를 지원하는 플래그십 스마트폰 소유자는 통계적으로 수익 수준, 기술 적응성 및 고수익 상품에 대한 충동 구매 경향에서 의미 있게 차이가 났다.

따라서 직접 비교는 40%까지의 자기 선택 편향을 초래하여 기능 효과와 그룹 간의 기존 차이를 분리할 수 없게 만든다. 고전적인 A/B 테스트도 불가능하다. 비호환 장치에서 AR을 강제로 활성화하면 기술적 결함, 애플리케이션 크래시 및 왜곡된 사용자 경험이 발생하여 SUTVA(안정된 단위 처리 가치 가정)의 근본 원칙이 위반되고 요청에 대한 부정적인 반응 효과가 발생한다.

최적의 솔루션은 기기 기술적 특성에 따른 임계점 주위에서 **회귀 불연속성 설계(Regression Discontinuity Design, RDD)**를 적용하는 것이며, 예를 들어 iPhone X와 iPhone 8+ 사용자를 비교할 수 있다. 이들은 중고 시장에서 유사한 가격 접근성을 지니고 있고 인구 통계적 특성이 비슷하지만 AR에 필수적인 TrueDepth 카메라 유무에서 중요한 차이를 보인다. 상품 카테고리별 단계적 도입을 반영하기 위해 차이의 차이(Difference-in-Differences, DiD) 및 고정 효과 모델(Two-Way Fixed Effects)을 통해 계절성과 품목의 차이점을 통제한다. 마지막으로, 장치의 가격 세그먼트 및 구매 기록에 따라 **성향 점수 매칭(Propensity Score Matching, PSM)**을 적용하여 RDD의 지역 내 잔여 이질성을 조정하여 **역확률 가중치(Inverse Probability Weighting)**를 통해 전체 집단으로의 국소 평균 효과(LATE)를 외삽할 수 있다.

실제 상황

2023년 가을, 대형 패션 마켓플레이스에서 얼굴 추적 기술을 사용하여 선글라스 AR 피팅 기능을 출시했다. 이 기능은 오직 iPhone X+ 및 Google ARCore를 지원하는 플래그십 Android에서만 작동하며, 저가 장치 사용자 중 60%를 자동으로 배제하였다. 사전 분석 보고서는 AR에 접근할 수 있는 사용자가 구매로 전환되는 비율이 3.5배 더 높고, 상품을 반품하는 비율이 30% 더 낮다고 보여주었지만, 팀은 생존 편향이 강하게 존재할 것이라고 의심했다: 비싼 전화기를 가진 사용자들이 역사적으로 높은 평균 장바구니 금액과 충성도를 보이기 때문이다.

첫 번째 고려 사항은 AR 접근성 그룹 간에 t-test 또는 Mann-Whitney U test를 사용하여 평균을 직접 비교하는 것이다. 이 접근 방식의 장점은 즉각적인 계산, 최소한의 데이터 요구 사항 및 비즈니스 이해관계자들에게 결과가 직관적으로 이해된다는 점이다. 단점은 치명적이었다: 수익 및 기술 인식의 재앙적인 내생성은 기능 효과와 사용자 세그먼트 간의 기존 차이를 분리할 수 없게 했다.

두 번째 옵션은 관찰 기간 동안 비호환 장치에서 호환 장치로 기기를 업그레이드한 사용자에 대한 **사전-사후(cohort analysis)**이다. 장점은 개별 이질성을 통제할 수 있다는 점으로, 이는 사용자의 측정 불가능한 특성으로 인한 편향을 제거한다. 단점은 신선함 효과(novelty effect), 계절성(휴대폰 업데이트가 12월 및 9월에 정점에 이르며 서로 다른 구매 패턴과 상관관계가 있다), 그리고 업데이트 시 시간에 따른 자기 선택이 강하게 영향을 미친다는 것이다.

세 번째 옵션은 iPhone X 모델(칩 A11 Bionic) 주위에서 **회귀 불연속성 설계(Regression Discontinuity Design)**를 적용하여 iPhone 8+ 및 iPhone X 사용자를 비교하는 것이다. 이들은 사회-인구 통계적 특성 및 중고 시장의 가격 범위에서 통계적으로 차이가 없지만 TrueDepth 카메라 유무에서만 차별화된다. 이 방법의 장점은 임계점 주위의 지역에서 거의 임의의 분포를 생성하여 무작위화 없이도 유효한 인과적 평가(LATE)를 제공하는 것이다. 단점은 외적 타당성이 제한적이며, 결과가 신형과 구형 플래그십 구매 사이에서 흔들리는 '한계 사용자'에게만 적용된다는 점, 그리고 공변량의 연속성 가정(continuity assumption)을 검증해야 하며 점 근처의 조작이 없어야 한다는 점이다.

선택된 조합 솔루션은 장치의 임계점에서 한계 사용자의 순수 효과를 평가하기 위해 RDD를 사용하고, 상품 카테고리별로 단계적 롤아웃을 고려하기 위해 차이의 차이를 결합하는 것이다(프리미엄 브랜드를 먼저 출시한 후 대중 시장 브랜드). 임계점에서 결과를 전체 인구로 외삽하기 위해 장치의 가격 분포 및 인구 통계적 특성에 기반한 **역확률 가중치(Inverse Probability Weighting, IPW)**가 적용되었다. 최종 결과는 진정한 효과가 전환율 +8% 및 반품 -12%라는 점을 보여주었다. 반면, 보정 없이 수행한 단순 분석에서는 +35% 및 -28%의 왜곡된 결과를 나타내어 이 기능을 확장하기 위한 비즈니스 결정에 중대한 변화를 가져왔고, 과도한 투자 기대를 피할 수 있었다.

후보자들이 자주 간과하는 점

AR 사용자들이 가상 피팅 사진을 소셜 미디어나 메신저에 공유하여 호환 장치가 없는 사람들의 구매 결정에 영향을 미치는 네트워크 효과(spillover effects)를 어떻게 처리해야 하는가?

후보자들은 그룹의 분리를 가정하고 SUTVA의 위반을 종종 무시한다. 실질적으로 친구가 Instagram Stories를 통해 안경 피팅을 보고 구매를 한다면, 이는 통제 그룹을 오염시킨다. 올바른 접근법은 **Two-Stage Least Squares (2SLS)**를 적용하는 것으로, 특정 모델 전화기의 특정 지역 출시 날짜와 같은 도구 변수를 사용하여 ‘발신자’의 AR 유무에만 영향을 미치고 ‘수신자’에게는 직접적인 영향을 미치지 않는다. 대안으로는 사용자의 사회적 연결 강도를 모델링하고 treatment × exposure의 상호작용을 모델에 도입하여 AR의 직접 효과를 측정하고 바이러스 효과를 정량적으로 평가하는 exposure mapping을 사용할 수 있다.

클라우드 렌더링을 통해 AR 기능을 강제로 활성화하여 무작위로 선택한 사용자 집단의 절반에 대한 ‘강제’ A/B 테스트를 시도하는 것보다 Intent-to-Treat (ITT) 방법론으로 Local Average Treatment Effect (LATE)를 계산하는 것이 왜 더 바람직한가?

이 질문은 실험 윤리와 준수 제한을 이해하고 있는지를 평가한다. 비호환 장치에서 클라우드 렌더링을 통한 AR의 강제 활성화는 높은 지연 시간(latency)과 저해상도의 인위적 사용자 경험을 창출하여 재앙적인 경험과 사용자 이탈(churn)을 초래하고 ‘해를 끼치지 않음(no harm)’의 원칙을 위반한다. 이는 non-compliance 선택(selection into non-compliance) 문제를 만들며, 사용자가 기능을 빠르게 비활성화하거나 애플리케이션을 삭제하여 효과 평가가 불가능하게 되고 준수 편향이 발생한다. 올바른 접근법은 encouragement design이다. 강제 활성화 대신 호환 장치 소유자에게 AR을 사용해 보라는 제안을 무작위로 보여주어 ITT 분석을 생성하고, 여기서 treament는 제안이지 실제 사용이 아니다. 그런 다음 IV 회귀(도구 변수 - 제안 무작위화)를 통해 기능을 실제로 사용한 사람(complers)을 위한 LATE를 얻는다. 이는 기술적 제품 파괴의 위험 없이 보수적이지만 인과적으로 깔끔한 평가를 제공한다.

AR 모델이 대부분 프리미엄 세그먼트의 30%만 카탈로그에 생성된 경우, 평균 장바구니 금액과 LTV를 평가할 때 카탈로그 커버리지 편향(catalog coverage bias)을 어떻게 고려해야 하는가?

후보자들은 일반화 가능성(generalizability) 및 **잘림 편향(truncation bias)**에 대한 문제를 종종 잊고, AR이 가능한 프리미엄 세그먼트와 그렇지 않은 대중 시장을 비교한다. 샘플을 조정하지 않으면 우리는 높은 장바구니 금액을 AR 효과에 잘못 귀속시킬 수 있고, 실제로는 가격 세그먼트 간의 차이를 측정하는 것에 불과하다. 솔루션은 역확률 가중치(Inverse Probability Weighting, IPW) 또는 **이중 강건 추정(Doubly Robust Estimation)**을 적용하는 것이다: 먼저, 상품의 관찰 가능한 특성(가격, 브랜드, 카테고리, 계절성)을 기반으로 AR 모델이 존재할 확률인 성향 점수를 모델링한다. 그런 다음 관찰을 이 확률에 비례하여 역가중하여 AR이 있는 샘플이 전체 카탈로그에 대해 대표성을 갖도록 한다. 추가적으로 AR이 없는 카테고리에 대해 **합성 통제 방법(synthetic control methods)**을 사용하여 AR이 있는 카테고리의 가중 선형 조합을 생성하여 결여된 카테고리의 반사적 행동을 모방하여 전체 비즈니스 수준에서 효과를 평가할 수 있다.