질문에 대한 답변

역사적으로 음식 배달 서비스는 ‘60분 이내 배송’ 모델에서 정확한 시간 슬롯을 갖춘 하이퍼 로컬 물류로 진화했습니다. 이러한 전환은 방법론적인 문제를 만듭니다: 초기 운영 효율성이 높은 레스토랑(짧은 조리 시간, 주문 밀집 지역 근처)이 처음 도입되는 단계에서 스스로 선택되며, 문제점이 있는 지점은 나중에 연결되거나 아예 연결되지 않습니다. 도입 전후의 전환율을 직접 비교하면, 초기 채택자와 지연 채택자 간의 체계적인 차이를 무시하기 때문에 효과를 과대 평가하게 됩니다.

문제는 지리적 클러스터링으로 악화됩니다: 도심에 위치한 레스토랑은 수요가 높고 안정적이기 때문에 기능에 더 빨리 접근하는 경향이 있으며, 반면 변동성이 큰 수요를 가진 외곽 지역은 뒤늦게 연결되거나 연결되지 않습니다. 계절적 변동(예: 연말 연휴나 여름 감소)은 관찰된 트렌드를 추가로 왜곡해 단순한 그룹 간 평균 차이를 사용할 수 없게 만듭니다.

진정한 효과를 분리하기 위해서는 **Difference-in-Differences (DiD)**와 레스토랑 및 시간 고정 효과의 조합을 적용하고, 자기 선택 편향을 제거하기 위해 **Propensity Score Matching (PSM)**을 보완해야 합니다. 첫 번째 단계에서는 배송 이력, 평가 및 반경 내 배달원의 밀도를 기반으로 정확한 시간 슬롯에 연결될 확률 모델을 구축하고, 각 연결된 레스토랑에 대해 아직 연결되지 않은 레스토랑 중에서 제어 ‘쌍둥이’를 매칭합니다. 그런 다음 이러한 쌍 간의 전환율 동태에서 이중 차이를 평가하여 관찰되지 않는 고정 특성(예: 주방의 품질)을 통제합니다. 공간적 상관관계를 고려하기 위해 지리적 셀 수준에서 표준 오류를 클러스터링하거나 Synthetic Control Method를 사용하여 관심 단위에 대한 반팩트적 시나리오를 모방하는 비연결 레스토랑의 가중 조합을 생성합니다.

실제 사례

최대 규모의 전국 배달 에그리게이터에서 프리미엄 레스토랑을 위한 ‘선택된 15분 간격 배송’ 기능을 도입할 예정이었습니다. 파일럿이 세 개의 도시에서 시작되었고, 가장 먼저 연결된 파트너의 15%가 역대 가장 낮은 조리 시간과 높은 평가를 가진 레스토랑이었습니다. 한 달 후, 분석가들은 연결된 레스토랑에서 전환율이 22% 증가했음을 기록했으나, 비즈니스는 이것이 기능의 효과인지 또는 단순히 해당 지점들의 원래 높은 품질을 반영한 것인지를 의심했습니다.

세 가지 평가 접근 방식이 고려되었습니다. 첫 번째 옵션인 연결 전후의 평균 영수증 및 전환율 단순 비교는 즉시 기각되었습니다: 시장의 추세적 성장과 계절적 수요 증가를 무시했기 때문에 +22%의 과대 평가를 초래했으나, 이들 레스토랑은 새 기능 없이도 시장보다 8-10% 빠르게 성장하고 있었습니다.

두 번째 옵션인 정확한 배송 시간을 본 사용자와 표준 ‘40-50분’을 본 사용자 간의 코호트 분석도 문제점이 있었습니다: 프리미엄 레스토랑이 있는 지역의 사용자는 원래 평균 영수증이 더 높고 충성도가 높아 선택 편향이 발생했습니다. 지리적으로 샘플을 잘라내려 하면 데이터의 40%가 손실되고 테스트의 강도도 감소했습니다.

세 번째 선택된 옵션은 50개의 연결되지 않은 ‘기부자’ 레스토랑을 기반으로 각 연결된 레스토랑의 Synthetic Control을 구축하는 것이었습니다. 모집단에 대한 DiD 방법론이 사용되었으며, 날씨(배달 수요에 영향을 미치는)와 요일을 추가로 통제했습니다. 이를 통해 전환율이 +9.3%, 재주문 빈도가 +14% 증가한 순 효과를 분리할 수 있었으며, 이질성이 드러났습니다: 효과는 조리 시간이 12분 이하인 레스토랑에만 유의미했으며, 느린 주방의 경우 정확한 배송 시간 슬롯이 통계적으로 유의미한 증가를 제공하지 못했는데, 이는 물류가 아니라 생산이 제약이었기 때문입니다.

후보자들이 종종 간과하는 점

자기 선택이 발생하는 상황에서 DiD의 평행 경향 가정을 어떻게 검증할 수 있습니까?

후보자들은 종종 적용할 수 있는 DiD에 대한 주장 없이 주요 가정인 조치 그룹과 통제 그룹의 지표가 도입 전에 평행해야 한다는 것을 검증하지 않습니다. 자기 선택 조건에서는 이 가정이 일반적으로 위반됩니다. 도입 전 몇 주 동안 리드 인디케이터를 포함한 event study(동적 DiD)를 수행해야 합니다. 이러한 지표의 계수가 통계적으로 유의미하고 0과 다르다면 트렌드는 평행하지 않으며, Augmented DiD를 적용하거나 시간 추세와의 상호작용을 추가하여 차별적인 트렌드를 통제해야 합니다. 또한 평행성 위반에 대한 민감도가 낮은 Change-in-Changes 모델을 사용할 수 있지만 결과의 단조성을 요구합니다.

정확한 배송 기능이 하나의 지역에 도입될 때 인근 지역 사용자 행동에 미치는 공간적 스필로버 효과를 어떻게 고려해야 합니까?

분석가들은 사용자가 지역 간 이동하거나 친구를 통해 기능 존재를 알게 되어 선호를 변경할 수 있다는 점을 종종 무시합니다. 이는 통제 그룹에서 긍정적 편향을 생성합니다(SUTVA 위반). 진단을 위해서는 각 지점으로부터 1-2km 내에 연결된 레스토랑의 농도를 포함하여 공간적 지연(spatial lags)을 모델에 포함하는 Spatial DiD를 구축해야 합니다. 공간적 지연의 계수가 유의미하다면 네트워크 효과가 존재합니다. 이 경우 고전적인 DiD 추정은 효과를 과소평가하여(attenuation bias) 특정 레스토랑의 연결에 영향을 미치지만 이웃 지역 수요와는 직접적으로 상관관계가 없는 관리적 제한 수준의 도구를 사용하는 **Two-Stage Least Squares (2SLS)**를 사용할 필요가 있습니다.

단순한 Propensity Score Matching을 DiD와 병행하지 않고 사용할 수 없는 이유와 장기 효과(dynamic treatment effects)를 평가할 때 발생하는 오류는 무엇입니까?

초보 전문가들은 종종 PSM을 독립적인 방법으로 적용하여 t0 시점에서 유사한 그룹을 만들지만, 이후 t1에서 단순 평균을 비교합니다. 이는 데이터의 시간 구조 및 가능한 시간적 충격을 무시합니다. 올바른 접근법은 PSM-DiD로, 매칭은 통제 그룹 선택에만 사용되며 효과 평가 자체는 이중 차이에 의해 발생합니다. 또한 후보자들은 동적 효과 문제를 간과합니다: 정확한 배송 효과는 시간이 지남에 따라 증가할 수 있습니다(사용자가 기능에 익숙해짐) 또는 감소할 수 있습니다(신규성 효과). 이렇게 하려면 여러 도입 기간에 대해 staggered DiD를 구축하고 시점에 따른 이질적 효과에서 발생하는 편향을 제거하기 위해 현대적인 조정을 사용해야 합니다(예: Callaway & Sant'Anna 또는 Sun & Abraham 방법으로 코호트 효과를 올바르게 집계하는 것). 일반적인 이중 기간 DiD는 이 경우 처리된 평균 효과에 대해 편향된 추정치를 제공합니다.