질문에 대한 답변

역사적으로 로딩 속도 문제는 순전히 엔지니어링 메트릭스로 고려되었지만, Core Web Vitals가 검색 알고리즘에 도입되고 모바일 트래픽이 증가함에 따라 성능은 제품 특징이 되었다는 것이 분명해졌다. 속도 영향 평가에 대한 전통적인 접근법은 근본적인 내생성 문제에 직면해 있다: 빠른 장치와 안정적인 인터넷을 가진 사용자는 사이트 최적화와 관계없이 더 잘 전환되며, 이는 허위 상관관계를 만들어낸다.

이 문제는 엣지 컴퓨팅 및 현대 CDN 아키텍처를 사용할 때 더욱 악화된다. 여기서는 공격적인 캐싱으로 인해 그룹 간 트래픽을 일관되게 분리할 수 없기 때문이다. 또한, 자기 선택 효과가 존재한다: 느린 연결을 가진 사용자는 페이지 로딩 전에 사이트를 떠나는 경향이 있어 샘플의 분포를 왜곡하고 순수한 A/B 비교를 불가능하게 만든다.

최적의 솔루션은 **Regression Discontinuity Design (RDD)**를 "좋은" 성능 기준(예: LCP = 2.5초)의 경계에서 사용할 때 도구 변수를 (IV) 도구로 결합하는 것이다. 도구 변수로는 사용자가 가장 가까운 엣지 서버까지의 지리적 근접성 또는 연결 유형(3G vs 4G)을 사용하여 속도에 우연히 영향을 미치지만 구매 의도와는 직접적으로 상관관계가 없는 변수를 사용한다. 코호트 분석에는 synthetic control method를 사용하여 유사한 장치 및 지리적 구조를 가진 사용자의 역사적 데이터를 기반으로 한 대조군을 구축하여 최적화의 순수한 효과를 계절성과 거시적 트렌드로부터 분리할 수 있게 된다.

실제 사례

대형 이커머스 프로젝트에서 프론트엔드 팀은 혁신을 이루었다: 이미지를 현대적 포맷(WebP, AVIF)으로 전환하고 지연 로딩(lazy-loading)을 도입하며, 핵심 렌더링 경로를 최적화하여 좋은 연결을 가진 사용자에서 LCP를 4.2초에서 1.8초로 낮추었다. 제품 팀은 "출시 후"에서 전환율이 12% 증가했다고 보고했지만, 동시에 계절적 광고 캠페인이 시작되고 상품 카탈로그가 업데이트되었기 때문에 인과 관계에 대한 의문이 제기되었다.

옵션 1: 사후 그룹 비교(correlation comparison)

분석가들은 최적화 전후 1주일 동안의 사용자 전환율을 지역별로 층화하여 비교할 것을 제안했다. 장점: 구현의 간단함과 복잡한 인프라 필요 없음. 단점: 계절성(기념일 주) 완전 무시, 관객 구성 차이(새로운 사용자가 구매 의도가 다른 광고를 통해 유입됨) 및 생존 편향(survivorship bias) — 느린 사용자는 "후기 샘플"에서 사라져 성장의 환상을 생성하게 된다.

옵션 2: 속도 vs 전환율의 상관 분석

두 번째 접근법은 사용자의 실제 LCP를 독립 변수로 하고 전환 사실을 종속 변수로 하여 회귀 분석을 구성하는 것이었다. 장점: 모든 사용 가능한 데이터 활용 및 세션 단위의 상세성. 단점: 치명적인 내생성 문제: 비싼 플래그십 기기와 빠른 인터넷을 가진 사용자는 구매에 대한 동기부여가 상대적으로 높으며, 저렴한 기기를 사용하는 3G 사용자는 속도에 관계없이 낮은 구매 의도를 가진다. 이는 40-60%의 상향 편향을 야기하게 된다.

옵션 3: 지리적 도구를 가진 Regression Discontinuity Design

팀은 하이브리드 접근법을 선택하였다: 사용자의 가장 가까운 엣지 서버까지의 거리를 도구 변수로 사용하여 속도와 상관관계가 있지만 구매 행동과는 무관한 변수를 적용하였다. 신호가 "망가지는" 영역의 경계(여기서 속도가 2.6-2.8초 LCP로 급격히 감소)에서 사용자들은 국지적으로 랜덤한 샘플을 형성하였다. 주어진 ±0.3초의 경계 범위에서 **Local Average Treatment Effect (LATE)**를 적용하여 인프라에 의해 속도가 변경된 사용자(성능 향상 효과를 받은 경우)를 분석하였다.

채택된 솔루션 및 결과

RDD+IV 접근법이 구현되었고, 캐시된 리소스에 대한 localStorage 분석을 통해 Return 사용자들을 추가 필터링하였다. 최종 평가는 최적화의 진정한 증분 효과가 새로운 사용자에게 +8.5%, 복귀하는 사용자에게 +3.2%로 평가되었고, 이는 엣지 컴퓨팅 인프라에 대한 투자 정당성을 확보하는 데에 채택되었으며, 연간 340%의 ROI를 달성하였다.

후보들이 자주 간과하는 것들

성능 vs 전환율에 대한 표준 OLS 회귀가 왜 편향된 추정값을 제공하며, 여기서 어떤 내생성 메커니즘이 지배적인가요?

여기서 답은 이중 자기 선택(bias): 첫째, 느린 장치를 가진 사용자는 체계적으로 "성공적인 세션" 샘플에 적게 포함되어 이탈하게 되어, 자르기 편향(truncation bias)을 만들어낸다. 둘째, 인터넷 속도는 사회 경제적 지위와 지리적 조건과 상관관계를 가지며, 이는 구매력에 직접적으로 영향을 미친다. 도구 변수가 없거나 RDD 없이 회귀는 "빠른 인터넷이 부의 지표"와 "빠른 사이트가 전환을 촉진하는 요인"의 효과를 혼합하여 진정한 인과 효과를 1.5-2배 과대 평가하게 된다.

클라이언트 측 캐싱(client-side caching) 및 반복 방문이 장기 분석에서 최적화 효과의 평가를 왜 왜곡하고, "치료 오염"을 여과할 수 있는 방법은 무엇인가요?

최적화 전에 사이트를 방문했던 Return 방문자는 HTTP-cache 또는 Service Worker에서 구식 대용량 리소스를 가지고 있어 사실상 그들에게 "치료"(빠른 새로운 버전)가 부분적으로 또는 완전히 적용되지 못해 치료와 대조군 간의 오염이 발생한다. 후보자들은 종종 If-None-Match 헤더를 검사하거나 첫 번째 방문 타임스탬프와 함께 first-party cookie 분석을 게을리 한다. 올바른 접근법은 "청정 신규 세션"(신규 사용자 + 캐시 삭제됨)과 "오염된 복귀 사용자"로 나눠 intent-to-treat (ITT) 분석을 실시하거나, 고정 효과를 포함한 **difference-in-differences (DiD)**를 사용하는 것이다. 이는 사용자 간 차별을 포함한 변화를 차별할 수 있도록 도와준다.

Core Web Vitals 효과를 평가하는 ITT 분석(의도된 치료)과 TOT 분석(치료 받은 자에 대한 치료) 간의 차이는 무엇이며, 제품 메트릭을 계획할 때 ITT를 기반으로 보고하는 것이 왜 중요한가요?

ITT는 속도 개선을 받지 못한 사람들(예: 2G 사용자 또는 JavaScript가 비활성화된 사용자)을 포함하여 전체 인구에 대한 효과를 측정하는 반면, TOT (또는 IV 맥락의 LATE)는 실제로 최적화로 인한 혜택을 받은 "성능 사용자를" 위한 효과만을 측정한다. 후보자들은 종종 비즈니스에 TOT 추정치(+15% 전환율)를 잘못 보고하지만, 최적화를 100%의 트래픽에 비전을 올릴 경우 실제 효과는 ITT에 더 가까운 +6-8%가 된다. 이는 일부 사용자이 기술적으로 개선을 받을 수 없기 때문이다(구형 장치, 느린 네트워크). 비즈니스 계획과 수익 예측에 대하여 보수적인 ITT 추정치를 사용하는 것이 중요하여 과도한 약속(overcommitment)의 오류를 피할 수 있도록 해야 한다.