질문에 대한 답변

역사적으로 고객 지원은 인간 운영자의 독점에서 규칙 기반 챗봇을 통한 자동화로 발전해 왔습니다. 그러나 이러한 챗봇은 종종 제한된 시나리오로 인해 사용자에게 불만을 주었습니다. 현대 단계에서는 컨텍스트 대화를 하고 복잡한 작업을 수행할 수 있는 **대형 언어 모델(LLM)**인 GPT-4나 Claude의 도입이 특징입니다. 이러한 시스템의 효율성 평가 문제는 전통적인 메트릭(해결 시간, 티켓당 비용)이 서비스 품질과 비선형적으로 상관관계가 있다는 점에서 악화됩니다. 비용 절감은 CSAT 감소로 이어질 수 있으며, 자동화 증가로 인해 실패한 에스컬레이션에 대한 불만이 증가할 수 있습니다.

이 문제를 해결하기 위해 AI 어시스턴트의 순수한 효과를 계절성(휴가 세일은 문의 프로파일을 변경), 신선도 효과(사용자는 첫 몇 주 동안 봇과 더 많이 실험), 자기 선택의 내생성(단순 문의는 봇에게, 복잡한 문의는 사람에게 즉시 전달됨)에서 분리해야 합니다. 고전적인 무작위 배정이 불가능한 이유는 피크 시간에 대조군에 대한 지원을 중단하는 것이 윤리적 및 비즈니스 위험을 초래하며, 봇에서 사람으로의 대화 에스컬레이션이 순수한 효과를 혼란스럽게 하기 때문입니다.

최적의 해결법은 대기열 길이의 경계에서 **회귀 불연속 디자인(Regression Discontinuity Design, RDD)**을 사용하는 것입니다. 대기 중인 사용자가 N(예: 5명)을 초과할 때 시스템은 자동으로 AI 어시스턴트를 운영자 대기 대신 제안합니다. 이는 경계 왼쪽과 오른쪽의 사용자가 관찰 가능한 특성과 관찰되지 않는 특성에서 통계적으로 동일하다는 자연 실험을 만들어냅니다. 모델의 학습 효과를 고려하기 위해 차이-차이(Difference-in-Differences) 분석과 상응하는 그룹(예: 봇이 지속적으로 작동하는 야간 사용자)을 비교하여 도입 이전의 유사한 시간대와 비교합니다. 효과의 이질성을 분석하기 위해 **인과 숲(Causal Forests)**를 사용하여 충조건 평균 효과(CATE)를 구축할 수 있습니다.

실제 상황

500K 요청을 처리하는 대형 e-commerce 프로젝트에서 팀은 "내 주문은 어디에 있나요" 및 "배송지 주소 변경"과 같은 요청을 처리하기 위해 LLM 어시스턴트를 도입하기로 결정했습니다. 문제는 파일럿이 연말 시즌과 겹쳤고, 이때 트래픽이 3배 증가했으며, 역사적 데이터는 지원 품질에 관계없이 물류 지연으로 인한 시즌별 CSAT 감소를 보여주었습니다.

첫 번째 고려된 옵션은 도입 전 한 달과 도입 후 한 달의 메트릭을 직접 비교하는 것이었습니다. 장점: 구현의 간단함, 인프라 변경 필요 없음. 단점: 계절성 통제가 전혀 없으며, AI의 효과를 전체 트래픽 증가와 제품 라인 변화의 효과(연말 상품은 다른 반품 프로파일을 가집니다)로부터 분리할 수 없음. 이 접근 방식은 즉시 기각되었습니다.

두 번째 옵션은 한 지역에서 봇이 켜지고 다른 지역에서 꺼져있는 지리적 분할 A/B 테스트입니다. 장점: 순수한 무작위화, 간단한 해석. 단점: 네트워크 효과(사용자는 A 지역에 거주할 수 있지만 B 지역에서 친구를 위해 주문할 수 있음), 다양한 물류 인프라가 문의의 본질에 영향을 미침, 피크 시간에 한 지역의 과부하가 고객 손실 위험을 초래합니다. 대안을 찾기로 결정했습니다.

선택한 해결책은 대기열 길이 임계치 3명의 RDD입니다. 대기열이 3명의 대기자를 초과하면 시스템은 사용자에게 AI 어시스턴트를 제안하였고, 사람 대기열에 남을 수 있는 옵션도 제공하였습니다. 에스컬레이션 효과를 교정하기 위해 의도 대 치료(Intent-to-Treat, ITT) 분석을 사용하여 봇 사용 여부와 관계없이 봇을 제안받은 모든 사람을 비교하였습니다. 이는 기술적 능력에 따른 자기 선택 편향을 피할 수 있었습니다. 추가로, 봇이 사용되지 않았던 유사한 요청 카테고리에서의 역사적 데이터를 기반으로 한 **합성 통제(Synthetic Control)**를 구축하여 계절적 변동을 필터링했습니다.

최종 결과: AI 어시스턴트가 단순 요청의 평균 해결 시간을 8분에서 2분으로 단축시키면서도 통계적으로 유의미한 CSAT 감소(신뢰 구간 내 0.1 포인트 차이)가 없음을 측정할 수 있었습니다. 그러나 "반품" 세그먼트에 대해서는 부정적인 효과가 발견되었습니다: 봇에서 사람에게 에스컬레이션할 때 CSAT가 직접 운영자에게 요청한 경우보다 15% 낮았으며, 이는 이러한 요청에 대한 별도의 신속 처리 경로를 생성하게 되었습니다. 운영 비용은 첫 번째 라인의 경감으로 인해 30% 감소했습니다.

후보자들이 자주 간과하는 점

사용자가 봇에 대한 실망으로 인하여 사람에게로 넘어갈 때 에스컬레이션의 내생성을 올바르게 처리하는 방법은 무엇인가요?

후보자들은 종종 봇과의 성공적인 대화만과 사람과의 대화를 비교하라고 제안하며 생존 편향을 무시합니다. 올바른 접근법은 도구 변수를 통한 지역 평균 치료 효과(Local Average Treatment Effect, LATE) 분석입니다: 봇이 임시로 사용할 수 없을 때의 기술적 오류를 도구로 사용하여 본래 봇을 통해 обслуж이었을 사용자들에 대한 효과를 평가합니다. 이는 기술 자체의 효과와 요청 유형에 따른 선택 효과를 분리하는 데 도움이 됩니다.

왜 챗봇의 표준 메트릭(정확도, F1 점수, BLEU 등)이 인과 효과의 제품 평가에 부적합한가요?

많은 분석가들이 응답 생성의 품질에 집중하며, 제품 목표는 비즈니스 메트릭의 변화라는 점을 잊곤 합니다. LLM은 적절하지만 비관련한 응답을 생성할 수 있으며, 반대로 기술적으로 부정확하지만 사용자 문제를 해결하는 지침(예: "앱을 재시작해 보세요")을 제공할 수 있습니다. 올바른 접근법은 Propensity Score Matching을 사용하여 요청의 복잡성을 동적으로 평가하여 사용자 세션 수준에서 **증가량(uplift)**을 평가하는 것입니다.

모델을 새로운 데이터로 지속적으로 재학습할 때 효과의 비정상성을 어떻게 고려하나요?

후보자들은 LLM이 생산에서 지속적인 학습을 거친다는 점을 간과합니다: 모델은 매일 주석이 달린 대화로 재학습되므로 주 1주 효과는 4주 효과와 비교할 수 없습니다. 시간 가변 치료 효과(Time-Varying Treatment Effects) 모델과 롤링 윈도 평가 또는 **베이esian 구조적 시계열(Bayesian Structural Time Series, BSTS)**를 사용한 동적 기준선 조정이 필요합니다. 이를 무시하면 봇이 제품의 특성에 따라 "학습하는" 장기 효과의 과소평가 또는 신선도 효과의 과대평가가 발생할 수 있습니다.