答え

歴史的に顧客サポートは人間のオペレーターの独占から、しばしば厳格なシナリオによってユーザーをフラストレーションさせるルールベースのチャットボットを通じて自動化に進化してきました。現代の段階では、コンテキストのある対話を行い、厳格な論理プログラミングなしで複雑なタスクを解決できる大規模言語モデル（LLM）、例えばGPT-4やClaudeの導入が特徴となっています。このようなシステムの評価問題は、伝統的なメトリクス（解決時間、チケットあたりのコスト）がサービスの質に非線形的に相関しているため、さらに悪化します。コスト削減がCSATの低下を招くこともあれば、自動化の進展が失敗したエスカレーションによるフラストレーションの増加をもたらす場合もあります。

この問題を解決するには、季節性（祝日のセールが問い合わせのプロフィールを変える）、新規性の効果（ユーザーは初めの数週間でボットをより活発に試す）、自己選抜の内生性（簡単なリクエストはボットに、複雑なものはすぐに人間に行く）から切り離されたAIアシスタントの純粋な効果を特定する必要があります。クラシックな無作為化は、ピーク時にコントロールグループのサポートをオフにすることが倫理的およびビジネス上のリスクを生むために不可能ですし、ボットから人間へのエスカレーションが純粋な効果を汚染してしまいます。

最適な解決策は、待機列の長さのしきい値に基づく回帰不連続デザイン（RDD）を活用することです。待機しているユーザーの数がしきい値N（たとえば5人）を超えたとき、システムはオペレーターを待つ代替としてAIアシスタントを自動的に提案します。これにより、統計的に観察可能および非観察可能な特性が同じユーザーがしきい値の左右に存在する自然実験が生まれます。学習効果を考慮するために、常にボットが働いている夜間のユーザーをプロキシグループとして使用し、導入前の同様の時間枠と比較する差分の差分法を適用します。効果の異質性を分析するために（異なるリクエストのカテゴリ間で異なる影響）、因果の森を使用して条件付き平均効果（CATE）を構築します。

実際の状況

大手eコマースプロジェクトで月間50万のリクエストを処理しているチームは、「私の注文はどこですか」や「配送先住所を変更する」といったリクエストの処理のためにLLMアシスタントを導入することを決定しました。問題は、パイロットが年末シーズンと重なり、トラフィックが3倍に増加し、歴史的なデータがロジスティクスの遅延によるCSATの季節ごとの低下を示していたことです。

最初に検討されたオプションは、導入前の1か月と導入後の1か月のメトリクスを直接比較することでした。利点：実装が簡単で、インフラストラクチャに変更を要求しません。欠点：季節性の完全な制御が欠け、AIの効果を全体的なトラフィックの増加や商品構成の変更から切り離すことができません（年末商品は返却のプロフィールが異なる）。このアプローチはすぐに却下されました。

2番目のオプションは、地理的スプリットA/Bテストで、ある地域ではボットがオンになり、別の地域ではオフになります。利点：純粋な無作為化で解釈が簡単です。欠点：ネットワーク効果（ユーザーは地域Aに住んでいても、地域Bで注文を出すことがある）、さまざまなロジスティクスのインフラストラクチャがリクエストの性質に影響を与え、ピーク時に1つの地域での過負荷が顧客喪失のリスクを生む可能性があります。代替案を探すことに決定しました。

選択された解決策は、待機列のしきい値を3人にしたRDDでした。待機者が3人を超えると、システムはオペレーターを待つオプションとともにAIアシスタントを提供しました。エスカレーションの効果を調整するために、意図治療（ITT）分析を使用し、実際の使用に関係なくボットを提案されたすべてのユーザーを比較し、技術的なリテラシーによる自己選択のバイアスを避けました。さらに、ボットが使用されなかった似た種類のリクエストからの歴史データを使って合成コントロールを構築し、季節的な変動をフィルタリングしました。

最終的な結果：AIアシスタントは、単純なリクエストの平均解決時間を8分から2分に短縮し、CSATが統計的に有意に低下することはないと測定することができました（信頼区間内の差は0.1ポイント）。しかし、「返品」のセグメントにおいては、人間へのエスカレーション時のCSATがオペレーターに直接頼る場合に比べて15％低下するというネガティブな効果が発見され、市場におけるこのリクエストのための別のファストトラックルートが作成されました。運用コストは、第一次防衛ラインの軽減によって30％削減されました。

候補者がしばしば見落とすこと

ユーザーがボットに失望し、人間に移行する時のエスカレーションの内生性を正しく処理するにはどうすればよいか？

候補者はしばしばボットとの成功した対話と人間との対話のみを比較することを提案し、生存バイアスを無視します。正しいアプローチは、ボットが一時的に利用できない場合のランダムな技術的障害を利用して、ボットによってサービス提供されるべきだった人々のための効果を評価するための道具変数を用いた**局所平均治療効果（LATE）**の分析です。これにより、テクノロジーそのものの効果とリクエストのタイプによる選択効果を切り離すことができます。

ボットの標準メトリクス（F1スコア、BLEU）が因果効果評価に適さない理由は何か？

アナリストはしばしば回答生成の品質に焦点を当てがちですが、製品の目的はビジネスメトリクスの変更であり、技術的完璧さではありません。LLMは文法的であるが関連のない回答を生成するか、技術的に不正確だがユーザーの問題を解決する指示（例："アプリを再起動してください"）を与えることができます。正しいアプローチは、リクエストの複雑性をマッチさせるために傾向スコアマッチングを用いて、ユーザーセッションレベルでのアップリフトを評価することです。

新しいデータへのモデルの継続的な再学習による効果の非定常性を考慮するにはどうすればよいか？

候補者は、LLMが生産環境で継続的学習を受けていることを見落とし、モデルは毎日ラベル付けされた対話で再学習されるため、1週間目の効果は4週間目の効果とは比較できません。時間変動治療効果モデルを使用し、ローリングウィンドウ評価を行ったり、動的にベースラインを調整するために**ベイジアン構造時系列（BSTS）**を使用する必要があります。これを無視すると、ボットが製品の特異性に基づいて「学習」する際の長期的効果を過小評価したり、逆に新規性の効果を過大評価したりすることになります。