質問への回答

歴史的文脈。 従来のオンライン小売において、注文の不在商品 (out-of-stock) は、商品をキャンセルするか、手動でマネージャーに電話をかけることによって解決されてきました。これは、コンバージョンと顧客満足度を著しく低下させる要因です。しかし、ML レコメンデーションシステムの進化により、意味的近接性、価格の均衡、代替品の歴史に基づいてリアルタイムで代替品を提供することが可能になりました。しかし、代替品のある注文とない注文を単純に比較することは、代替品の存在自体が商品の最初の不足と相関しているため、偏った評価をもたらします。また、自動代替に同意するユーザーは、自動代替を拒否するユーザーとは系統的に異なることもあります。

問題設定。 鍵となる課題は、自己選択の内生性です。忠実なユーザーは、自動代替を許可する頻度が高く、ランダムな不足はカテゴリ（生鮮食品対技術）によって不均等にサンプルに影響を与えます。さらに、導入は倉庫レベルで行われるため、共通の在庫を介した汚染により、ユーザーレベルでの従来の A/B テストは不可能です。ML 代替品の質の純粋な効果を、商品の基本的な不足による否定的影響から分離し、カテゴリごとの異質性を考慮する必要があります。

具体的解決策。 最適なアプローチは、倉庫レベルでの Difference-in-Differences (DiD) の組み合わせと、効果の異質性を評価するための Causal Forest です。ML 代替品を導入している倉庫（treatment）のために、需要の構造と季節性が似ている自動代替のない倉庫を通じてコントロールグループを設定します。treatment 倉庫内のユーザーには、注文頻度、平均オーダー金額、カテゴリの好みに基づき、自動代替を受け入れるユーザーと拒否するユーザーを照合するために Propensity Score Matching を適用します。効果は、置換性カテゴリ（高、中、低）の内訳で Conditional Average Treatment Effect (CATE) として評価され、技術的効果と選別効果を分離することができます。

生活の中の事例

「ProductPlus」社は、オンライン注文の不在商品に対してスマートな代替提案システムを導入しました。問題は、注文の 15% が out-of-stock 商品を含み、それがユーザーの流出を引き起こしていたことです。アナリストは、ML 代替が実際に不足の否定的な影響を軽減するのか、単に仕入れの問題を隠すものなのかを測定する必要がありました。

最初の選択肢 — ユーザーを「自動代替オン」と「オフ」に分けて実施する伝統的な A/B テスト。長所：シンプルな解釈とコンバージョンメトリクスの直接比較。
短所：実際には不可能で、一つの倉庫が両グループを処理し、商品が品切れの場合はコントロールグループに「戻せない」ため、物流的な崩壊と汚染が生じる。

二番目の選択肢 — コントロールグループなしでの同倉庫の「前後比較」。
長所：計算が簡単で、他の倉庫との同期の必要がない。
短所：季節的な需要の変動や商品構成の変化が結果に歪みを与え、機能の効用を一般的な成長から分離することができない。

三番目の選択肢 — 都市のミクロ倉庫を無作為化の単位として使用した quasi-experimental デザインの Difference-in-Differences。
長所：系統的トレンドと季節性を排除し、統計的に有意な結論を出すことができる。
短所：平行トレンドに対する厳格な仮定と、合成コントロールを構築するために十分な数の均質な倉庫が必要。

選択された解決策：チームは、ユーザーの代替受け入れ傾向に基づいてセグメンテーションを行うために Causal Forest を追加使用して、三番目の選択肢 を選びました。これにより、「保守派」と「早期採用者」への効果を分離し、Propensity Score Matching を通じて先行する商品の歴史を調整することが可能になりました。

最終的な結果：ML 代替は、高い代替可能性のカテゴリ（乳製品や食料品）においてのみリテンションを 12% 増加させ、ニッチ商品の（クラフトビールやオーガニック食品）では 8% 顧客満足度を下げることが分かりました。これにより、企業は好みの高い代替品カテゴリに自動代替を制限し、NPS を 0.4 ポイント向上させ、手動再整理の運営コストを 23% 減少させる結果をもたらしました。

候補者が見落としがちなこと

自動代替技術自体の効果と特定の ML モデルの質の効果をどのように区別し、サバイバーシップバイアスを避けるか？

回答。候補者はしばしば技術的効果（代替の可能性）を質的効果（代替品の適合精度）と混同します。分離するために、モデルのメトリクスに基づく代替品の関連性の確率を「用量」とする 用量応答関数を構築する必要があります（NDCG@1）。例えば、受け入れ率のモデルの閾値周辺での Fuzzy Regression Discontinuity を用いることで、機能の存在と質の純粋な効果を分離することができます。このプロセスにおいて、サバイバーシップバイアスを考慮することが重要です。第一回の注文で不良な代替品を受け取ったユーザーは、機能を永久にオフにする場合があり、成功例に傾いたサンプルを歪めてしまいます。これを是正するために、最初の経験後にサンプルに残る確率の選択方程式と満足度の結果方程式を共同でモデル化する ヘックマン選択モデルを適用します。

一つのカテゴリーでの不成功な代替品が全体の注文の認識や他の商品キャンセルに与える影響をどのように考慮するか？

回答。標準的なアプローチは、カテゴリーの効果を孤立して評価し、バスケットへのnegative spilloverを無視します。カテゴリー間の効果を考慮するには、Graph Causal Modelsまたは Structural Equation Modeling (SEM) を使用して、相互依存商品システムとして注文をモデル化する必要があります。具体的には、カテゴリ間の依存関係グラフを構築し、（例えば、ヨーグルトの代替がグラノーラの認識に影響を与える）この効果を隣接商品の共変量を制御して Total Treatment Effect を通じて評価します。代替的には、代替品表示後にバスケットから他の商品を削除する「失望フラグ」を媒介者とする Mediation Analysis を適用します。これにより、全体の効果を直接（カテゴリー内）と間接（バスケットの変化を通じて）に分解し、代替品の利点の過大評価を避けることができます。

ML モデルが動的学習（learning effects）を示し、代替品の質が時間とともに改善される場合、その結果をどのように正しく解釈するか？

回答。初期のアナリストは、non-stationarity の効果を無視し、観察の全期間で定数の ATE を仮定しがちです。動的学習モデルでは、「今日」の効果が「一ヶ月前」の効果と系統的に異なり、時間的安定性に関する Stable Unit Treatment Value Assumption (SUTVA) を破ります。解決策は、効果の傾向を潜在変数としてモデル化した Time-Varying Coefficient Models または Bayesian Structural Time Series (BSTS) を適用することです。DiD の範囲内では、時間と treatment の相互作用を含める必要があり、各時間スライスごとに平行トレンドに関する仮説を検証します。効果が成長している場合は、モデルそのものの learning curve（アルゴリズムの改善）とユーザー adaptation（機能へのユーザーの慣れ）を区別し、異なるユーザーコホートとモデルバージョンコホートを使用して分解を行うことが重要です。