質問への回答

歴史的に、飲食配達サービスは「60分以内の配達」モデルから、正確な時間帯を持つハイパーローカルロジスティクスへと進化してきました。この移行は方法論的な問題を引き起こします。初めから運営効率が高いレストラン（調理時間が短く、注文が多い地域に近い）が最初の導入波に自己選択される一方で、問題のある店舗は後に接続するか、全く接続されません。導入前後のコンバージョンを直接比較すると、エフェクトが過大評価される原因となります。なぜなら、early-adopters と laggards の間の体系的な違いを無視しているからです。

この問題は地理的なクラスター化によって悪化します。市中心部の需要が高く安定しているレストランは、ボラタイルな需要の周辺店舗よりも早く機能にアクセスすることが一般的です。季節的な変動（例：新年の休暇や夏の落ち込み）は、観察されたトレンドをさらに歪め、単純な群間の平均差を利用することを不可能にします。

真の効果を分離するためには、Difference-in-Differences (DiD) モデルをレストランと時間の固定効果と組み合わせて適用し、自己選択バイアスを排除するために Propensity Score Matching (PSM) を補完する必要があります。最初のステップでは、コバリアント（歴史的な配達時間、評価、半径内の配達者の密度）に基づいて正確なスロットシステムへの接続確率モデルを構築し、その後、処理された各レストランに対して、まだ接続されていないレストランから対照的な「双子」を割り当てます。その後、これらのペア間のコンバージョンのダブル差を評価することで、観察されない定常的な特徴（例：料理の質）を制御します。空間的な相関を考慮するためには、地理的セルレベルでの標準誤差のクラスタリングを適用するか、独立したレストランの重み付けされた組み合わせを作成する Synthetic Control Method を使用して、処理ユニットの反実仮想シナリオを模倣します。

実生活の状況

最大の全国的なデリバリーAggregatorsで、プレミアムレストラン向けの「選択した15分間の配達」機能の導入が計画されました。パイロットは歴史的に調理時間が短く、高い評価を得ているパートナーの15％が最初に接続された3都市で開始されました。1か月後、アナリストは接続されたレストランで21％のコンバージョン率の増加を確認しましたが、ビジネスはこれは機能の効果であるのか、それとも単にこれらの地点の始めからの高品質の反映であるのか疑問を抱きました。

3つの評価アプローチが検討されました。最初のオプションは、接続前と接続後の平均チェックとコンバージョンの単純な比較でしたが、これはすぐに却下されました。市場のトレンドの成長と季節による需要の活性化を無視していたため、+22％の過大評価をしていましたが、これらのレストランは新機能なしでも市場よりも8-10％速く成長していました。

2番目のオプションは、正確な配達時間を見たユーザーと、標準の「40-50分」を見たユーザーのコホート分析の比較ですが、これも問題が生じました。プレミアムレストランのある地域のユーザーは、初めから平均チェックとロイヤリティが高く、選択バイアスを生み出しました。地理的にサンプルを切り取ろうとすると、データの40％が失われ、テストパワーが低下します。

3番目のオプションが選ばれました。これは、販売履歴、地理、季節性が似ている未接続の50の「ドナー」から各接続されたレストランのための Synthetic Control を構築することを含んでいました。このメソドロジーは、天候（配達需要に影響を与える）や曜日による追加のコントロールを持つこれらの重み付けされた合成グループに DiD を適用しました。これにより、コンバージョンで+9.3％、再注文頻度で+14％の純粋な効果を分離し、効果が調理時間が12分未満のレストランに対してのみ有意である一方で、遅いキッチンに対しては統計的に有意な増加をもたらさないことが示されました。なぜなら、ボトルネックはロジスティクスではなく生産だったからです。

候補者が見落とすことが多いこと

DiD における平行トレンド仮説（parallel trends）の検証方法は？ 初期のアダプターがコントロールグループと体系的に異なる場合、候補者はこの重要な仮定をチェックせずに DiD を適用してしまうことが多いです。自己選択の条件では、この仮定は通常破られています。導入前の数週間にリード指標を使って event study（動的 DiD）を実施する必要があります。これらの指標の係数が統計的に有意でゼロとは異なる場合、トレンドは平行ではなく、Augmented DiD を適用するか、差分トレンドを制御するためのトレンド相互作用（interactions with time trends）を追加する必要があります。また、Change-in-Changes モデルを使用することができ、これは平行性違反に対してより感度が低いですが、結果の分布の単調性が必要です。

一つの地域において正確な配達を実装することが、機能を持たない隣接地域のユーザー行動に影響を与える場合、空間的スピルオーバー効果（spillover effects）をどう考慮すべきか？分析者はしばしば、ユーザーが地域間を移動したり、友人から機能を知って好みを変えたりする場合を無視し、これがコントロールグループにプラスのバイアスを生む可能性があります（SUTVAの違反）。診断には、半径1-2キロメートル内の接続されたレストランの集中度の空間ラグをモデルに含めて Spatial DiD を構築する必要があります。空間ラグの係数が有意であれば、ネットワーク効果が存在します。その場合、古典的な DiD 評価は効果を過小評価し（減衰バイアス）、導入されたレストランに対する接続を影響しない行政制限レベルでのインストルメントを使用した Two-Stage Least Squares (2SLS) を使用する必要があります。

単純な Propensity Score Matching を DiD なしで使用できない理由と、動的治療効果（dynamic treatment effects）評価時の誤りは何か？ 初心者はしばしば PSM を独立したメソッドとして適用し、t0 時点で同等のグループを得た後、t1 で単純な平均で比較します。これはデータの時間構造と可能な時間ショックを無視しています。正しいアプローチは、PSM-DiD で、マッチングをコントロールグループを選択するためだけに使用し、効果評価は差分差（difference of differences）を通じて行うことです。さらに、候補者は動的効果の問題を見落とします。正確な配達効果は、時間が経つにつれて増加する（ユーザーが機能に慣れる）こともあれば、逆に消失することもあります（新しさの効果）。これを考慮するためには、複数の展開期間を持つ staggered DiD を構築し、時間による異なる効果を排除するための現代的な調整を使用する必要があります（例：コホート効果の正しい集約のための Callaway & Sant'Anna または Sun & Abraham メソッド）として、標準の二期間 DiD がその場合、処理グループに対する平均効果を歪めて提供します。