質問への回答

これまで、ロイヤルティプログラムの評価は参加者と非参加者の平均注文額を単純に比較することに基づいており、これにより選択バイアスによって効果が過大評価されていました。現代のプロダクト分析では、観察されない特性（例えば、計画されている購入量）に基づいてユーザーがプログラムに自己選択する条件下で、真の因果効果を隔離することが求められます。主要な問題は、プログラムの効果をグループ間の既存の違いから分離し、ボーナスの付与と活性化の間の時間遅延を適切に処理することです。

解決策として、傾向スコアマッチング（PSM）と差分の差分法（DiD）の組み合わせを適用する必要があります。最初のステップでは、開始時点までの共変量に基づいてプログラムへの参加の確率モデルを構築します（購入履歴、人口統計、エンゲージメント）。ユーザーは最近接の隣人または重み（IPW）に基づいてマッチングされ、観察される特性の分布をバランスさせます。次のステップでは、ボーナスのアクティブ化の瞬間に関するバケツに基づき、ユーザーと時間の固定効果によるDiDを適用します（イベントスタディデザイン）。これにより、一部のユーザーがボーナスを1週間後、他のユーザーが1か月後にアクティブ化することを考慮に入れて効果のダイナミクスを追跡することが可能になります。カニバリゼーション（購入の時間的移転）を制御するために従属変数のラグを含め、異なる観察期間のコホートを生存分析で分析します。

具体的な状況

私たちは、ユーザーがプロファイルでオプションをアクティブ化する必要があるエレクトロニクスのマーケットプレイスで5％の累積キャッシュバックを開始しました。1か月後の指標は参加者の購入頻度が40％増加していることを示しましたが、ビジネスは因果関係に疑問を持ちました。なぜなら、プログラムに参加するのは元々ロイヤルなユーザーであると考えられていたからです。この問題は、ボーナスが付与されてから14日後にしか使用できないため、3週目に活動が人工的に急増することでさらに複雑になりました。

最初に検討されたオプションは、キャッシュバックへのアクセスを強制的にランダム化する従来のA/Bテストです。利点：因果効果のクリーンな評価。欠点：法的制約（同意なしに金融プログラムを強制できない）と行動の歪み（キャッシュバックが利用できないことを知ったユーザーが競合他社に流出する可能性）。このオプションは倫理的およびビジネスリスクのために却下されました。

2番目のオプションは、t-testを使用して「参加者」と「非参加者」を簡単に比較することです。利点：実装の迅速さとレポートの簡単さ。欠点：生存バイアスの壊滅的な偏りと内生性の無視。分析の結果、アクティブ化前の参加者は購入頻度が2.3倍高かったため、比較が不正確なものでした。

3番目のオプションは、キャッシュバックの権利を自動的に付与する最初の購入金額の境界に基づく**回帰不連続デザイン（RDD）**です。利点：境界の周囲のローカルなランダム性が限界ユーザーに対する非バイアスの評価を提供します。欠点：評価は境界に近い狭いグループにのみ有効であり（局所平均処置効果）、全体のオーディエンスには適用されません。また、私たちのケースでは、硬直した境界はなく、プログラムはopt-inの直後に全員に利用可能でした。

選択した解決策は、合成コントロールの作成のための傾向スコアマッチングと、時間遅延を考慮したコホートベースの差分の差分法の組み合わせです。私たちは、参加者を非参加者と15の変数（RFMセグメント、季節性、デバイス）でマッチングし、その後、週間とユーザーの固定効果を持つDiDを適用しました。14日間の遅延を考慮するために、アクティブ化の瞬間に基づいてイベントスタディを構築し、真の成長を購入の移転から分離しました。結果としては、クリーンなインクリメンタル効果が購入頻度に+12％、平均注文額に+8％（カニバリゼーションを除外した）となり、生データは+40％を示しました。プログラムは成功と見なされましたが、ROIの期待は大幅に控えめでした。

候補者がしばしば見逃すこと

ボーナスの付与と使用の間にラグがある場合、プログラムの効果を購入の時間的移転からどのように正しく区別しますか？

これは動的処置効果を理解することを必要とします。平均効果だけでなく、イベントスタディの仕様を通じたそのダイナミクスをモデリングする必要があります：Y_it = α_i + γ_t + Σ_k β_k · D_i,t-k + ε_it、ここでD_i,t-kはアクティブ化の瞬間に関するダミー変数です。アクティブ化前のβ_kが有意にゼロと異ならない（平行トレンドテスト）場合、アクティブ化後に基準レベルを下回って減少する急増を示す場合、これはカニバリゼーション（借用需要）の兆候です。純粋なLTV効果を評価するには、時間を通じて効果を統合し、類似の事前軌道を持つドナー単位に基づいて構築された合成コントロール法で反事実と比較する必要があります。

個別ランダム化を使用した従来のA/BテストがキャッシュバックシステムにおけるSUTVAの仮定を壊す可能性があるのはなぜですか？

SUTVA（安定した単位処置値仮定）は、1人のユーザーのボーナスが他のユーザーの行動に影響を与える場合（たとえば、家族アカウントや法人購入）に壊れます。もし夫がキャッシュバックをアクティブにし、家族のために購入をすると、妻が別々の購入をやめる場合、個別のランダム化はバイアスのある評価をもたらします。家計レベルでのクラスターランダム化を適用するか、拡散の分析（スピルオーバー効果）を使用して、活性化のしきい値などのツール変数を用いた**二段階最小二乗法（2SLS）**を使用する必要があります。

シーズナリティがある場合、ユーザーのライフステージに沿った効果の異質性をどのように考慮しますか？

候補者はしばしば、キャッシュバックの効果が新しいユーザー（初期動機効果）と成熟したユーザー（維持効果）で異なることを無視します。トリプルディファレンス（DDD）を適用する必要があります：プログラムの効果 = (Y_post - Y_pre) for treatment - (Y_post - Y_pre) for controlを、テニュア（新規/成熟）ごとに分別します。この時、季節性はセグメントとのインタラクション月の固定効果を通じて制御されます。代替案として、因果フォレストやメタラーナー（S-ラーナー、T-ラーナー）を通じて異質な処置効果を用いて、ポジティブなCATE（条件付平均処置効果）を持つセグメントを特定し、ユーザーに対するプログラムのターゲティングを最適化し、ゼロまたはマイナスの効果を持つユーザーへのコストを回避します。