问题的回答

电子商务从文本搜索到多模态界面的演变始于2010年代中期在移动应用中出现的卷积神经网络（CNN）。在这里，经典的A/B测试方法面临硬件分散的问题：同一款视觉搜索算法在旗舰设备和预算智能手机上的准确性存在差异。

早期研究显示，低端设备的用户具有系统性不同的浏览模式，这给标准经济计量模型中误差独立性假设的违反带来了威胁。这使得通过t检验或基本回归法进行简单的组比较在方法论上无效。

根本的内生性起源于采用层面的自我选择：技术精通的用户（先行者）同时倾向于尝试新功能，并具有较高的基础转化率。此外，还观察到结构性侵蚀：视觉搜索“抢走”了文本搜索的请求，但同时将低信息量的文本请求转化为高信息量的视觉嵌入。

相机质量的技术异质性引入了与用户SES（社会经济地位）特征相关的额外测量误差标准。用于控制选择偏见的标准方法，如倾向得分匹配（Propensity Score Matching），在这里是不足的，因为存在用户视觉素养的未观察异质性。

最佳策略是使用两阶段最小二乘法（2SLS），使用相机的硬件能力（如长焦镜头、支持夜间模式）作为工具变量（IV）。排斥限制在假设相机规格仅通过视觉搜索的使用可能性影响转化，而不是通过与收入相关的特征时成立。

工具的有效性通过过识别测试（Overidentification Test）进行检验，利用相机批次中的外生变化。对于侵蚀，使用主层次化（Principal Stratification）：根据潜在类别模型将用户划分为层次，其中类别由从文本搜索中切换的概率决定。

异质性处理效应通过**因果森林（Causal Forests）**进行评估，并按照设备类型进行聚类，以考虑硬件类别内的误差相关性。此外，还控制拍摄元数据（EXIF数据曝光）以隔离效果，确保其来自于识别质量，而非外部条件。

生活中的实例

市场平台“FashionHub”在20%的流量上推出了视觉搜索，观察到采用者的转化率增长了18%。然而，审计发现，70%的使用iPhone 12+（高质量相机）的用户进入了测试组，而Android预算段则留在控制组中，造成了基于硬件的混淆。关键指标——在购买之前查看的商品卡片的平均数量——在高端设备的细分市场中增长不成比例。

粗略比较采用者与非采用者将显示出18%的转化率增长，但会带来生存偏见。拍摄商品照片的用户已经表现出很高的购买意图和对用户体验中的摩擦的容忍性。该方法的优点在于解释的简单性和快速获取结果。缺点在于无法将功能的因果效应与技术精通观众的自我选择（高基础转化率）分开。

**地理覆盖与差异中的差异（Difference-in-Differences）**假定首先在莫斯科（高端智能手机的渗透率高）启动，然后在一个月后进入地区。优点在于可以考虑时间趋势和时尚季节性。缺点是地区在可支配收入和时尚价值观上存在差异，这违反了平行趋势假设；莫斯科受众对数字功能的新鲜事物的弹性存在系统性差异。

工具变量与倾向得分匹配利用技术上的不可能性（无法在没有自动对焦和**光学图像稳定（OIS）**的设备上启动视觉搜索）作为自然实验。兼容设备的用户与具有相似人口统计特征和文本搜索历史但无兼容设备的用户进行匹配。优点在于工具的外生性（硬件前于购买决策）。缺点在于要求相关性通过第一阶段F统计量进行检验（为45，>10阈值），而排除限制要求保证相机通过搜索影响购买。

选择了IV解决方案，并通过API确定光照条件和分析照片的EXIF元数据（ISO，曝光时间）进行额外控制。最终结果：真实的**局部平均处理效应（LATE）**对转化率的影响为+4.2%（其余皆为选择偏见），且该效应集中在“鞋类”类别（其中颜色匹配至关重要），而在“配饰”中则不存在（品牌主导于视觉特征）。

候选人常常忽视的内容

为什么不能在用户层面进行简单的A/B测试，尽管基础设施允许？

候选人忽视了视觉嵌入模型训练中的网络效应：当用户拍摄照片时，这些数据会进入**孪生网络（Siamese Network）**的训练样本，提升所有用户的搜索质量，包括对照组（溢出效应）。此外，SUTVA（稳定单位处理价值假设）通过排序污染被违反：如果视觉搜索提升了推荐流中的相关商品，这会影响对照组的行为。

解决方案是使用设备类型水平的聚类随机化或使用曝光映射（Exposure Mapping），通过**逆概率加权（Inverse Probability Weighting）**调整集群中对功能使用强度的影响。

如何在意图非潜在的情况下将文本搜索的侵蚀与新需求的创造分开？

标准的总查询比较忽视了经过质量调整的数量。需要应用主层次化框架（Principal Stratification Framework）：基于在有/无视觉的情况下使用文本搜索的潜在结果确定四个层次（依赖者、永不使用者、始终使用者、反对者）。

然后评估依赖者的平均因果效应（Complier Average Causal Effect，CACE），针对那些只有在可用情况下才会从文本切换到视觉的用户。此外，使用用户文本请求与商品类别之间的嵌入空间距离（Embedding Space Distance）：如果视觉搜索缩短了查询与购买之间的语义距离，这就是增量效应，而不是替代效应。

在分析留存时，基于成功识别的数量进行条件判断有什么危险？

这是一种经典的碰撞偏见（Collider Bias）（M结构）：对“成功识别”的条件（取决于相机质量和请求复杂性）打开了硬件和留存之间的虚假路径。候选人常常会过滤“失败的上传”，导致在依赖变量上的选择偏见。

正确的方法是应用赫克曼两步修正（Heckman Two-Step Correction）或托比特模型（Tobit Model），用于零膨胀成果，其中对使用功能的决策和使用条件下的结果进行联合建模，考虑第一方程probit模型中与预测因子（光照、时间、商品类别）相关的米尔斯比例（Inverse Mills Ratio）。