Bi-DFCL：Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization

Venue	arXiv preprint · 2025
Authors	Shuli Zhang, Hao Zhou, Jiaqi Zheng, Guibin Jiang, Bing Cheng, Wei Lin, Guihai Chen
arXiv	2510.19517v1
主线	RCT 校准 OBS 训练
上层	decision loss 训练 Bridge
下层	prediction loss 训练 Target

一句话总结

这篇论文的核心并非“又一个 uplift 模型”，而是把营销预算分配问题里的三件事放进同一个训练系统：

最终要优化的是预算约束下的分配决策质量，而不是单点预测误差；
RCT 数据能给出无偏的决策质量估计，但量少、方差高；
OBS 历史日志量大、方差低，却带有策略偏差与混杂偏差，无法直接用来最小化 decision loss。

Bi-DFCL 的解决方式是：

用 RCT 上的 unbiased decision loss 作为上层目标，训练一个 Bridge Network；Bridge 决定在 OBS 数据上如何生成 counterfactual pseudo-label；Target Network 在大量 OBS 上学习，最终上线时只保留 Target + 预算优化器。

因此它真正试图解决的是 DFCL 的两个遗留问题：

DFCL 主要依赖 RCT，低偏但高方差；
DFCL 早期的 dual decision loss 面向多个预算/多个 $λ$ ，而实际营销通常是给定当天预算 $B$ 做 primal allocation。

Bi-DFCL 方法流程：RCT decision loss 校准 Bridge，Bridge 改写 OBS pseudo-label，Target 负责最终上线。 — Bi-DFCL 训练闭环：RCT 在上层控制 OBS 如何训练 Target，上线只保留 Target + 优化器。

1. 问题设定：营销不是单纯 uplift 排序，而是 MTBAP/MCKP

论文把营销问题形式化为 Multi-Treatment Budget Allocation Problem, MTBAP。有 $N$ 个个体、 $M$ 个 treatment。个体可以是用户、商家、商品或门店；treatment 可以是优惠券面额、折扣力度、补贴档位或不投放。

1.1 符号表

符号	含义
$i \in [N]$	个体索引
$j \in [M]$	treatment/action 索引
$x_{i}$	个体特征
$t_{i}$	样本 $i$ 实际接受的 treatment
$r_{ij}$	个体 $i$ 在 treatment $j$ 下的潜在 revenue / outcome
$c_{ij}$	个体 $i$ 在 treatment $j$ 下的潜在 cost
$z_{ij} \in {0, 1}$	分配决策， $z_{ij} = 1$ 表示给 $i$ 分配 $j$
$B$	总预算
$π : [N] \to [M]$	allocation policy
$\overset{r}{^}_{ij} (θ)$	Target Network 对 revenue 的预测
$\overset{c}{^}_{ij} (θ)$	Target Network 对 cost 的预测
$λ$	Lagrange multiplier / 预算影子价格

潜在结果语境下，对每个样本 $i$ ，真实日志只观测到：

(x_{i}, t_{i}, r_{i t_{i}}, c_{i t_{i}}),

而其他 treatment 的 ${r_{ij}, c_{ij} : j \neq = t_{i}}$ 都是 counterfactual，无法直接观测。

1.2 Primal allocation problem

MTBAP 的 primal 形式是：

z max s.t. H (z; r, c) = i = 1 \sum N j = 1 \sum M z_{ij} r_{ij} i = 1 \sum N j = 1 \sum M z_{ij} c_{ij} \leq B, j = 1 \sum M z_{ij} = 1, \forall i \in [N], z_{ij} \in {0, 1}, \forall i \in [N], j \in [M] .

这是一个 multi-choice knapsack problem。每个个体必须从 $M$ 个 treatment 中选一个，同时全局成本不能超过 $B$ 。这比二分类 uplift 排序更接近真实的优惠券/补贴系统：要回答的不是“给不给券”，而是“给哪个档位、花多少预算、换来多少增量目标”。

1.3 Lagrangian relaxation：预算影子价格 $λ$

论文用 Lagrangian relaxation 解近似分配。对预算约束引入 $λ \geq 0$ ：

λ \geq 0 min {z max [λ B + i = 1 \sum N j = 1 \sum M (r_{ij} - λ c_{ij}) z_{ij}]},

并保留每个个体只选一个 treatment 的约束。给定 $λ$ 后，个体之间解耦，每个 $i$ 选择 adjusted score 最大的 treatment：

z_{ij}^{*} = A (H (z; r, c)) = 1 {j = ar g j^{'} \in [M] max (r_{i j^{'}} - λ^{*} c_{i j^{'}})} .

当使用模型预测时，实际 solver 用：

\overset{s}{^}_{ij} (θ; λ) = \overset{r}{^}_{ij} (θ) - λ \overset{c}{^}_{ij} (θ),

并选 $ar g max_{j} \overset{s}{^}_{ij}$ 。 $λ$ 可通过 binary search 找到，使 RCT/IPW 估计成本接近 per-capita budget $B / N$ 。

理解要点： $λ$ 并非普通模型超参，而是 revenue 与 cost 的兑换率，也是预算的影子价格。若 $r$ 、 $c$ 的归因窗口、归一化、延迟回收口径不一致，错误的 $λ$ 会直接把优化器带偏。

2. 为什么不能简单拼 OBS + RCT

论文指出两个数据源的互补性：

数据源	优点	缺点	适合承担的角色
$D_{RCT}$	treatment 随机，满足强可忽略性，可构造无偏 decision estimator	昂贵、样本少、高方差、易过拟合	上层：评价/校正决策方向
$D_{OBS}$	历史日志量大、覆盖广、低方差	受历史策略、选择偏差、位置偏差、未观测混杂影响	下层：提供大规模 prediction learning 信号

RCT 的关键假设是：

(X, R (t), C (t)) ⊥ T,

即 treatment assignment 与特征及潜在结果独立。因此在 RCT 上，只有当 policy 选择的 treatment 恰好等于随机分配的 treatment 时，样本的 observed outcome 才能用来无偏估计该 policy 的期望收益。

OBS 不满足该假设。若直接在 OBS 上最小化 decision loss，等于让历史投放策略的偏差直接进入优化目标，反而可能放大旧策略的选择偏差。若把 OBS 与 RCT 简单 concat，由于 OBS 样本远多于 RCT，OBS 会主导普通 loss，RCT 的无偏性也就被一并淹没。

Bi-DFCL 在结构上的取舍是：

RCT controls direction; OBS provides scale.

也就是：RCT 进入上层 decision loss，OBS 进入下层 prediction loss。

3. 从 DFCL 到 Bi-DFCL：它到底新增了什么

DFCL 的基本目标可以写成：

L_{DFCL} = L_{DL} + α L_{PL},

其中 $L_{DL}$ 直接评价 downstream allocation 的质量， $L_{PL}$ 约束预测误差。但 DFCL 主要在 RCT 上训练，因为 decision loss 的无偏估计依赖 RCT。这带来两个麻烦：

variance 问题：RCT 样本少，训练出来的模型可能泛化差；
loss balancing 问题： $α$ 是人工调节 prediction 与 decision 的权重，不能自适应利用 OBS/RCT。

Bi-DFCL 把这个加权和结构改成 bi-level：

ϕ^{*} θ^{*} (ϕ) = ar g ϕ min L_{DL} (θ^{*} (ϕ); D_{RCT}), = ar g θ min L_{PL} (ϕ, θ; D_{OBS}) .

解释：

$θ$ 是 Target Network 参数，是最终上线模型；
$ϕ$ 是 Bridge Network 参数；
给定 $ϕ$ ，Target 在 OBS 上通过 $L_{PL}$ 训练得到 $θ^{*} (ϕ)$ ；
上层拿这个 Target 到 RCT 上做 decision-quality 评估，并更新 Bridge；
Bridge 的任务并非把 OBS prediction loss 本身压到最低，而是让“在 OBS 上训练出来的 Target”在 RCT decision objective 上更好。

这就是论文所谓的“bridging observational and experimental data”。

4. 三个网络：Teacher、Bridge、Target

Bi-DFCL 共包含三个网络，各有不同职责。

4.1 Target Network $F_{θ}$

Target 是最终上线模型。输入 $x_{i}$ ，输出所有 treatment 的 revenue/cost：

F_{θ} (x_{i}) = (\overset{r}{^}_{i 1} (θ), \dots, \overset{r}{^}_{i M} (θ), \overset{c}{^}_{i 1} (θ), \dots, \overset{c}{^}_{i M} (θ)) .

Serving 阶段只需要 Target：

x_{i} \to {\overset{r}{^}_{ij}, \overset{c}{^}_{ij}}_{j = 1}^{M} \to Lagrangian solver \to π (i) .

4.2 Teacher Network $F_{ψ}$

Teacher 在 RCT 上用普通 MSE/uplift loss 预训练，然后固定。它提供相对无偏但高方差的 counterfactual anchor：

\overset{r}{^}_{ij}^{pre} (ψ), \overset{c}{^}_{ij}^{pre} (ψ) .

它并非最终上线模型，上层 decision loss 也不会再去更新它。

4.3 Bridge Network $G_{ϕ}$

Bridge 输出 revenue gate 和 cost gate：

w_{ij}^{r} = sigmoid (G_{ϕ}^{r} (i, j)), w_{ij}^{c} = sigmoid (G_{ϕ}^{c} (i, j)) .

论文写成 $G_{ϕ} (i, j)$ ，但从实现角度看，Bridge 至少要感知个体/treatment 相关的表示，否则无法动态控制每个 $i, j$ 上 OBS 的纠偏强度。论文在这里没有详述 Bridge 的输入特征，实现时需自行补足。

Bridge 用 gate 混合 Teacher 与 Target 生成 counterfactual pseudo-label：

r_{ij}^{cf} = \overset{r}{^}_{ij}^{pre} (ψ) \cdot w_{ij}^{r} + \overset{r}{^}_{ij} (θ) \cdot (1 - w_{ij}^{r}),

c_{ij}^{cf} = \overset{c}{^}_{ij}^{pre} (ψ) \cdot w_{ij}^{c} + \overset{c}{^}_{ij} (θ) \cdot (1 - w_{ij}^{c}) .

直观理解：

$w \approx 1$ ：更信 RCT Teacher，偏向低偏但高方差；
$w \approx 0$ ：更信当前 Target/self-training，偏向低方差但可能继承 OBS 偏差；
Bridge 所习得的是由 RCT decision quality 监督的 bias-variance 混合规则。

关键理解：Bridge 既不是简单的 propensity reweighting，也不是普通的 distillation。它在上层 RCT decision loss 的监督下学到的是“哪些 counterfactual 应当更信赖 RCT Teacher，哪些地方可以借助 OBS/Target 的低方差信号”。

5. 下层目标：OBS 上的 prediction loss 如何被 Bridge 参数化

对 OBS 样本 $i$ ，只有 factual treatment $t_{i}$ 下的 $(r_{i t_{i}}, c_{i t_{i}})$ 是实际观测到的。论文下层 loss 分两部分。

5.1 Factual loss

对 observed treatment 使用真实标签：

L_{fact} = E_{i, t_{i}} [(r_{i t_{i}} - \overset{r}{^}_{i t_{i}})^{2} + (c_{i t_{i}} - \overset{c}{^}_{i t_{i}})^{2}] .

5.2 Counterfactual pseudo-label loss

对未观测 treatment $j \neq = t_{i}$ ，使用 Bridge 生成的 pseudo-label：

L_{cf} = E_{i, j \neq = t_{i}} [(r_{ij}^{cf} - \overset{r}{^}_{ij})^{2} + (c_{ij}^{cf} - \overset{c}{^}_{ij})^{2}] .

合并得到下层 prediction loss：

L_{PL} (ϕ, θ; D_{OBS}) = L_{fact} + L_{cf} .

注意这里 $L_{PL}$ 显式依赖 $ϕ$ ，因为 counterfactual pseudo-label 由 Bridge 决定。上层只要调整 $ϕ$ ，就能改写 OBS 上的训练目标，从而间接影响 Target。

5.3 一个实现上最容易踩坑的 detach 问题

公式中 pseudo-label 包含当前 Target 输出 $\overset{r}{^}_{ij} (θ)$ 和 $\overset{c}{^}_{ij} (θ)$ ：

r_{ij}^{cf} = w_{ij}^{r} \overset{r}{^}_{ij}^{pre} + (1 - w_{ij}^{r}) \overset{r}{^}_{ij} (θ) .

如果实现时不 detach Target 在 pseudo-label 里的那一支，就会出现“模型追着自己跑”的梯度路径，loss 可能被抵消，或者出现意料之外的二阶依赖。论文正文未详细展开 detach 策略；从工程角度，至少需要明确：

pseudo-label 生成时 Teacher 固定；
pseudo-label 中 Target 的当前预测是否 detach；
upper assumed updates 与真实 lower updates 是否共享图；
Bridge gate 是否允许通过 pseudo-label 回传到 $ϕ$ 。

复现时，这里应作为最优先排查的环节。

6. 上层目标：RCT 上的无偏 decision loss estimator

真实 decision loss 如果完整 counterfactual 可见，可以写为：

L_{DL} (θ) = - M \cdot E_{i \in [N], j \in [M]} [z_{ij}^{*} (\overset{r}{^} (θ), \overset{c}{^} (θ)) \cdot r_{ij}] .

等价地，它是 policy 选择后的真实收益的负值。困难在于 $r_{ij}$ 不可全观测。

在 RCT 上，利用随机分配可得无偏估计：

L_{DL} (θ; D_{RCT}) = - E_{i, t_{i}} [\frac{N}{N _{t_{i}}} \cdot z_{i t_{i}}^{*} (\overset{r}{^} (θ), \overset{c}{^} (θ)) \cdot r_{i t_{i}}] .

其中 $N_{t}$ 是 RCT 中被分到 treatment $t$ 的样本数， $N / N_{t_{i}} = 1/ p_{t_{i}}$ 。如果实验不是均匀随机，实践中应该使用真实 logging probability $p (t_{i} ∣ x_{i})$ 或设计概率，而不是 mini-batch 里的 $N_{t}$ 。

预算约束也通过 RCT/IPW 估计：

E_{i, t_{i}} [\frac{N}{N _{t_{i}}} \cdot z_{i t_{i}}^{λ} (\overset{r}{^} (θ), \overset{c}{^} (θ)) \cdot c_{i t_{i}}] - \frac{B}{N} \leq ϵ .

这个估计器的含义非常具体：只有当 policy 选择的 treatment 恰好等于 RCT 随机分配的 treatment 时，样本的 observed outcome 才会被用来估计该 policy 的收益/成本。RCT 由此可以评价任意 policy，代价是估计方差较高。

7. Decision loss 不可微：PPL 与 PIFD

上层要更新 Bridge，需要上层 decision loss 对 Target 参数的梯度：

\nabla_{θ} L_{DL} (θ; D_{RCT}) .

但 $z^{*}$ 里有 $ar g max$ 和 indicator：

z_{i t_{i}}^{*} = 1 {t_{i} = ar g j \in [M] max [\overset{r}{^}_{ij} (θ) - λ^{*} \overset{c}{^}_{ij} (θ)]},

对 $θ$ 不可微。为此论文给出两种 primal surrogate：PPL 和 PIFD。

7.1 PPL：Primal Policy Learning Loss

PPL 用 softmax relaxation 替代 hard indicator：

z_{i t_{i}}^{'} (θ) = \frac{exp ( r ^ _{i t_{i}} ( θ ) - λ ^{*} c ^ _{i t_{i}} ( θ ) )}{\sum _{j \in [M]} exp ( r ^ _{ij} ( θ ) - λ ^{*} c ^ _{ij} ( θ ) )} .

更一般地带温度 $τ$ ：

z_{ij}^{d} = \frac{exp ( ( r ^ _{ij} - λ ^{*} c ^ _{ij} ) / τ )}{\sum _{k \in [M]} exp ( ( r ^ _{ik} - λ ^{*} c ^ _{ik} ) / τ )} .

于是：

L_{PPL} (θ; D_{RCT}) = - E_{i, t_{i}} [\frac{N}{N _{t_{i}}} \cdot z_{i t_{i}}^{'} (θ) \cdot r_{i t_{i}}] .

解释：最大化 policy 在 observed RCT treatment 上的概率，并用该 treatment 的真实 reward 加权。由于 RCT treatment 随机，这个 soft policy objective 是给定预算 $B$ 下 decision quality 的可微近似。

PPL 的优点：简单、稳定、可直接 autograd、和实际预算 $B$ 对应的 $λ^{*}$ 对齐。
PPL 的缺点：softmax relaxation 改变了原始离散优化 landscape；score scale、温度、 $λ^{*}$ 的稳定性会影响训练。

7.2 为什么 primal 比 dual 更贴近实际预算

DFCL 原有 dual loss 会在多个人为指定的 $λ$ 上求和，近似覆盖“多个预算水平”。Bi-DFCL 强调 primal loss：先用 binary search 根据当前预算 $B$ 求出 $λ^{*}$ ，再训练模型在这个预算下的 policy。

这对营销系统更实际，因为日常活动通常是：

given B \Rightarrow find allocation z .

而不是对所有可能预算同时平均优化。预算会随日变化，但候选集是有限的；因此论文后面又验证了多个 budget level 下的鲁棒性。

7.3 PIFD：更接近原始离散 decision loss 的有限差分

PIFD 试图估计：

\frac{\partial L _{DL}}{\partial z _{ij}^{'}},

然后冻结这个梯度，把 surrogate 写成：

L_{PIFD} (θ; D_{RCT}) = E_{i \in [N], j \in [M]} [\frac{\partial L _{DL}}{\partial z _{ij}^{'}} \cdot z_{ij}^{'} (\overset{r}{^} (θ), \overset{c}{^} (θ))] .

附录里的原始有限差分是：

\frac{\partial L _{DL} ( r , c , r ^ , c ^ )}{\partial r ^ _{ij}} \approx \frac{L _{DL} ( r , c , r ^ + e _{ij} h , c ^ ) - L _{DL} ( r , c , r ^ , c ^ )}{h} .

但逐元素扰动太慢，论文因此提出 $L_{PPL}$ -aware gradient estimator：先用 solver 得到 $λ^{*}$ 和当前分配，再根据当前最佳 action 与 treatment $t_{i}$ 的 score margin 估计最小扰动 $h^{z}$ 。核心 score 是：

a_{ij} = r_{ij} - λ^{*} c_{ij} .

若 RCT observed treatment 正好匹配 policy，即 $t_{i} = ar g max_{j} a_{ij}$ ，则把 $t_{i}$ 推离当前最优所需 margin 是：

h_{i t_{i}}^{z} = j \neq = t_{i} max a_{ij} - a_{i t_{i}} .

若不匹配，则设 $j^{*} = ar g max_{j} a_{ij}$ ，需要把 $t_{i}$ 推到超过当前最优：

h_{i t_{i}}^{z} = a_{i j^{*}} - a_{i t_{i}} .

然后用 $r_{i t_{i}} / (N p_{t_{i}})$ 除以 margin 得到近似梯度。这个设计的直观理解是：越接近决策边界的样本，微小预测改变越可能改变 OR 解，因此对 decision loss 的梯度影响越大。

PIFD 的优点：比 PPL 更贴近 hard optimization landscape。
PIFD 的缺点：实现复杂，margin 接近 0 时数值不稳；符号、detach、梯度冻结、budget solver 的一致性都容易错。

8. Bridge 的上层梯度：隐式微分 + CG

Bi-level 的核心梯度是：

\nabla_{ϕ} L_{DL} (θ^{*} (ϕ); D_{RCT}) = \nabla_{θ} L_{DL} (θ; D_{RCT}) ∣_{θ = θ^{*} (ϕ)} \cdot \frac{\partial θ ^{*} ( ϕ )}{\partial ϕ} .

前一项由 PPL/PIFD 解决。后一项是 lower optimum 对 Bridge 参数的 Jacobian。

8.1 下层一阶最优条件

若 $θ^{*} (ϕ)$ 是下层问题的局部最优，则：

\frac{\partial L _{PL} ( ϕ , θ ; D _{OBS} )}{\partial θ}_{θ = θ^{*} (ϕ)} = 0.

对 $ϕ$ 求导：

\frac{\partial ^{2} L _{PL}}{\partial θ ^{2}}_{θ = θ^{*} (ϕ)} \cdot \frac{\partial θ ^{*} ( ϕ )}{\partial ϕ} = - \frac{\partial ^{2} L _{PL}}{\partial ϕ \partial θ}_{θ = θ^{*} (ϕ)} .

令：

H_{θ θ} = \nabla_{θ θ}^{2} L_{PL}, H_{ϕθ} = \nabla_{ϕθ}^{2} L_{PL} .

则：

\frac{\partial θ ^{*} ( ϕ )}{\partial ϕ} = - H_{θ θ}^{- 1} H_{ϕθ} .

因此 upper gradient 可理解为：

\nabla_{ϕ} L_{upper} = - \nabla_{θ} L_{DL} \cdot H_{θ θ}^{- 1} H_{ϕθ} .

实际不显式求 Hessian 逆，而是解线性系统。

8.2 CG 与 Hessian-vector product

要解：

H_{θ θ} v = b,

其中 $b$ 与 $\nabla_{θ} L_{DL}$ 或混合二阶项相关。CG 只需要 Hessian-vector product：

H p = \nabla_{θ} (p^{⊤} \nabla_{θ} L_{PL}) .

这可以用 autograd 二次求导完成，不需要显式构造 $H$ 。论文默认：

k = 5, n_{cg} = 50,

其中 $k$ 是 assumed lower GD steps， $n_{cg}$ 是 CG 迭代次数。

8.3 为什么不用 explicit differentiation

显式微分假设：

θ^{*} (ϕ) \leftarrow θ - α_{θ} \nabla_{θ} L_{PL} (ϕ, θ; D_{OBS}) .

于是：

\frac{\partial θ ^{*} ( ϕ )}{\partial ϕ} = - α_{θ} \frac{\partial ^{2} L _{PL}}{\partial ϕ \partial θ} .

这只在“一步 GD 就能到达下层最优”的假设下成立，对现实而言过强。多步展开又会带来显存、路径依赖和 vanishing gradient 等问题。隐式微分的好处是只依赖最优性条件，无须保存整条优化轨迹。

9. 完整训练流程：Algorithm 1 的工程拆解

算法可以拆成两个循环：upper update 更新 Bridge，lower update 更新 Target。

9.1 输入

D_{RCT} = {(x_{i}, t_{i}, r_{i t_{i}}, c_{i t_{i}})}_{i = 1}^{N_{RCT}},

D_{OBS} = {(x_{i}, t_{i}, r_{i t_{i}}, c_{i t_{i}})}_{i = 1}^{N_{OBS}} .

模型包括：

F_{θ}, G_{ϕ}, F_{ψ} .

9.2 步骤

预训练 Teacher：在 RCT 上用普通 MSE/uplift loss 训练 $F_{ψ}$ ，然后固定。
初始化 Target 和 Bridge： $F_{θ}$ 可随机初始化或 warm start； $G_{ϕ}$ 随机初始化。
每个 OBS mini-batch 做 lower update：用当前 Bridge 生成 pseudo-label，更新真实 Target $θ$ 。
每 $k$ 个 OBS batch 做 upper update：
- copy 当前 Target 得到 $F_{θ}^{'}$ ；
- 对 copy 做 $k$ 步 lower assumed updates，得到近似 $θ^{*} (ϕ)$ ；
- 在 RCT batch 上用 PPL/PIFD 计算 decision gradient；
- 用 implicit differentiation + CG 求 $\partial θ^{*} / \partial ϕ$ ；
- 更新 Bridge $ϕ$ 。
输出 Target：最终只保留 $F_{θ}$ 。

9.3 伪代码理解版

pretrain Teacher F_psi on RCT, freeze psi
initialize Target F_theta, Bridge G_phi

for OBS mini-batch B_obs:
    if batch_index % k == 0:
        theta_copy = copy(theta)
        for step in 1..k:
            pseudo labels = Bridge(Teacher, Target copy, B_obs)
            theta_copy <- theta_copy - lr * grad_theta L_PL(phi, theta_copy; B_obs)

        compute upper loss on RCT using theta_copy:
            L_upper = L_PPL or L_PIFD
        solve implicit linear system by CG
        update phi

    pseudo labels = Bridge(Teacher, current Target, B_obs)
    theta <- theta - lr * grad_theta L_PL(phi, theta; B_obs)

最重要的工程结论：上线时没有二阶微分、没有 Bridge、没有 Teacher；复杂性都在离线训练期。

10. 框架图

Bi-DFCL 框架图：RCT decision loss 在上层训练 Bridge；OBS prediction loss 在下层训练 Target；Teacher 作为 RCT 预训练 anchor；最终上线只保留 Target。 — Figure 1：Bi-DFCL 框架。监督信号方向：RCT → Bridge → 改写 OBS → Target。

这张图的核心不是三个网络本身，而是监督信号的方向：

D_{RCT} L_{DL} G_{ϕ} pseudo-label rule D_{OBS} L_{PL} F_{θ} .

也就是 RCT 不和 OBS 平级拼接，而是控制 OBS 的使用方式。

11. 离线实验设计

11.1 数据集

Dataset	Features	Treatments	OBS train	RCT train	RCT val	RCT test	Metric
CRITEO-UPLIFT v2 Hybrid	12	2	3,498,294	698,980	1,397,959	4,193,878	AUCC
Marketing Data I	180	8	22,201,405	2,220,781	555,014	2,775,976	EOM
Marketing Data II	192	5	33,815,274	2,017,450	504,362	2,521,813	EOM

Criteo 的 hybrid 构造方式很重要：原始 Criteo 是 RCT，论文先用 5% 数据训练一个 two-stage model，再用该模型模拟 marketing policy，并挑出“模拟策略的 assignment 与真实随机 assignment 一致”的样本作为 OBS。这就构造出一个更像真实历史投放日志的 biased OBS。论文报告该构造 OBS 的 ROI 比随机数据高 82.43%，说明它确实不像随机实验，而更像经过策略选择后的日志。

11.2 指标

AUCC：用于 Criteo binary treatment，衡量 ROI ranking / cost curve quality。
EOM：Expected Outcome Metric，用 RCT/IPW 估计任意 budget allocation policy 的 per-capita revenue/cost。其计算本质与上层 decision estimator 一致：

\overset{r}{ˉ} (B) = \frac{1}{N} i \sum \frac{1}{p _{t_{i}}} r_{i t_{i}} 1 {t_{i} = π_{B} (x_{i})},

\overset{c}{ˉ} (B) = \frac{1}{N} i \sum \frac{1}{p _{t_{i}}} c_{i t_{i}} 1 {t_{i} = π_{B} (x_{i})} .

11.3 Baselines

论文的 baseline 分三组，设计比较合理：

RCT-only：TSM-SL, TSM-CF, DHCL, DFCL-DPL, DFCL-DIFD, DFCL-PPL, DFCL-PIFD。
OBS-only：TSM-SL, TSM-CF, IPS, DR-JT, CFR-WASS, CFR-MMD, DragonNet。
RCT+OBS：TSM-SL, CausE, KD-Label, KD-Feature, LTD-IPS, LTD-DR, AutoDebias。

这三组分别回答：只用无偏小样本够不够、只用有偏大样本会怎样、简单融合 OBS/RCT 是否足够。

12. 主结果：Bi-DFCL 是否真的赢

Table 2 报告 20 runs 的 mean ± std。

Method	CRITEO AUCC	CRITEO 提升	Marketing I EOM	Data I 提升	Marketing II EOM	Data II 提升
TSM-SL RCT	0.7143 ± 0.0299	—	1.0000 ± 0.0032	—	1.0000 ± 0.0020	—
最强 RCT-only	DFCL-DIFD 0.7441	+4.17%	DFCL-PIFD 1.0170	+1.70%	DFCL-PPL 1.0156	+1.56%
最强 OBS-only	DragonNet 0.7490	+4.86%	DR-JT 1.0102	+1.02%	DR-JT 1.0054	+0.54%
最强 RCT+OBS baseline	LTD-DR 0.7533	+5.46%	AutoDebias 1.0175	+1.75%	LTD-DR 1.0067	+0.67%
Bi-DFCL-PPL	0.7797 ± 0.0094	+9.16%	1.0277 ± 0.0024	+2.77%	1.0252 ± 0.0023	+2.52%
Bi-DFCL-PIFD	0.7812 ± 0.0084	+9.37%	1.0297 ± 0.0030	+2.97%	1.0249 ± 0.0018	+2.49%

结果解读：

Criteo 上 Bi-DFCL 比最强 RCT+OBS baseline 还高约 2.8 个 AUCC 点，说明它不是只靠多数据量；
Marketing I/II 上 2.5% 到 3% 的 EOM 提升，在成熟营销预算优化系统里不小；
PIFD 未必显著优于 PPL：Data II 上 PPL 的 1.0252 反而略高于 PIFD 的 1.0249。这说明更接近 hard-landscape 的复杂近似并非必然占优，PPL 反而可能是更稳的工程起点。

13. 消融：每个组件是否有贡献

论文逐步加入四个组件：Decision Loss、Bi-level、Counterfactual Labels、Implicit Differentiation。

Decision Loss	Bi-level	Counterfactual Labels	Implicit Diff	Data I EOM	Data I 提升	Data II EOM	Data II 提升
✗	✗	✗	✗	1.0000	—	1.0000	—
✓	✗	✗	✗	1.0167	+1.67%	1.0156	+1.56%
✓	✓	✗	✗	1.0240	+2.40%	1.0175	+1.75%
✓	✓	✓	✗	1.0248	+2.48%	1.0213	+2.13%
✓	✓	✓	✓	1.0277	+2.77%	1.0252	+2.52%

更细地看：

Decision Loss：从 1.0000 到 1.0167/1.0156，说明直接面向 downstream budget decision 是核心收益来源之一；
Bi-level：Data I 从 1.0167 到 1.0240，说明 RCT upper / OBS lower 这种组织方式有额外收益；
Counterfactual Labels：Data II 从 1.0175 到 1.0213，说明 Bridge 生成 pseudo-label 比只做 dynamic reweighting 更有效；
Implicit Differentiation：最终从 1.0248 到 1.0277、从 1.0213 到 1.0252，证明 ID 不是只为理论优雅，也能带来实测收益。

附录解释 Row 3 不是 counterfactual pseudo-label，而是一个 improved IPW：Bridge 直接输出动态 reweighting weight。Row 4 才开始使用 pseudo-label，但仍是 explicit differentiation。Row 5 是完整 ID。

14. 数据量分析：少量 RCT 能否校正大量 OBS

Marketing Data I 上的数据量实验：

Method	OBS	RCT	OBS:RCT	EOM	提升
TSM-SL	2,220,781	0	—	0.9869	-1.31%
TSM-SL	0	2,220,781	—	1.0000	—
TSM-SL	22,201,405	0	—	1.0067	+0.67%
Bi-DFCL-PPL	22,201,405	222,000	100.01:1	1.0190	+1.90%
Bi-DFCL-PPL	22,201,405	1,100,000	20.18:1	1.0258	+2.58%
Bi-DFCL-PPL	22,201,405	2,220,781	10.00:1	1.0277	+2.77%

这张表对业务最有启发：

小 OBS-only 反而低于 RCT baseline，说明有偏日志不能盲信；
大 OBS-only 有提升，但有限；
只用约 22.2M OBS + 222K RCT，就已经有 +1.90%，说明小流量随机实验可以作为方向校正器；
RCT 更多时继续提升，但边际收益变小。

这支持这样一种实践架构：保留持续的小流量 RCT 或探索桶作为上层评估器，而不必为了训练就投入大规模随机流量。

15. 预算鲁棒性

Figure 2：Marketing Data I 上多个 budget level 的 normalized EOM / incremental reward 曲线。 — Figure 2：Marketing Data I 不同预算下的 EOM 曲线。

Figure 3：Marketing Data II 上多个 budget level 的 normalized EOM / incremental reward 曲线。 — Figure 3：Marketing Data II 不同预算下的 EOM 曲线。

这两张图回答一个关键实践问题：PPL 使用特定预算 $B$ 对应的 $λ^{*}$ ，会不会只过拟合单个 budget？论文在多个 candidate budget level 下评估，Bi-DFCL 整体高于 TSM/DFCL/LTD 等方法。

对优惠券系统，这一点很重要：活动预算、类目预算、城市预算会每天变化。如果模型只在一个 $B$ 上好，就很难进生产。论文结果支持 Bi-DFCL 具有一定 budget robustness，但注意它仍然是在有限候选预算集上验证，不等于任意预算连续泛化都有保证。

16. 超参、模型结构与训练成本

16.1 模型结构

附录给出 MLP 结构：

Dataset	模型结构	输出解释
Criteo	64-32-32-4	2 个 revenue + 2 个 cost
Marketing I	128-64-32-16	8 个 revenue + 8 个 cost
Marketing II	128-64-32-10	5 个 revenue + 5 个 cost

Target、Bridge、Teacher 默认使用相同结构。训练使用 Adam；Criteo 100 epochs，两个工业数据集 500 epochs；默认 warm-start 20 epochs；两张 A100，总显存 232GB。

16.2 $k$ 与 $n_{cg}$ 敏感性

Marketing Data II：

$k$	$n_{cg}$	EOM	提升
1	10	1.0199	+1.99%
1	50	1.0217	+2.17%
5	10	1.0230	+2.30%
5	50	1.0252	+2.52%
5	100	1.0253	+2.53%
5	200	1.0249	+2.49%
10	50	1.0255	+2.55%
10	100	1.0252	+2.52%

解读：

$k = 1$ 时 ID 优势有限，因为一步 lower update 太不像下层最优；
$k = 5$ 已经接近稳定；
$n_{cg}$ 超过 50 后收益很小；
实践可以从 $k = 5, n_{cg} = 50$ 开始，优先调 learning rate、预算求解稳定性和 pseudo-label detach，而不是盲目加 CG 次数。

16.3 训练时间

Marketing Data II，500 epochs：

Method	Data	Time min	Relative
TSM-SL	RCT	2.505	0.06×
DFCL-PPL	RCT	3.163	0.07×
DFCL-PIFD	RCT	9.948	0.23×
TSM-SL	OBS	39.918	0.94×
TSM-SL	RCT+OBS	42.332	1.00×
KD-Label	RCT+OBS	67.358	1.59×
LTD-DR	RCT+OBS	492.559	11.63×
AutoDebias	RCT+OBS	397.886	9.40×
Bi-DFCL-PPL	RCT+OBS	265.263	6.26×
Bi-DFCL-PIFD	RCT+OBS	294.927	6.96×
Bi-DFCL-PPL w/o ID	RCT+OBS	345.132	8.15×
Bi-DFCL-PIFD w/o ID	RCT+OBS	427.515	10.10×

Bi-DFCL 训练明显更贵，但比 LTD-DR/AutoDebias 更快。更重要的是，线上 inference 与普通 Target 模型相同，因此训练成本主要是离线问题。

17. 线上 A/B

线上实验在美团外卖营销场景：

约 790K online shops；
四周；
每天随机分为五组：G-BPPL、G-BPIFD、G-PIFD、G-LTD、G-TSL；
treatment 为折扣 $t \in {0, 5, 10, 15, 20}$ ，含义是订单满门槛后 $t %$ off；
目标是在每日预算约束下最大化订单数。

Method	Week 1	Week 2	Week 3	Week 4	Overall improvement
TSM-SL	1.0000 ± 0.0022	1.0335 ± 0.0030	0.9217 ± 0.0017	0.9720 ± 0.0048	—
LTD-DR	1.0183 ± 0.0020	1.0378 ± 0.0039	0.9344 ± 0.0037	0.9723 ± 0.0070	+0.91%
DFCL-PIFD	1.0302 ± 0.0013	1.0436 ± 0.0020	0.9440 ± 0.0020	0.9799 ± 0.0018	+1.80%
Bi-DFCL-PPL	1.0428 ± 0.0019	1.0558 ± 0.0025	0.9582 ± 0.0019	0.9872 ± 0.0014	+3.00%
Bi-DFCL-PIFD	1.0470 ± 0.0021	1.0537 ± 0.0027	0.9581 ± 0.0024	0.9906 ± 0.0031	+3.22%

这是论文中最有说服力的证据：Bi-DFCL 不只是 offline EOM 好看，而是在真实预算约束折扣分配中超过 DFCL-PIFD 与 LTD-DR。

但也要注意限制：

只披露 normalized orders，没有绝对订单量；
没披露预算消耗、ROI、profit、补贴率、长期留存；
没披露各商家分层、城市/类目异质性；
没说明是否有 spillover/interference，例如商家之间竞争与用户迁移。

所以线上结果是强证据，但不是完整业务评估。

18. 与优惠券/权益个性化场景的对应

如果映射到电商优惠券/权益发放：

Paper 符号	电商含义
$i$	用户、用户-商品对、用户-店铺对、会员、商家
$j$	不发券/券面额/折扣档位/免邮/满减门槛组合
$r_{ij}$	GMV、订单、毛利、留存、复购、平台净收益
$c_{ij}$	券成本、补贴、商家承担成本、平台预算消耗
$B$	活动预算、日预算、人群预算、商家预算
RCT	小流量随机优惠实验或 exploration bucket
OBS	历史营销投放日志
Target	线上打分模型
Solver	预算分配器 / MCKP / Lagrangian ranking

最有价值的启发是：随机实验不一定要大到能单独训练强模型，它可以作为上层评估器，持续校正如何使用海量 OBS。

这比“要么全靠历史日志，要么全靠 A/B 实验”的二元思路更实用。

19. 实践路线：如果要做最小可行原型

直接复现完整 Bi-DFCL-PIFD + ID 风险较高。更稳的分阶段路线：

Stage 1：RCT-only DFCL-PPL baseline

需要：

multi-head Target，输出 $\overset{r}{^}_{ij}, \overset{c}{^}_{ij}$ ；
Lagrangian solver/binary search $λ^{*}$ ；
RCT/IPW EOM evaluator；
PPL loss。

目标：确认数据口径、预算约束、EOM 指标与 solver 正确。

Stage 2：OBS + Teacher + fixed Bridge sanity check

先在 RCT 上训练 Teacher，OBS 上训练 Target。Bridge 可以先做固定 gate：

w_{ij}^{r} = w_{ij}^{c} = ω,

测试 $ω \in {0, 0.25, 0.5, 0.75, 1}$ 。如果固定 gate 都不稳定，直接上 bi-level 没意义。

Stage 3：learned Bridge + explicit bi-level

每 $k$ 个 batch copy Target，做 $k$ 步 assumed lower update，用 RCT PPL 上层 loss 更新 Bridge。先不做 CG/ID，验证 Bridge 是否真的学到非平凡 gate。

需要监控：

E [w^{r}], E [w^{c}], Var (w^{r}), Var (w^{c}),

防止 gate collapse 到全 0 或全 1。

Stage 4：implicit differentiation + CG

实现 HVP、CG、damping、residual logging。需要监控的量：

∥ H v - b ∥_{2}, p^{⊤} H p, ∥ v ∥_{2},

避免非正定 Hessian 或数值爆炸。

Stage 5：PIFD 增强

PPL 稳定后再做 PIFD。PIFD 的首要任务并不是“按公式实现”，而是验证有限差分给出的梯度方向，是否与 brute-force small batch perturbation 一致。

20. 数据与实验前提

最小字段：

字段	说明
$x_{i}$	用户/商家/商品/上下文特征
$t_{i}$	实际 treatment
$r_{i t_{i}}$	revenue/order/gmv/profit outcome
$c_{i t_{i}}$	coupon/subsidy cost
data source flag	RCT or OBS
$p (t_{i} ∣ x_{i})$	RCT/OBS logging probability，至少 RCT 需要已知
attribution window	outcome/cost 的归因窗口
budget $B$	训练/评估预算或候选预算集合

关键假设/风险：

Consistency：观测到的 $r_{i t_{i}}$ 确实等于潜在结果 $r_{i} (t_{i})$ ；
Positivity/overlap：每个重要人群/treatment 在 RCT 中有足够覆盖；
No interference：个体之间无干扰。营销场景经常不完全成立；
RCT 与 OBS 可比：时间、人群、活动机制不能漂移太大；
成本口径稳定： $c$ 的归因要和预算消耗一致；
收益口径稳定： $r$ 不能只看订单而忽略毛利/退款/长期价值，除非业务目标就是订单。

21. 论文评价：优势、局限与可信度判断

优势

问题定义非常贴近工业营销：多 treatment、预算约束、revenue/cost 双输出、OBS/RCT 混合。
不是简单数据融合：RCT 在上层控制 OBS 的使用方式，而不是 concat。
实验完整度高：公开 hybrid、两个工业数据、主结果、消融、数据量、预算鲁棒性、训练时间、线上 A/B 都有。
上线复杂度可控：训练复杂，但 inference 只用 Target + solver。
PPL 这个简化版本很实用：比 PIFD 更容易复现，也在线上表现接近。

局限/不清楚处

Bridge 输入与结构细节不够展开：正文写 $G_{ϕ} (i, j)$ ，但工业实现需要明确输入表示。
pseudo-label 中 Target 分支 detach 不明确：这是复现成败关键。
RCT estimator 的方差控制不足： $N / N_{t}$ 或 $1/ p_{t}$ 在稀疏 treatment 下可能高方差。
online A/B 指标披露有限：缺预算消耗、ROI、profit、绝对量、分层结果。
无 interference 假设在商家/折扣场景可能不完全成立：折扣可能影响用户在商家间迁移。
工业数据不可公开：核心结论依赖两个美团数据和线上系统，外部复现难。

落地判断

这篇论文对优惠券/补贴个性化的参考价值较高。它的理论贡献不在于发明全新因果估计器，而在于把 RCT 作为决策质量校正器、把 OBS 作为大规模训练载体、把 预算优化器作为训练目标的一部分 结合起来。

如果目标是短期落地，优先复现 Bi-DFCL-PPL 的简化版；如果目标是形成长期方法壁垒，再研究 Bridge + implicit differentiation + PIFD。

22. 核心公式链条

整篇论文可以用这条链条串起来：

1. 下游优化器

z_{ij}^{*} = 1 {j = ar g j^{'} max (\overset{r}{^}_{i j^{'}} - λ^{*} \overset{c}{^}_{i j^{'}})} .

2. RCT 上的无偏决策估计

L_{DL} = - E_{i, t_{i}} [\frac{1}{p _{t_{i}}} z_{i t_{i}}^{*} r_{i t_{i}}] .

3. PPL 可微 surrogate

L_{PPL} = - E_{i, t_{i}} [\frac{1}{p _{t_{i}}} \frac{exp ( r ^ _{i t_{i}} - λ ^{*} c ^ _{i t_{i}} )}{\sum _{j} exp ( r ^ _{ij} - λ ^{*} c ^ _{ij} )} r_{i t_{i}}] .

4. Bridge counterfactual pseudo-label

r_{ij}^{cf} = w_{ij}^{r} \overset{r}{^}_{ij}^{pre} + (1 - w_{ij}^{r}) \overset{r}{^}_{ij}, c_{ij}^{cf} = w_{ij}^{c} \overset{c}{^}_{ij}^{pre} + (1 - w_{ij}^{c}) \overset{c}{^}_{ij} .

5. OBS 下层 prediction loss

L_{PL} = E_{i, t_{i}} [(r_{i t_{i}} - \overset{r}{^}_{i t_{i}})^{2} + (c_{i t_{i}} - \overset{c}{^}_{i t_{i}})^{2}] + E_{i, j \neq = t_{i}} [(r_{ij}^{cf} - \overset{r}{^}_{ij})^{2} + (c_{ij}^{cf} - \overset{c}{^}_{ij})^{2}] .

6. Bi-level objective

ϕ^{*} = ar g ϕ min L_{DL} (θ^{*} (ϕ); D_{RCT}), θ^{*} (ϕ) = ar g θ min L_{PL} (ϕ, θ; D_{OBS}) .

7. Implicit gradient

\nabla_{ϕ} L_{upper} = - \nabla_{θ} L_{DL} \cdot (\nabla_{θ θ}^{2} L_{PL})^{- 1} \cdot \nabla_{ϕθ}^{2} L_{PL} .

这条链条就是 Bi-DFCL 的核心：用 RCT 上可微/近似可微的 decision signal，通过 implicit bi-level gradient，控制 OBS 上的 counterfactual prediction learning。

1. 问题设定：营销不是单纯 uplift 排序，而是 MTBAP/MCKP#

1.1 符号表#

1.2 Primal allocation problem#

1.3 Lagrangian relaxation：预算影子价格 λ#

2. 为什么不能简单拼 OBS + RCT#

3. 从 DFCL 到 Bi-DFCL：它到底新增了什么#

4. 三个网络：Teacher、Bridge、Target#

4.1 Target Network Fθ​#

4.2 Teacher Network Fψ​#

4.3 Bridge Network Gϕ​#

5. 下层目标：OBS 上的 prediction loss 如何被 Bridge 参数化#

5.1 Factual loss#

5.2 Counterfactual pseudo-label loss#

5.3 一个实现上最容易踩坑的 detach 问题#

6. 上层目标：RCT 上的无偏 decision loss estimator#

7. Decision loss 不可微：PPL 与 PIFD#

7.1 PPL：Primal Policy Learning Loss#

7.2 为什么 primal 比 dual 更贴近实际预算#

7.3 PIFD：更接近原始离散 decision loss 的有限差分#

8. Bridge 的上层梯度：隐式微分 + CG#

8.1 下层一阶最优条件#

8.2 CG 与 Hessian-vector product#

8.3 为什么不用 explicit differentiation#

9. 完整训练流程：Algorithm 1 的工程拆解#

9.1 输入#

9.2 步骤#

9.3 伪代码理解版#

10. 框架图#

11. 离线实验设计#

11.1 数据集#

11.2 指标#

11.3 Baselines#

12. 主结果：Bi-DFCL 是否真的赢#

13. 消融：每个组件是否有贡献#

14. 数据量分析：少量 RCT 能否校正大量 OBS#

15. 预算鲁棒性#

16. 超参、模型结构与训练成本#

16.1 模型结构#

16.2 k 与 ncg​ 敏感性#

16.3 训练时间#

17. 线上 A/B#

18. 与优惠券/权益个性化场景的对应#

19. 实践路线：如果要做最小可行原型#

Stage 1：RCT-only DFCL-PPL baseline#

Stage 2：OBS + Teacher + fixed Bridge sanity check#

Stage 3：learned Bridge + explicit bi-level#

Stage 4：implicit differentiation + CG#

Stage 5：PIFD 增强#

20. 数据与实验前提#

21. 论文评价：优势、局限与可信度判断#

优势#

局限/不清楚处#

落地判断#

22. 核心公式链条#

1. 下游优化器#

2. RCT 上的无偏决策估计#

3. PPL 可微 surrogate#

4. Bridge counterfactual pseudo-label#

5. OBS 下层 prediction loss#

6. Bi-level objective#

7. Implicit gradient#