DFCL：Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

Venue	KDD 2024 (SIGKDD) · 2024
Authors	Hao Zhou, Rongxiao Huang, Shaoming Li, Guibin Jiang, Jiaqi Zheng, Bing Cheng, Wei Lin
DOI	10.1145/3637528.3672353
arXiv	2407.13664v1
主线	预测模型服务预算优化器
数据前提	RCT / known propensity
实验重点	AUCC、EOM、A/B orders lift

DFCL 的关键处理有四点：

在 RCT 数据上，用按 treatment 样本量校正的 factual loss 代替不可观测的全量 counterfactual MSE；
把预算约束的 primal MCKP 转成 Lagrangian dual，避免每个预算都反复调用大型 0-1 优化器；
用 policy learning loss、maximum entropy regularized loss 或 improved finite-difference 给 decision loss 提供可训练梯度；
训练目标最终是 $L_{D F C L} = α L_{P L} + L_{D L}$ ，用 $L_{P L}$ 保住预测基本面，用 $L_{D L}$ 让模型关注预算边界附近真正影响 allocation 的误差。

DFCL 方法流程：features → 预测模型 → MCKP/Lagrangian solver → 最优分配 z*。 — DFCL 训练闭环：预测模型与预算优化器在训练阶段端到端对齐。

1. 论文定位：预测准确率和分配收益之间的错位

营销预算分配通常拆成两阶段：第一阶段用机器学习模型预测不同 treatment 下的 revenue / cost / uplift，第二阶段把预测值交给运筹优化器，在预算约束下求最优分配。这个流程的核心问题是目标不一致：模型训练时优化 MSE、Logloss 或 uplift ranking；业务上线时关心的是预算约束下的总 orders、GMV、revenue 或 ROI。

在 MCKP 中，预测误差对业务收益的影响高度不均匀。一个不会改变 $z^{*}$ 的误差几乎不影响决策；而发生在预算边界或 treatment choice 边界附近的小误差，则可能让优化器选错折扣档位，造成明显的收益损失。DFCL 的方法定位就是把这种“决策敏感性”纳入训练。

与普通 DFL 相比，营销场景多了三个困难：

难点	普通 DFL 常见假设	营销 DFCL 的处理
预算不确定	约束或 feasible set 固定	用多预算/多 $λ$ 学习不同预算下的策略
反事实不可观测	可以直接评价完整真实参数下的决策	依赖 RCT，用 inverse treatment count / propensity 构造无偏估计
优化器调用昂贵	下游 solver 可以反复调用	利用 Lagrangian dual 分解，或用 IFD 增量更新加速

2. 问题设定：Multi-Treatment Budget Allocation Problem

论文把营销问题定义为 Multi-Treatment Budget Allocation Problem, MTBAP。有 $N$ 个对象、 $M$ 个 treatment。对象可以是用户、商家或商品；treatment 可以是折扣、券面额、补贴档位或 no treatment。

符号	含义
$i \in [N]$	对象索引
$j \in [M]$	treatment / action 索引
$x_{i}$	对象特征
$t_{i}$	RCT 中实际分配给对象 $i$ 的 treatment
$r_{ij}$	对象 $i$ 在 treatment $j$ 下的潜在 revenue / orders
$c_{ij}$	对象 $i$ 在 treatment $j$ 下的潜在 cost
$z_{ij} \in {0, 1}$	是否给 $i$ 分配 treatment $j$
$B$	总预算
$\overset{r}{^}_{ij}, \overset{c}{^}_{ij}$	模型预测的 revenue / cost
$λ$	Lagrange multiplier，预算影子价格

MTBAP 的 primal 形式为：

z max s.t. F (z, B) = i \sum j \sum z_{ij} r_{ij} i \sum j \sum z_{ij} c_{ij} \leq B, j \sum z_{ij} = 1, \forall i, z_{ij} \in {0, 1}, \forall i, j .

如果 $r, c$ 已知，这是 multi-choice knapsack problem。营销系统中 $r, c$ 不可直接观测，线上只能输入模型预测 $\overset{r}{^}, \overset{c}{^}$ ，求：

z^{*} (B, \overset{r}{^}, \overset{c}{^}) = ar g z max F (z, B, \overset{r}{^}, \overset{c}{^}) .

DFCL 的训练目标必须贴合这个 $z^{*}$ ，而不是只盯着 $ha t r, ha t c$ 的逐点误差。

3. 反事实与 RCT：为什么 loss 要按 treatment count 校正

潜在结果框架下，每个对象只观测到 factual outcome：

(x_{i}, t_{i}, r_{i t_{i}}, c_{i t_{i}}),

未分配 treatment 的 $r_{ij}, c_{ij}$ 都是 counterfactual。若完整 potential outcome surface 可观测，直接 MSE 为：

L_{M S E} = \frac{1}{N M} i \sum j \sum [(r_{ij} - \overset{r}{^}_{ij})^{2} + (c_{ij} - \overset{c}{^}_{ij})^{2}] .

但真实训练集只能观测 $t_{i}$ 对应项。DFCL 在 RCT 条件下使用：

L_{P L} = \frac{1}{M} i \sum \frac{1}{N _{t_{i}}} [(r_{i t_{i}} - \overset{r}{^}_{i t_{i}})^{2} + (c_{i t_{i}} - \overset{c}{^}_{i t_{i}})^{2}] .

其中 $N_{t_{i}}$ 是 treatment $t_{i}$ 的样本数。Theorem 1 说明，在 randomized assignment 下， $L_{P L}$ 与完整 $L_{M S E}$ 在期望意义上等价。

4. Decision Loss：用真实收益评价预测诱导出的策略

给定 $\overset{r}{^}, \overset{c}{^}$ 后，优化器产生 $z^{*} (B, \overset{r}{^}, \overset{c}{^})$ 。如果完整真实 $r$ 可知，预算 $B$ 下的 decision loss 可写成：

L_{D L} (B, r, c, \overset{r}{^}, \overset{c}{^}) = - i \sum j \sum r_{ij} z_{ij}^{*} (B, \overset{r}{^}, \overset{c}{^}) .

负号表示最大化 revenue 等价于最小化 loss。由于预算在现实中波动，论文把多预算下的目标合并：

L_{D L} (r, c, \overset{r}{^}, \overset{c}{^}) = \int_{0}^{\infty} L_{D L} (B, r, c, \overset{r}{^}, \overset{c}{^}) d B,

实现时可以用离散预算集合替代积分：

L_{D L} = B \sum L_{D L} (B) .

最终训练目标为：

L_{D F C L} = α L_{P L} + L_{D L} .

$α$ 控制 prediction loss 与 decision loss 的权衡。 $α$ 太小会让模型过度围绕策略边界优化，可能牺牲基础泛化； $α$ 太大则退化回普通 two-stage 预测模型。

5. Lagrangian dual：把预算问题改写成每个对象的打分选择

primal MCKP 难以频繁求解，DFCL 使用 Lagrangian relaxation。对预算约束引入 $λ \geq 0$ ：

H (z, λ, B, r, c) = λ B + i \sum j \sum (r_{ij} - λ c_{ij}) z_{ij} .

给定 $λ$ 后，对象之间解耦，每个对象只需要选择：

z_{ij}^{d} (λ, r, c) = 1 {j = ar g k max (r_{ik} - λ c_{ik})} .

$λ$ 可理解为预算影子价格。预算越紧， $λ$ 越大，cost 惩罚越强；预算越宽， $λ$ 越小，模型更愿意选择高成本高收益 treatment。

Theorem 2 的作用是建立 primal 与 dual 的关系：在大规模营销中，单个对象最大收益 $max_{ij} r_{ij}$ 相对总体最优值 $F (z^{*}, B, r, c)$ 很小，因此 Lagrangian/greedy 近似的比例接近 1：

ρ \geq 1 - \frac{max _{ij} r _{ij}}{F ( z ^{*} , B , r , c )} \approx 1.

dual decision loss 也因此可以作为训练目标的合理替代。

6. 三种梯度路径：PLL、MER、IFD

6.1 Policy Learning Loss, PLL

dual 下的 hard decision 是 indicator，不可微：

z_{ij}^{d} (λ, \overset{r}{^}, \overset{c}{^}) = 1 {j = ar g k max (\overset{r}{^}_{ik} - λ \overset{c}{^}_{ik})} .

PLL 用 softmax 平滑这个选择：

p_{ij} (λ, \overset{r}{^}, \overset{c}{^}) = \frac{exp ( r ^ _{ij} - λ c ^ _{ij} )}{\sum _{k} exp ( r ^ _{ik} - λ c ^ _{ik} )} .

若完整 $r, c$ 可知，policy learning loss 等价于最大化 soft policy 的期望 reward。由于训练集中只有 factual outcome，DFCL 使用 RCT 校正后的 surrogate：

L_{P LL} = - λ \sum i \sum \frac{N}{N _{t_{i}}} (r_{i t_{i}} - λ c_{i t_{i}}) \frac{exp ( r ^ _{i t_{i}} - λ c ^ _{i t_{i}} )}{\sum _{j} exp ( r ^ _{ij} - λ c ^ _{ij} )} .

直观上，若某个 factual treatment 在真实 $r - λ c$ 下净收益较高，模型应提高它在 $\overset{r}{^} - λ \overset{c}{^}$ softmax 下的概率。

6.2 Maximum Entropy Regularized Loss, MER

MER 从优化问题本身加入 entropy regularizer，并放松 $z \in {0, 1}$ 到 $z \in [0, 1]$ ：

z max i \sum j \sum (\overset{r}{^}_{ij} - λ \overset{c}{^}_{ij}) z_{ij} - τ i \sum j \sum z_{ij} ln z_{ij}, j \sum z_{ij} = 1.

解具有 temperature softmax 形式：

z_{ij}^{d} = \frac{exp [( r ^ _{ij} - λ c ^ _{ij} ) / τ ]}{\sum _{k} exp [( r ^ _{ik} - λ c ^ _{ik} ) / τ ]} .

$τ$ 控制平滑程度。 $τ$ 大时选择更软，梯度更平滑； $τ$ 小时接近 hard argmax，但训练更敏感。

6.3 Improved Finite-Difference, IFD

IFD 走另一条路：用 EOM 估计策略收益，再用 finite difference 估计 decision loss 对 $\overset{r}{^}, \overset{c}{^}$ 的梯度。普通黑盒 finite difference 需要逐维扰动并反复调用 primal solver，百万级样本下成本很高。

改进之处在于利用 dual decomposition：给定 $λ$ 时，每个对象独立决策。对每个样本，先算出使 treatment choice 翻转的最小扰动，再只修正扰动后真正改变的部分，无需完整重算所有策略收益。因此 IFD 保留了黑盒估计的直接性，同时把“频繁求解 primal MCKP”换成了更可控的增量更新。

7. 离线实验：预测指标不等于决策质量

7.1 数据集

数据集	类型	规模与字段	用途
CRITEO-UPLIFT v2	public binary treatment RCT	13.9M samples，12 features，treatment indicator，visit/conversion labels	用 AUCC 评估二元 treatment 下的决策质量
Meituan Marketing data	美团折扣 RCT	2.8M samples，107 features，5 个折扣 treatment： $T \in {0, 5, 10, 15, 20}$ ，daily cost/orders	用 EOM 评估多 treatment 预算分配

7.2 Baselines

方法	含义
TSM-SL	two-stage + S-Learner，先预测 response，再求 MCKP
TSM-CF	two-stage + Causal Forest
DPM	Direct Policy Matrix / decision factor 方向的 surrogate 方法
CN	带 treatment-outcome monotonic constraint 的 constrained network
CN+DFCL-PL	在 CN 上加入 DFCL policy learning loss
DFCL-PL	使用 policy learning loss 的 DFCL
DFCL-MER	使用 maximum entropy regularized loss 的 DFCL
DFCL-IFD	使用 improved finite difference 的 DFCL

7.3 原始实验表与结论

Table 1：common metrics。 two-stage 方法在普通预测指标上不差，甚至可能更好；这正好说明预测指标和决策指标不一致。

Table 1 common metrics 对比图：DFCL 在普通预测指标上未必占优。

Table 2：CRITEO AUCC。 DFCL-IFD 达到 $0.7859 \pm 0.0021$ ，相对 TSM-SL 提升 $+ 3.94%$ ；DFCL-PL / MER 与 DPM 接近或略低于 IFD。

Figure 1 / Table 3：Marketing data EOM。 在美团多 treatment 数据上，DFCL 系列在不同 per-capita budget 下整体优于 baseline。Table 3 的 improvement 行显示：CN 为 $0.16%$ ，CN+DFCL-PL 为 $1.26%$ ，DFCL-PL 为 $1.98%$ ，DFCL-MER 为 $2.06%$ ，DFCL-IFD 为 $2.85%$ 。

Figure 1 离线 EOM 曲线：DFCL 在多预算上整体优于 baseline。

8. Ablation：α 与 λ 决定训练落点

论文做了两个关键敏感性实验。

8.1 Prediction loss weight α

$α$ 增大时，prediction loss 在训练目标中权重更高。实验显示，中等范围内加入 $L_{P L}$ 不会损害决策表现，还能让泛化更稳定；但 $α$ 一旦过大，训练就退回普通 two-stage 方法，decision loss 的作用被一并淹没。

工程含义： $α$ 不是装饰性超参，应按离线 EOM / AUCC 或在线小流量指标调参，而不是只看 validation MSE。

8.2 Lagrange multiplier λ

不同 $λ$ 对应不同预算区间。小 $λ$ 更偏高预算策略，大 $λ$ 更偏低预算策略。论文比较了 ${0.1}$ 、 ${0.1, 0.5}$ 、 ${0.1, 0.5, 1.0}$ ，发现多 $λ$ 训练能更好平衡不同 budget 下的表现。

工程含义：如果线上预算每天波动，单个 $λ$ 容易过拟合某个预算区间；更稳妥的做法是从历史预算分布中采样多个 $λ$ 或预算点进行训练。

9. 在线 A/B：310K 商家、四周折扣实验

线上实验部署在美团折扣场景：310K online shops，每天随机分成 G-DFCL、G-DPM、G-TSM 三组。treatment 为 ${0, 5, 10, 15, 20}$ 折扣档位，目标是在预算约束下最大化 orders。

部署流程：

每天 campaign 开始前，DFCL 模型预测各商家不同折扣下的 outcome / cost；
离线资源分配优化器根据预算与业务约束分配折扣；
用户访问商家并看到折扣，产生 orders / cost；
历史随机数据与优化器继续用于下一轮模型训练。

Appendix Table 4 给出四周 normalized orders 与置信区间。DFCL 平均相对 TSM-SL 提升 $2.17%$ ，相对 DPM 提升约 $0.85%$ 。

线上结果比离线更重要：它说明 decision-focused training 的收益不只是 counterfactual offline metric 上的曲线改善，也能转化为真实折扣系统中的 orders lift。

10. 复现重点

10.1 必要数据字段

字段	说明
stable unit id	用户/商家/商品等对象 ID，需能跨天对齐特征与 outcome
treatment id	折扣/券/补贴档位，必须包含 no-treatment 或低成本档位
known assignment probability	RCT 或 exploration policy 的 $p_{t}$ / treatment count
factual revenue / orders	与业务目标一致的 outcome
factual cost	与预算口径一致的成本，避免券发放成本、核销成本、补贴成本混用
context features	决策前可用特征，不能泄露 treatment 后变量
budget and constraints	每日预算、品类/商家/人群约束、风控规则

10.2 训练与评估顺序

用 RCT 数据训练 two-stage baseline，确认 $L_{P L}$ 、EOM、AUCC 或业务 offline evaluator 可跑通；
加入 DFCL-PL 或 DFCL-MER，先用小规模样本验证梯度、温度和 $λ$ 设置；
对大规模多 treatment 场景，评估 IFD 是否带来显著训练速度和策略收益提升；
用多个预算点或多个 $λ$ 做 validation，避免只优化单一预算；
离线通过后进入小流量 A/B，重点看 orders / GMV / incremental profit / cost overrun / 用户体验指标。

10.3 常见失败模式

风险	表现	排查方向
RCT 不干净	offline EOM 与 online A/B 不一致	检查分配概率异常、实验污染、干预跨组影响
cost 口径错	budget 满足但财务成本异常	券面额、核销成本、补贴结算周期口径是否统一
$λ$ 覆盖不足	某些预算区间表现差	从历史预算分布采样多 $λ$
$α$ 过大	指标接近 two-stage	降低 prediction loss 权重，观察 EOM/AUCC
$α$ 过小	预测面不稳定，线上策略抖动	加强 $L_{P L}$ 或加 monotonic / smoothness 约束
interference	折扣影响竞争商家或用户跨店选择	cluster randomization、市场级实验、延迟反馈建模

11. 与 Bi-DFCL 的关系

DFCL 是这一系列的基础版本：用 RCT 训练、用 decision loss 对齐 ML 与 OR、重点解决 prediction-decision misalignment。Bi-DFCL 进一步处理 DFCL 的两个瓶颈：

维度	DFCL	Bi-DFCL
训练数据	主要依赖 RCT	RCT + 大量 OBS
核心矛盾	预测 loss 与决策收益不一致	RCT 低偏高方差，OBS 高偏低方差
训练结构	单层 $L_{P L} + L_{D L}$	上层 RCT decision loss 训练 Bridge，下层 OBS prediction loss 训练 Target
预算目标	多预算 / 多 $λ$ dual loss	更强调给定预算下的 primal decision loss
上线模型	causal model + optimizer	Target + optimizer，Bridge 训练期使用

因此，DFCL 更像“让反事实预测服务于分配决策”的第一步；Bi-DFCL 是“如何用小规模 RCT 指导大规模 OBS 训练”的第二步。

12. 落地判断

DFCL 的价值在于把 coupon / discount / subsidy 个性化从“预测任务”重新定义为“预测驱动的预算分配任务”。它特别适合以下条件同时成立的场景：

treatment 档位有限且明确；
每个对象只能选一个 treatment；
总预算或 ROI 约束是真正的上线约束；
存在 RCT / randomized exploration 数据；
可以构建可信的 EOM / AUCC / policy evaluator；
线上允许按优化器输出做小流量 A/B。

不适合直接套用的场景也很清楚：历史日志存在严重选择偏差且缺乏 propensity，treatment 之间存在强干扰，成本或 outcome 延迟较长且归因不清，或上线决策包含大量难以形式化的业务规则。此时 DFCL 的 decision loss 可能优化的是有偏 evaluator，而不是实际业务收益。

总结：DFCL 的贡献不是提出一个更复杂的 uplift 网络，而是给出了一个从 RCT counterfactual evaluation 到 budget-constrained optimizer 的训练闭环。把“模型指标好不好”推进到“模型输出能不能让预算优化器选得更好”。

1. 论文定位：预测准确率和分配收益之间的错位#

2. 问题设定：Multi-Treatment Budget Allocation Problem#

3. 反事实与 RCT：为什么 loss 要按 treatment count 校正#

4. Decision Loss：用真实收益评价预测诱导出的策略#

5. Lagrangian dual：把预算问题改写成每个对象的打分选择#

6. 三种梯度路径：PLL、MER、IFD#

6.1 Policy Learning Loss, PLL#

6.2 Maximum Entropy Regularized Loss, MER#

6.3 Improved Finite-Difference, IFD#

7. 离线实验：预测指标不等于决策质量#

7.1 数据集#

7.2 Baselines#

7.3 原始实验表与结论#

8. Ablation：α 与 λ 决定训练落点#

8.1 Prediction loss weight α#

8.2 Lagrange multiplier λ#

9. 在线 A/B：310K 商家、四周折扣实验#

10. 复现重点#

10.1 必要数据字段#

10.2 训练与评估顺序#

10.3 常见失败模式#

11. 与 Bi-DFCL 的关系#

12. 落地判断#

1. 论文定位：预测准确率和分配收益之间的错位

2. 问题设定：Multi-Treatment Budget Allocation Problem

3. 反事实与 RCT：为什么 loss 要按 treatment count 校正

4. Decision Loss：用真实收益评价预测诱导出的策略

5. Lagrangian dual：把预算问题改写成每个对象的打分选择

6. 三种梯度路径：PLL、MER、IFD

6.1 Policy Learning Loss, PLL

6.2 Maximum Entropy Regularized Loss, MER

6.3 Improved Finite-Difference, IFD

7. 离线实验：预测指标不等于决策质量

7.1 数据集

7.2 Baselines

7.3 原始实验表与结论

8. Ablation：α 与 λ 决定训练落点

8.1 Prediction loss weight α

8.2 Lagrange multiplier λ

9. 在线 A/B：310K 商家、四周折扣实验

10. 复现重点

10.1 必要数据字段

10.2 训练与评估顺序

10.3 常见失败模式

11. 与 Bi-DFCL 的关系

12. 落地判断