损失函数

问题

深度学习中常用的损失函数有哪些？各自适用什么场景？交叉熵损失的数学原理是什么？

答案

损失函数衡量模型预测与真实标签之间的差距，是训练的"指南针"——梯度下降的方向由损失函数决定。

一、损失函数全景

二、分类损失

交叉熵损失（Cross-Entropy Loss）

最常用的分类损失。对于 $C$ 类分类：

\mathcal{L} = -\sum_{i=1}^{C} y_i \log(\hat{y}_i)

其中 $y$ 是 one-hot 标签， $\hat{y}$ 是 Softmax 输出的概率。实际计算中只有正确类别的项非零：

\mathcal{L} = -\log(\hat{y}_{\text{correct}})

直觉理解

交叉熵的作用：正确类的概率越高，损失越低。如果模型给正确类 0.9 的概率， $-\log(0.9) = 0.105$ ；如果只有 0.1， $-\log(0.1) = 2.302$ 。

二元交叉熵（Binary Cross-Entropy）

用于二分类或多标签分类（每个标签独立预测概率）：

\mathcal{L} = -[y \log(\hat{y}) + (1-y) \log(1-\hat{y})]

Focal Loss

为严重类别不平衡设计（如目标检测中前景/背景比例 1:1000）：

\mathcal{L}_{FL} = -\alpha_t (1-\hat{y}_t)^{\gamma} \log(\hat{y}_t)

$(1-\hat{y}_t)^{\gamma}$ ：当模型预测很有信心（ $\hat{y}$ 接近 1）时，权重趋近 0——自动降低简单样本的权重
$\gamma = 2$ 是常用值

Label Smoothing

将硬标签 [0, 0, 1, 0] 替换为软标签 [0.033, 0.033, 0.9, 0.033]（假设 $\epsilon = 0.1$ ）：

y_{\text{smooth}} = (1 - \epsilon) \cdot y_{\text{hard}} + \frac{\epsilon}{C}

好处：防止模型过度自信，提升泛化能力。

三、回归损失

损失函数	公式	对异常值敏感度	可导性
MSE	$\frac{1}{n}\sum(y - \hat{y})^2$	高（平方放大误差）	处处可导
MAE	$\frac{1}{n}\sum\lvert y - \hat{y}\rvert$	低（线性）	在 0 点不可导
Huber	小误差用 MSE，大误差用 MAE	中等	处处可导

Huber Loss

\mathcal{L}_{\delta}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta|y - \hat{y}| - \frac{1}{2}\delta^2 & \text{otherwise} \end{cases}

兼顾 MSE 在小误差时的梯度平滑性和 MAE 对异常值的鲁棒性。

四、对比学习损失

InfoNCE / NT-Xent

对比学习的核心损失——拉近正样本对，推开负样本对：

\mathcal{L} = -\log \frac{\exp(\text{sim}(z_i, z_j^+) / \tau)}{\sum_{k=1}^{2N} \exp(\text{sim}(z_i, z_k) / \tau)}

$z_i, z_j^+$ ：正样本对（同一数据的两种增强）
$\tau$ ：温度参数（越小越尖锐）
应用：SimCLR、CLIP、Embedding 模型训练

三元组损失（Triplet Loss）

\mathcal{L} = \max(0, d(a, p) - d(a, n) + \text{margin})

$a$ ：锚点样本， $p$ ：正样本（同类）， $n$ ：负样本（不同类）
要求：锚-正距离 < 锚-负距离，有一定 margin

五、LLM 相关损失

负对数似然（NLL / Language Modeling Loss）

LLM 预训练的标准损失——预测下一个 Token 的交叉熵：

\mathcal{L} = -\frac{1}{T}\sum_{t=1}^{T}\log P(x_t | x_{<t})

这就是困惑度（Perplexity）的对数形式： $\text{PPL} = e^{\mathcal{L}}$ 。

KL 散度

衡量两个概率分布的差异，用于知识蒸馏：

D_{KL}(P \| Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}

$P$ ：教师模型的输出分布
$Q$ ：学生模型的输出分布

RLHF 中的 PPO 目标

\mathcal{L}_{PPO} = \mathbb{E}\left[\min\left(r(\theta)\hat{A}, \text{clip}(r(\theta), 1-\epsilon, 1+\epsilon)\hat{A}\right)\right] - \beta \cdot D_{KL}(\pi_\theta \| \pi_{\text{ref}})

第一项最大化奖励，第二项约束策略不偏离参考模型太远。

常见面试问题

Q1: 为什么分类用交叉熵而不用 MSE？

答案：两个原因：

梯度更好：MSE 对 Softmax 的梯度包含 $\hat{y}(1-\hat{y})$ 项，当预测值接近 0 或 1 时梯度趋零（学得慢）。交叉熵对 Softmax 的梯度就是 $\hat{y} - y$ ，简单且不饱和。
概率匹配：交叉熵源于最大似然估计，是概率模型中理论上最优的损失函数。

Q2: Focal Loss 解决了什么问题？

答案：解决类别极度不平衡的问题。在目标检测中，绝大多数是"背景"（负样本），如果用标准交叉熵，模型倾向于都预测成背景也能获得很低的损失。Focal Loss 通过 $(1-\hat{y})^\gamma$ 自动给简单样本低权重、难样本高权重，让模型聚焦于难分类的样本。

Q3: 温度参数 $\tau$ 在对比学习中起什么作用？

答案：

$\tau$ 小（如 0.05）：Softmax 更尖锐，模型更关注难负样本，学习更精细的区分
$\tau$ 大（如 1.0）：Softmax 更平滑，负样本权重更均匀，训练更稳定但区分度低
实践中 $\tau = 0.07$ 是 CLIP 的默认值，通常需要搜索最优值

Q4: 知识蒸馏中为什么用 KL 散度而不是交叉熵？

答案：实际上蒸馏中两者效果非常接近。交叉熵 $H(P, Q) = H(P) + D_{KL}(P \| Q)$ ，当教师分布 $P$ 固定时，优化 $H(P, Q)$ 和优化 $D_{KL}(P \| Q)$ 等价。蒸馏中还会引入温度 $T$ ——用高温 Softmax 使教师输出更平滑，传递更多"暗知识"（dark knowledge）。

问题​

答案​

一、损失函数全景​

二、分类损失​

交叉熵损失（Cross-Entropy Loss）​

二元交叉熵（Binary Cross-Entropy）​

Focal Loss​

Label Smoothing​

三、回归损失​

四、对比学习损失​

InfoNCE / NT-Xent​

三元组损失（Triplet Loss）​

五、LLM 相关损失​

负对数似然（NLL / Language Modeling Loss）​

KL 散度​

RLHF 中的 PPO 目标​

常见面试问题​

Q1: 为什么分类用交叉熵而不用 MSE？​

Q2: Focal Loss 解决了什么问题？​

Q3: 温度参数 τ\tauτ 在对比学习中起什么作用？​

Q4: 知识蒸馏中为什么用 KL 散度而不是交叉熵？​

相关链接​

问题

答案