CS224N / 学习笔记

Binary Cross-Entropy

分类: 深度学习基础

Binary Cross-Entropy

定义

用于二分类任务的损失函数，衡量预测概率分布与真实标签之间的距离

数学形式

\mathcal{L}_{\text{BCE}} = -\frac{1}{N}\sum_{i=1}^{N}\left[y_i \log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)\right]

核心要点

$y_i \in \{0, 1\}$ 为真实标签， $\hat{y}_i \in (0, 1)$ 为预测概率

常与 Sigmoid 输出配合使用

当预测越接近真实标签时，损失越小

是 multi-label 分类的标准损失（每个类别独立二分类）

代表工作

TIDE: 用 BCE 训练 router MLP 的收敛判断

相关概念