用于多分类的focal-loss

原理

$focal-loss$ 是由交叉熵损失函数改进得来的。对于样本i，类别c而言，多分类的交叉熵公式为： $CE(i,c)=-{y_ic*log(p_ic)}$

其中 $p_ic$ 指的是样本i属于类别c的概率；当样本 $i$ 的真实类别为 $c$ 时 $y_ic=1$ , 否则 $y_ic=0$ 。

在此基础上：

则对于样本 $i$，类别 $c$ 而言， $focal-loss$ 的形式为： $FL(i,c)=-\alpha _c*(1-y_ic * p_ic)^\gamma*log(y_ic * p_ic)$

为什么要这样设置，可以这样理解：

(1)通过引入权重，我们可以让数量较少的一类样本拥有更高的权重，让这部分样本的 $loss$ 占据更加重要的地位，从而让模型给予这些数量较少的样本更多的关注。

(2)调节因子 $(1-p)^\gamma$ 实际上衡量了“预测值”和“真实值”之间的距离。如果 $p$ 趋近于1，表明该样本的预测值和真实值十分接近，是容易学习的样本，那么就在其 $loss$ 上乘以一个调节因子 $(1-p)^\gamma$ 使其变得更小，让模型减少对易分样本的关注。

$input:(N,C,H,W)-$ .permute(0,2,3,1) $->(N,H,W,C)-$ .flatten(0,2)- $>(NHW,C)$
$target:(N,H,W)-$ one_hot(dim=C) $->(N,H,W,C)-$ .permute(0,2)- $>(NHW,C)$