论文解读(CosFace)《CosFace: Large Margin Cosine Loss for Deep Face Recognition》

科技资讯 投稿 5300 0 评论

论文解读(CosFace)《CosFace: Large Margin Cosine Loss for Deep Face Recognition》

论文信息

论文作者:H. Wang, Yitong Wang, Zheng Zhou, Xing Ji, Zhifeng Li, Dihong Gong, Jin Zhou, Wei Liu
论文来源:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition
论文地址:download 
论文代码:download
引用次数:1594

1 介绍

2 方法

2.1 引入

$\text{Softmax}$ 损失函数【指交叉熵损失函数】:

其中,

Note:$\theta_{j}$ 代表了 权重向量 $W_{j}$ 和 $x$ 之间的夹角;

NSL 损失:【 固定权重向量 $W$ 的模长 $\|W\|=s$ 和特征向量 $x$ 的模长 $\|x\|=s$】

  $L_{n s}=\frac{1}{N} \sum_{i}-\log \frac{e^{s \cos \left(\theta_{y_{i}, i}\right}}{\sum_{j} e^{s \cos \left(\theta_{j, i}\right}}  \quad\quad(3$

例如,考虑二分类的情况,设 $\theta_{i}$ 表示特征向量与类 $C_{i}$($i = 1,2$)权重向量之间的夹角。NSL 强制 $C_{1}$ 的 $\cos \left(\theta_{1}\right>\cos \left(\theta_{2}\right$,$C_{2}$ 也是如此,因此来自不同类的特性被正确地分类。

为开发一个大间隔分类器,进一步需要 $\cos \left(\theta_{1}\right-m>\cos \left(\theta_{2}\right $ 及 $\cos \left(\theta_{2}\right-m>\cos \left(\theta_{1}\right$,其中 $m \geq 0$ 是一个固定参数来控制余弦间隔的大小。由于$\cos \left(\theta_{i}\right-m$ 低于 $\cos \left(\theta_{i}\right$,因此对分类的约束更加严格,推广到多类:

其中,

2.2 方法对比

$\left\|W_{1}\right\| \cos \left(\theta_{1}\right=\left\|W_{2}\right\| \cos \left(\theta_{2}\right$

$\text{NSL}$ 的决策边界:【$magin= 0$】

$\cos \left(\theta_{1}\right=\cos \left(\theta_{2}\right$

$\text{A-Softmax}$ 的决策边界:

$\begin{array}{l}C_{1}: \cos \left(m \theta_{1}\right \geq \cos \left(\theta_{2}\right \\C_{2}: \cos \left(m \theta_{2}\right \geq \cos \left(\theta_{1}\right \end{array}$

$\text{LMCL }$ 的决策边界:

因此,$\cos \left(\theta_{1}\right$ 被最大化,而 $\cos \left(\theta_{2}\right$ 被最小化,使得 $C_{1}$ 执行大边际分类。$\text{Figure 2}$ 中 $\text{LMCL}$ 的决策边界,可以在角度余弦分布中看到一个清晰的 $\text{Margin}$( $\sqrt{2} m$。这表明 LMCL 比 NSL 更健壮,因为在决策边界(虚线)周围的一个小的扰动不太可能导致不正确的决策。余弦裕度一致地应用于所有样本,而不考虑它们的权值向量的角度。

2.3 特征归一化

    • 没有归一化之前的 $\text{Softmax}$ 损失函数会潜在地学习特征向量的 $L_{2}$ 模长和角度余弦。由于 $L_{2}$ 模长的增大,会一定程度上降低损失函数的值,这样会削弱余弦约束;
    • 同时希望所有数据的特征向量都具有相同的二范数,以至于取决于余弦角来增强判别性能。在超球面上,来自相同类别的特征向量被聚类在一起,而来自不同类别的特征向量被拉开;

比如假设特征向量为 $\mathrm{x}$,让 $\cos \left(\theta_{i}\right$ 和 $\cos \left(\theta_{j}\right$ 代表特征与两个权重向量的余弦,如果没有归 一化特征,损失函数会促使 $\|x\|\left(\cos \left(\theta_{i}\right-m\right>\|x\|\left(\cos \left(\theta_{j}\right\right$,但是优化过程中如果 $\left(\cos \left(\theta_{i}\right-m\right<\cos \left(\theta_{j}\right$,为了降低损失函数,用 $\|x\|$ 的增加来换取损失函数的降低也是很可能的,所以会导致优化问题产生次优解。
此外尺度参数 $s$ 应该设置足够大,对于 NSL,太小的 $s$ 会导致收敛困难甚至无法收敛。在 LMCL,我 们需要设置更大的 $s$ 才能保证在预设的 Margin 以及在足够大的超球面空间来学习特征。
接下来分析 $s$ 应该有一个下界来保证获得期望的分类性能。给定归一化的学习特征向量 $x$ 和单位权重向量 $W$,用 $C$ 表示类别总数,假设学习到的特征分别位于超平面上,以相应的权重向量为中心。$p_{W}$  表示类里面期望的最小的后验概率(也就是与 $W$ 重合的特征的后验概率,$s$  下界为:

可以分析出,如果在类别数保持一定情况下,想要得到最佳的 $p_{W}$,$\mathrm{~s}$ 要足够大。此外,如果固定 $p_{W}$,随着类别数的增加,也需要增大 $\mathrm{s}$ 值,因为类别数的增加会提升分类的难度。

2.4 LMCL的理论分析

我们发现 Margin 与 $W_{1}$ 和 $W_{2}$ 之间的角度有关系。当 $W_{1}$ 和 $W_{2}$ 都给定的时候,余弦 Margin 具有范围的限制。具体而言,假设一个场景,即属于第 $i$ 类的所有特征向量与第 $i$ 类的相应权重向量 $W_{i}$ 完全重叠。 换句话说,每个特征向量都与类 $i$ 的权重向量相同,并且显然,特征空间处于极端情况,其中所有特征向量都位于其类中心,在这种情况下,决策边界的 Margin 已最大化(即,余弦 Margin 的严格上限)。

$\begin{array}{l}0 \leq m \leq 1-\cos \frac{2 \pi}{C}, \quad(K=2 \\0 \leq m \leq \frac{C}{C-1}, \quad(C \leq K+1 \\0 \leq m \ll \frac{C}{C-1}, \quad(C>K+1\end{array}   \quad\quad(7$

作者做了一个小实验验证了这些思想,取了 8 个人的人脸数据,用原始的 $\text{Softmax}$ 损失和本文提出的 LMCL 损失函数训练样本,然后将特征提取并可视化,$m$ 应该小于 $1-\cos \left(\frac{2 \pi}{8}\right$,大约 $0.29$,分 别设置 $ \mathrm{m}=0,0.1,0.2$  三种情况,可以观察到原始的 $\text{softmax}$ 损失在决策边界上产生了混淆,而提出的 LMCL 则表现出更大的优势。随着$m$ 的增加,不同类别之间的角度 $\text{Margin}$ 已被放大。 

编程笔记 » 论文解读(CosFace)《CosFace: Large Margin Cosine Loss for Deep Face Recognition》

赞同 (30) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽