迁移学习(SPI)《Semi-Supervised Domain Adaptation by Similarity based Pseudo-label Injection》

论文信息

论文标题：Semi-Supervised Domain Adaptation by Similarity based Pseudo-label Injection
论文作者：Abhay Rawat, Isha Dua, Saurav Gupta, Rahul Tallamraju
论文来源：Published in ECCV Workshops 5 September 2022
论文地址：download
论文代码：download
视屏讲解：click

1 摘要

问题：SSDA 最近的工作表明，仅将标记的目标样本与源样本对齐可能会导致目标域与源域的域对齐不完整；

2 介绍

半监督学习 (SSL [1,36,3,45] 已被证明在每个注释的性能方面非常高效，因此提供了一种更经济的方式来训练深度学习模型。然而，一般来说，UDA 方法在半监督环境中表现不佳，在半监督环境中我们可以访问目标域中的一些标记样本 [31]。半监督域适应 (SSDA [35,21,19]，利用目标域中的少量标记样本来帮助学习目标域上具有低错误率的模型。然而，如 [19] 所示，简单地将标记的目标样本与标记的源样本对齐会导致目标域中的域内差异。在训练期间，标记的目标样本被拉向相应的源样本簇。然而，未标记的样本与标记目标样本的较小相关性被抛在后面。这是因为标记源样本的数量支配标记目标样本的数量，导致标签分布偏斜。这导致在目标域的同一类中进行子分布。为了减轻来自源域和目标域的标记样本之间的这种偏差比率，最近的方法 [17,40] 将伪标签分配给未标记的数据。但是，这些伪标签可能存在噪声，可能导致对目标域的泛化效果不佳。

3 方法

整体框架：

Support set：基于小批量，源域、目标域标记样本每个类包含 $\eta_{\text {sup }}$ 个样本，所以支持集包含来自两个域的 $\eta_{\text {sup }} C$ 个样本，总共 2 个 $\eta_{\text {sup }} C$ 个样本。

3.1 域间特征对齐

$\mathcal{L}_{\text {con }}=\sum_{i \in A} \frac{-1}{\left|P_{i}\right|} \sum_{p \in P_{i}} \log \frac{\exp \left(z_{i} \cdot z_{p} / \tau\right}{\sum_{a \in A \backslash i} \exp \left(z_{a} \cdot z_{p} / \tau\right} \quad\quad\quad(1$

Note：支撑集之间；

3.2 伪标签注入

为了减少域内差异，我们建议将未标记目标数据集 $T$ 中的样本注入标记目标数据集 $\hat{T}$。使用支持集，首先计算未标记样本的软伪标签。在整个训练过程中，我们为未标记的目标数据集 $T$ 中的每个样本保留锐化软伪标签的指数移动平均值。这个移动平均值估计了我们的模型对每个未标记样本的预测的置信度。使用这个估计，我们将高度置信的样本注入到标记的目标数据集 $\hat{T}$ 中，并且在每个时期之后将它们各自的标签设置为主导类。

$\tilde{y}_{i}=\sigma_{\tau}\left(\hat{z}_{i} \cdot \hat{z}_{\text {sup }}^{\top}\right y_{\text {sup }}$

$\pi(\tilde{y}=\frac{\tilde{y}^{1 / \tau}}{\sum_{j=1}^{C} \tilde{y}_{j}^{1 / \tau}}$

在整个训练过程中，我们保持未标记目标数据集 $T$ 中每个图像的锐化软伪标签的指数移动平均值 (EMA。更具体地说，我们维护一个映射 $\mathcal{P}: \mathbb{I} \rightarrow \mathbb{R}^{C}$ 从未标记样本的图像 ID 到它们各自锐化的软伪标签（类概率分布）的运行 EMA。令 $ID(\cdot$ 表示一个运算符，它返回与未标记目标数据集 $T$ 中的输入样本对应的图像 $ID$，$\mathcal{P}\left(\operatorname{ID}\left(x_{i}\right\right$ 是 $x_i$ 的锐化伪标签的 EMA。然后，未标记数据集 $T$ 中样本 $x_i$ 的指数移动平均值更新如下：

其中 $\rho$ 表示动量参数。当在训练过程中第一次遇到一个样本时，$\mathcal{P}\left(\operatorname{ID}\left(x_{i}\right\right$ 被设置为 $\pi\left(\tilde{y}_{i}\right$ 和 $\text{Eq.5}$ 之后使用。

$I_{t} \triangleq\left\{\left(x_{i}, \arg \max \mathcal{P}\left(\operatorname{ID}\left(x_{i}\right\right \mid x_{i} \in T \wedge \max \mathcal{P}\left(\operatorname{ID}\left(x_{i}\right\right \geq \gamma\right\}\right.\quad\quad\quad(6$

但是，这些样本可能存在噪音并可能阻碍训练过程；因此，如果样本的置信度低于阈值 $\gamma$，我们也会从标记的数据集中删除样本。要从标记目标数据集 $R$ 中删除的样本集定义为：

其中 $y_{i}$ 表示先前分配给方程式中的样本 $x_i$ 的相应伪标签。请注意，来自标记目标数据集 $\hat{T}_{0}$ 的原始样本永远不会从数据集中删除，因为 $I$ 和 $R$ 都仅包含来自未标记目标数据集 $T$ 的样本。

$\hat{T}_{t+1}=\left\{\begin{array}{ll}\left(\hat{T}_{t} \backslash R_{t}\right \cup I_{t} & \text { if } t \geq W \\\hat{T}_{t} & \text { otherwise }\end{array}\right.$

3.3 实例级相似度

我们现在介绍实例级相似性损失。受 [1,5] 的启发，我们遵循多视图增强来生成未标记图像的 $ηg = 2$ 全局裁剪和 $ηl$ 局部裁剪。这种增强方案背后的关键见解是通过明确地使这些不同视图的特征表示更接近来强制模型关注感兴趣的对象。全局裁剪包含更多关于感兴趣对象的语义信息，而局部裁剪仅包含图像（或对象）的有限视图。通过计算全局作物和支持集样本之间的特征级相似度，我们使用 $\text{Eq.3}$ 计算未标记样本的伪标签。

稍微滥用符号，给定样本 $x_{i}$，我们将 $\tilde{y}_{i}^{g_{1}}$ 和 $\tilde{y}_{i}^{g_{2}}$ 定义为两种全局作物的伪标签，并且 $\tilde{y}_{i}^{l_{j}}$ 表示第 $j$ 个局部作物的伪标签。类似地，我们遵循相同的符号来为这些由 $\pi$ 表示的作物定义锐化的伪标签。因此训练特征提取器以最小化以下损失：

其中，$\mathrm{H}(\cdot, \cdot$ 表示交叉熵，$\pi_{i}^{g}=\left(\pi_{i}^{g_{1}}+\pi_{i}^{g_{1}}\right / 2$，$\left|B_{u}\right|$ 表示未标记样本的数量。

3.4 域内对齐

$\text { top-k }\left(z_{i}\right \ominus \text { top- } \mathrm{k}\left(z_{j}\right=\Phi$

我们构造一个二元矩阵 $M \in\{0,1\}^{\left|B_{u}\right| \times\left|B_{u}\right|}$，$M_{i j}$ 表示未标记 Batch $B_{u}$ 中第 $i$ 个样本是否与第 $j$ 个样本相似。使用相似性矩阵 $M$，我们计算目标未标记样本的域内一致性损失 $\mathcal{L}_{i d a}$ 如下：

3.5 分类损失和整体框架

我们使用标签平滑交叉熵 [24] 损失来训练分类器层。对于分类器训练，我们只使用来自标记的源数据集 $S$ 和标记的目标数据集 $\hat{T}$ 的样本，这些样本不断用新样本更新。

其中，$h_{i}$ 是预测的类别概率，$H$ 表示交叉熵损失，$\hat{y}_{i}=(1-\alpha y_{i}+\alpha / C$ 是对应于 $xi$ 的平滑标签。这里，$\alpha$ 是平滑参数，$y_{i}$ 是单热编码标签向量。

$\mathcal{L}_{S P I}=\lambda \mathcal{L}_{c o n}+\mathcal{L}_{i l s}+\mathcal{L}_{i d a}+\mathcal{L}_{c l s}$

4 实验

消融研究

5 总结

为减轻标签比例偏斜带来的挑战，通过将未标记的目标样本的特征表示与来自源域和目标域的标记样本的特征表示进行比较来为未标记的目标样本打伪标记；

为增加对目标域的支持，潜在的噪声伪标签在训练过程中逐渐注入到标记的目标数据集中。具体来说，使用温度标度余弦相似性度量来为未标记的目标样本分配软伪标签。此外，为每个未标记的样本计算软伪标签的指数移动平均值。这些伪标签基于置信度阈值逐渐注入（或移除）到（从）标记的目标数据集中，以补充源和目标分布的对齐。最后，在标记和伪标记数据集上使用监督对比损失来对齐源和目标分布。

编程笔记 » 迁移学习(SPI)《Semi-Supervised Domain Adaptation by Similarity based Pseudo-label Injection》