
智慧的艺术是知道该忽视什么。
——威廉·詹姆斯(William James)
1 导引
1.1 跨域推荐简介
推荐系统中常常面临用户冷启动问题[1],也即新注册的用户没有足够的交互记录,导致推荐模型不能学习到有效的表征。为了解决用户冷启动问题,近年来跨域推荐(CDR) 得到了许多关注[2]。一般来讲,跨域推荐旨在利用从其它相关源域收集的用户-物品交互信息以提升目标域的推荐质量。许多跨域推荐的工作会假设大量的用户在两个域都出现过(即重叠用户, overlapping users)以搭建起源域和目标域之间的桥梁。只在源域中存在的用户(即非重叠用户, non overlapping users)可以被视为目标域的冷启动用户。
1.2 嵌入和映射的思路
嵌入和映射(Embedding and Mapping,EMCDR) 的思路,也即学习一个映射函数将预训练的用户表征(embeddings)从源域迁移到目标域。如下图所示:
然而,正如我们上面所说的,这种方法在进行对齐操作之前,各领域需要先通过预训练以独立地得到用户/物品的embeddings。因此,有偏的(biased) 预训练表征将无可避免地包含领域特有的(domain-specific) 信息,从而会导致对跨领域迁移信息产生负面影响。
究竟需要在不同的域之间共享什么信息?也即如何让表征能够编码到领域间共享(domain-shared的信息?
1.3 联合训练的思路
在具体的手段层面,这种方法该类方法的大多数工作首先采用两个基础的编码器来对每个领域的交互记录建模,之后再引入不同的迁移层来对称地融合不同编码器学得的表征。比如,CoNet[3]利用MLP做为每个领域的基础编码器,并设计了交叉连接(cross-connections)网络来迁移信息。DDTCDR[4]进一步扩展了ConNet:学习了一个潜在的正交投影函数来迁移跨领域用户的相似度。PPGN[5]使用堆叠的(stacking)GCN来直接聚合来自各领域的表征信息以学得用户/物品表征。BiTGCF[6]利用LightGCN[7]做为编码器来聚合每个领域的交互信息,并进一步引入特征迁移层来增强两个基础的图编码器。CDRIB[8]则采用信息瓶颈的视角来获得领域间共享的信息(不过该方法关注的是为目标域中的不重叠(冷启动)用户做推荐,与前面的方法又有所区别)。
1.4 解耦表征的思路
一个显著的例子如上图所示。对于Film和Book这两个领域,领域间共享的信息,比如“Story Topic”和“Category”能够为每个领域都提供有价值的信息。但领域特有的信息,比如Book领域的“Writing Style”可能会提供对于在“Film”领域做推荐无用的信息甚至会导致CDR领域的负迁移现象[9]。不幸的是,现有的CDR方法忽视了此问题并直接聚合领域间共享和领域特有的信息。这样的结果就是,学得的用户表征将不同领域的偏好纠缠(entangle)在一起,而这会导致获得次优(sub-optial)的推荐结果。
[10]。
2 论文阅读
2.1 ICDE 2022《Cross-Domain Recommendation to Cold-Start Users via Variational Information Bottleneck》[8]
本方法属于采用联合训练的跨域推荐方法。本其关注的场景为当源域和目标域间的用户部分重叠时,为目标域中的不重叠(冷启动)用户做推荐。该方法所要解决的问题在于,究竟有哪些信息需要在领域间进行共享?
本文利用了信息瓶颈(information bottleneck)原理并提出了一个新的方法(CDIRB模型)来使表征编码到领域间共享的信息(domain shared information),从而用于各领域的下游推荐。为了得到无偏的表征,作者设计了两种正则项,其中信息瓶颈正则项来同时建模跨域/域间的用户-物品交互,这样相比EMCDR方法,就能够同时考虑所有域的交互信息从而达到去偏的目的;而对比信息正则项则负责捕捉跨域的用户-用户之间的关系(对齐不同域之间的重叠用户表征)。
接下来作者借鉴了论文[11][12]提出的信息瓶颈理论,该理论旨在学习有效表征,这种有效表征能够在简洁性和广泛的预测能力之间做权衡(trade-off)[13]。形式化地,标准信息瓶颈有如下所示的目标函数:
\[\mathcal{L}_{I B}:=\beta I(\boldsymbol{Z} ; \mathbf{X}-I(\boldsymbol{Z} ; \mathbf{Y}
\]
[14]。这也就是说IB使得\(Z\做为一个最小充分统计量[15](在我们这个CDR应用中即领域间应该共享的信息)。在实践中,直接优化互信息是难解(intractable)的,因此变分近似[16]常常用于构建用于优化互信息目标函数的下界[13][17]。
其中绿色部分的网格代表物品表征,黄色和蓝色颜色的网格分别代表重叠和不重叠的用户表征。信息瓶颈正则项(图中的Information Bottleneck)捕捉了领域间用户和物品的相关性,而对比信息正则项(图中的Contrastive Information)则捕捉了领域间重叠用户之间的相关性。
嵌入层
变分二分图编码器
为了在原始用户/物品表征的基础上,进一步提炼出用户/物品的隐向量表征,论文提出了变分二分图编码器(VBGE)。比如,生成\(X\领域的用户隐向量表征\(Z_v^X\的过程如下:
\[\widehat{\boldsymbol{U}}^X=\delta\left(\operatorname{Norm}\left(\left(\boldsymbol{A}^X\right^{\top}\right \boldsymbol{U}^X \boldsymbol{W}_u^X\right
\]
\[\begin{gathered}
\boldsymbol{\mu}_u^X=\delta\left(\left[\delta\left(\operatorname{Norm}\left(\boldsymbol{A}^X\right \widehat{\boldsymbol{U}}^X \widehat{\boldsymbol{W}}_{u, \mu}^X\right \oplus \boldsymbol{U}^X\right] \boldsymbol{W}_{u, \mu}^X\right, \\
\boldsymbol{\sigma}_u^X=\varphi\left(\left[\delta\left(\operatorname{Norm}\left(\boldsymbol{A}^X\right \widehat{\boldsymbol{U}}^X \widehat{\boldsymbol{W}}_{u, \sigma}^X\right \oplus \boldsymbol{U}^X\right] \boldsymbol{W}_{u, \sigma}^X\right, \\
\boldsymbol{Z}_u^X \sim \mathcal{N}\left(\boldsymbol{\mu}_u^X,\left[\operatorname{diag}\left(\boldsymbol{\sigma}_u^X\right\right]^2\right,
\end{gathered}
\]
\[\boldsymbol{z}_{u_i}^X=\boldsymbol{\mu}_{u_i}^X+\boldsymbol{\sigma}_{u_i}^X \odot \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(0, \operatorname{diag}(\boldsymbol{I}
\]
信息瓶颈正则项
设\(\mathbf{X}\,\(\mathbf{X}^u\,\(\mathbf{X}^v\分别为领域\(X\中所观测到的交互信息、用户信息和物品信息。领域\(X\的用户集合包括重叠用户\(\mathcal{U}^o\和非重叠用户\(\mathcal{U}^x\这两个群体,领域\(Y\亦然。以领域\(X\为例,将用户表征\(\boldsymbol{Z}_u^X \in \mathbb{R}^{\left|\mathcal{U}^{X}\right| \times F}\也划分为两个群体:\(\boldsymbol{Z}_u^{x o} \in \mathbb{R}^{\left|\mathcal{U}^o\right| \times F}\和\(\boldsymbol{Z}_u^x \in \mathbb{R}^{\left|\mathcal{U}^x\right| \times F}\。
正如上图(a)所示。\(\boldsymbol{Z}_u^{x o}\,\(\boldsymbol{Z}_u^{y o}\是编码了各领域用户信息的重叠用户表征,而图(b)中的\(\boldsymbol{Z}_u^x\,\(Z_u^y\是非重叠的(冷启动)用户表征。这里\(\boldsymbol{Z}_v^{X}\,\(\boldsymbol{Z}_v^Y\是物品表征,默认是不重叠的。
\[\begin{aligned}
\mathcal{L}_{o 2 Y}= & \beta_1 I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{X}^u\right-I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{Y}\right \\
& +\beta_2 I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}^v\right-I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}\right
\end{aligned}
\]
其中的跨域重构部分可以进一步通过互信息链式法则化简得到:
\[\begin{aligned}
I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{Y}\right+I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}\right & =I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{Y} \mid \boldsymbol{Z}_v^Y\right+I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}\right \\
& =I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right .
\end{aligned}
\]
最后,\(X\领域导出的损失函数包括最小化(minimality)和跨域重构(reconstruction)两部分:
\[\mathcal{L}_{o 2 Y}=\underbrace{\beta_1 I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{X}^u\right+\beta_2 I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}^v\right}_{\text {Minimality }}-\underbrace{I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right}_{\text {Reconstruction }}
\]
我们还是以\(X\领域为例子(图中红色箭头部分),可以看到其损失函数同样也包括最小化和领域内重构两部分:
\[\mathcal{L}_{x 2 X}=\underbrace{\beta_1 I\left(\boldsymbol{Z}_u^x ; \mathbf{X}^u\right+\beta_1 I\left(\boldsymbol{Z}_v^X ; \mathbf{X}^v\right}_{\text {Minimality }}-\underbrace{I\left(\boldsymbol{Z}_u^x, \boldsymbol{Z}_v^X ; \mathbf{X}\right}_{\text {Reconstruction }}
\]
对比信息正则项
\[\begin{aligned} & \mathcal{L}_{\text {con }}=-\underbrace{I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o}\right}_{\text {Contrastive }} \\
&=-I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o}\right+\left[H\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}\right-H\left(\boldsymbol{Z}_u^{x o} \mid \boldsymbol{Z}_u^{y o}, \mathbf{X}\right\right] \\
& = -I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o}\right+I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o} \mid \mathbf{X}\right \\
& = -I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o}; \textbf{X}\right \\
& = -I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{X}\right-I\left(\boldsymbol{Z}_u^{y o} ; \mathbf{X}\right+I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_u^{y o} ; \mathbf{X}\right,\end{aligned}
\]
可求解的目标函数
\[\begin{aligned} \mathcal{L}= & \mathcal{L}_{x 2 X}+\mathcal{L}_{o 2 Y}+\mathcal{L}_{o 2 X}+\mathcal{L}_{y 2 Y}+\mathcal{L}_{c o n} \\ = & \beta_1\left(I\left(\boldsymbol{Z}_u^X ; \mathbf{X}^u\right+I\left(\boldsymbol{Z}_v^X ; \mathbf{X}^v\right\right \\ & +\beta_2\left(I\left(\boldsymbol{Z}_u^Y ; \mathbf{Y}^u\right+I\left(\boldsymbol{Z}_v^Y ; \mathbf{Y}^v\right\right \\ & -I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right-I\left(\boldsymbol{Z}_u^x, \boldsymbol{Z}_v^X ; \mathbf{X}\right \\ & -I\left(\boldsymbol{Z}_u^{y o}, \boldsymbol{Z}_v^X ; \mathbf{X}\right-I\left(\boldsymbol{Z}_u^y, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right \\ & -I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_u^{y o}\right\end{aligned}
\]
要想求解该目标函数,接下来还需要将互信息其转换为KL散度,比如对于\(I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{X}^u\right\就有
\[I\left(\boldsymbol{Z}_u^{x o} ; \mathbf{X}^u\right=\mathbb{D}_{K L}\left(p_\theta\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}^u\right \| p\left(\boldsymbol{Z}_u^{x o}\right\right
\]
\[\begin{aligned} I\left(\boldsymbol{Z}_u^{x o} ; X^u\right & \leq \mathbb{D}_{K L}\left(q_{\phi_u^X}\left(\boldsymbol{Z}_u^{x o} \mid X^u\right \| p\left(\boldsymbol{Z}_u^{x o}\right\right \\ \quad= & \mathbb{D}_{K L}\left(\mathcal{N}\left(\boldsymbol{\mu}_u^{x o},\left[\operatorname{diag}\left(\boldsymbol{\sigma}_u^{x o}\right\right]^2\right \| \mathcal{N}(0, \operatorname{diag}(\boldsymbol{I}\right\end{aligned}
\]
对于重构项,我们以\(I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right\为例,我们有
\[I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right=\mathbb{E}_{p_\theta\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}^u\right p_\theta\left(\boldsymbol{Z}_v^Y \mid \mathbf{Y}^v\right}\left[\log p\left(\boldsymbol{A}^Y \mid \boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y\right\right]
\]
\[\begin{array}{r}I\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y ; \mathbf{Y}\right \geq \mathbb{E}_{q_{\phi_u^X}\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}^u\right q_{\phi_v^Y}\left(\boldsymbol{Z}_v^Y \mid \mathbf{Y}^v\right}\left[\log p\left(\boldsymbol{A}^Y \mid \boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_v^Y\right\right] \\ =\sum_{\left(u_i, v_j\right \in \mathcal{E}^Y} \log \left(s\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{v_j}^y\right\right+\sum_{\left(u_i, \widetilde{v}_j\right \notin \mathcal{E}^Y} \log \left(1-s\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{\widetilde{v}_j}^y\right\right,\end{array}
\]
对于对比互信息项,论文借鉴了infomax[14][20]小想法,利用神经网络来度量对比互信息。具体来说,论文定义了判别器\(\mathcal{D}\来度量来自不同领域的重叠用户隐向量(来自领域\(X\的\(z^{xo}_{u_i}\和来自领域\(Y\的\(z^{yo}_{u_i}\)之间的相似度。因此,对比项的下界可表示如下:
\[\begin{aligned} & I\left(\boldsymbol{Z}_u^{x o} ; \boldsymbol{Z}_u^{y o}\right=\mathbb{E}_{p_\theta\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}^u\right p_\theta\left(\boldsymbol{Z}_u^{y o} \mid \mathbf{Y}^u\right}\left[\log \mathcal{D}\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_u^{y o}\right\right] \\ & \geq \mathbb{E}_{q_{\phi_u^X}\left(\boldsymbol{Z}_u^{x o} \mid \mathbf{X}^u\right q_{\phi_u^Y}\left(\boldsymbol{Z}_u^{y o} \mid \mathbf{Y}^u\right}\left[\log \mathcal{D}\left(\boldsymbol{Z}_u^{x o}, \boldsymbol{Z}_u^{y o}\right\right] \\ & =\sum_{\tilde{u}_i \in \mathcal{U}^o, \tilde{u}_i \neq u_i}\left[\log \left(\mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{u_i}^{y o}\right\right+\log \left(1-\mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{\tilde{u}_i}^{y o}\right\right\right] \\ & \end{aligned}
\]
\[\mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{u_i}^{y o}\right=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\boldsymbol{z}_{u_i}^{x o} \oplus \boldsymbol{z}_{u_i}^{y o}\right\right
\]
这样,我们就将原始目标函数转化为了最终完全可求解的目标函数。
2.2 SIGIR 2022 《DisenCDR: Learning Disentangled Representations for Cross-Domain Recommendation》[4]
为两个领域中的重叠用户做推荐,因此在模型中只考虑两个领域中的重叠用户。在本方法中,所要解决的关键问题在于对于两个领域重叠用户的表征,如何分别出共享和不共享的部分?
本文基于信息论提出了DisenCDR模型,该模型能够解耦领域间共享和领域特有的信息,从而只迁移领域间共享的信息以增强推荐表现。该方法包含了两个互信息正则项(包括用于解耦的正则项和用于信息增强的正则项,详情参见后文),并据此导出了一个可以求解的解耦目标函数。
这里\(Z^X_v\,\(Z^X_u\,\(Z^Y_u\和\(Z^Y_v\是领域特有的用户/物品表征,且\(Z^S_u\是用户的领域共享表征,则DisenCDR的框架图可表示如下:
下面我们来详细介绍该方法各个组成部分的细节:
嵌入层
变分二分图编码器
\[\begin{gathered}
\boldsymbol{\mu}_u^S=\lambda_u \odot \overline{\boldsymbol{\mu}}_u^X+\left(1-\lambda_u\right \odot \overline{\boldsymbol{\mu}}_u^Y, \\
\boldsymbol{\sigma}_u^S=\lambda_u \odot \bar{\sigma}_u^X+\left(1-\lambda_u\right \odot \overline{\boldsymbol{\sigma}}_u^Y, \\
\lambda_{u_i}=\frac{N_{u_i}^X}{N_{u_i}^X+N_{u_i}^Y}, \quad Z_u^S \sim \mathcal{N}\left(\boldsymbol{\mu}_u^S,\left[\operatorname{diag}\left\{\sigma_u^S\right\}\right]^2\right,
\end{gathered}
\]
生成和推断
[18]的框架,这里假定所观测的交互信息\(\mathcal{D}^X\和\(\mathcal{ D}^Y\采自一个联合概率分布\(p_{\mathcal{D}}(u, v^X, v^Y\,每个元组\(\left(u_i, v_j, v_k\right \sim p_{\mathcal{D}}\left(u, v^X, v^Y\right\描述了用户\(u_i\和物品\(v_j \in \mathcal{V}^X\和物品\(v_k \in \mathcal{V}^Y\的交互信息。而交互数据正是经由领域共享表征(比如\(Z_u^S\)和领域特有(比如\(Z^X_u\,\(Z^X_v\,\(Z^Y_u\和\(Z^Y_v\)表征生成,也即:
\[\begin{array}{r}
p_\theta\left(u, v^X, v^Y\right=\int p_{\theta^X}\left(A^X \mid Z_u^S, Z_u^X, Z_v^X\right p_{\theta^Y}\left(A^Y \mid Z_u^S, Z_u^Y, Z_v^Y\right \\
p\left(Z_u^S\right p\left(Z_u^X\right p\left(Z_u^Y\right p\left(Z_v^X\right p\left(Z_v^Y\right \mathrm{d} Z_u^S \mathrm{~d} Z_u^X \mathrm{~d} Z_u^Y \mathrm{~d} Z_v^X \mathrm{~d} Z_v^Y .
\end{array}
\]
[19]来近似真实的后验分布。根据上图(b)中的结构化假设,论文将近似后验分布分解为:
\[\begin{array}{r}
q_\phi\left(Z_u^X, Z_u^Y, Z_u^S, Z_v^X, Z_v^Y \mid \mathbf{X}, \mathbf{Y}\right=q_{\phi_u^X}\left(Z_u^X \mid \mathbf{X}\right q_{\phi_u^Y}\left(Z_u^Y \mid \mathbf{Y}\right. \\
q_{\phi_v^X}\left(Z_v^X \mid \mathbf{X}\right q_{\phi_v^Y}\left(Z_v^Y \mid \mathbf{Y}\right q_{\phi_u^S}\left(Z_u^S \mid \mathbf{X}, \mathbf{Y}\right
\end{array}
\]
解耦目标函数
为了使领域间共享和领域特有的隐向量能够编码互斥的信息,作者引入了互斥正则项来最小化二者的互信息。为了分析最小化互信息的影响,作者又将互信息进行了进一步改写。我们以领域\(X\为例,其对应的领域共享和领域特有隐向量的互信息\(I(Z^X_u; Z^S_u\可做如下改写:
\[\begin{aligned}
I\left(Z_u^X ; Z_u^S\right & =I\left(Z_u^X ; Z_u^S\right-\left(H\left(Z_u^X \mid \mathbf{X}\right-H\left(Z_u^X \mid Z_u^S, \mathbf{X}\right\right \\
& =I\left(Z_u^X ; Z_u^S\right-I\left(Z_u^X ; Z_u^S \mid \mathbf{X}\right \\
& =I\left(Z_u^X ; Z_u^S ; \mathbf{X}\right \\
& =I\left(\mathbf{X} ; Z_u^X\right+I\left(\mathbf{X} ; Z_u^S\right-I\left(\mathbf{X} ; Z_u^X, Z_u^S\right .
\end{aligned}
\]
\[\begin{aligned}
I\left(Z_u^S ; \mathbf{X} ; \mathbf{Y}\right & =I\left(Z_u^S ; \mathbf{X}\right-I\left(Z_u^S ; \mathbf{X} \mid \mathbf{Y}\right \\
& =I\left(Z_u^S ; \mathbf{X}\right-\left(I\left(Z_u^S ; \mathbf{X}, \mathbf{Y}\right-I\left(Z_u^S ; \mathbf{Y}\right\right
\end{aligned}
\]
总目标函数
将上面所说的两个解耦目标函数(包括\(X\领域和\(Y\领域的)加起来,就得到了总的目标函数:
\[\begin{aligned}
\mathcal{L}= & I\left(Z_u^X ; Z_u^S\right+I\left(Z_u^Y ; Z_u^S\right-2 I\left(Z_u^S ; \mathbf{X} ; \mathrm{Y}\right \\
= & I\left(\mathbf{X} ; Z_u^X\right+I\left(Z_u^S ; \mathbf{X} \mid \mathrm{Y}\right-I\left(\mathbf{X} ; Z_u^X, Z_u^S\right \\
& +I\left(\mathbf{Y} ; Z_u^Y\right+I\left(Z_u^S ; \mathbf{Y} \mid \mathbf{X}\right-I\left(\mathbf{Y} ; Z_u^Y, Z_u^S\right
\end{aligned}
\]
\[\begin{aligned}\mathcal{L}
& \leq I\left(\mathbf{X} ; Z_u^X\right+I\left(\mathbf{X} ; Z_v^X\right+I\left(\mathrm{Y} ; Z_u^Y\right+I\left(\mathrm{Y} ; Z_v^Y\right \\
& \quad+I\left(\mathbf{X}, \mathrm{Y} ; Z_u^S\right+I\left(Z_u^S ; \mathbf{X} \mid \mathrm{Y}\right+I\left(Z_u^S ; \mathrm{Y} \mid \mathbf{X}\right \\
& \quad-I\left(\mathbf{X} ; Z_u^X, Z_u^S, Z_v^X\right-I\left(\mathrm{Y} ; Z_u^Y, Z_u^S, Z_v^Y\right \\
& \leq \mathrm{ELBO}+I\left(Z_u^S ; \mathrm{X} \mid \mathrm{Y}\right+I\left(Z_u^S ; \mathrm{Y} \mid \mathrm{X}\right
\end{aligned}
\]
这样,解耦目标函数中的一部分可以视为变分推断中标准的证据下界(Evidence Lower Bound,ELBO)。最后,论文按照VAE的思路,继续将其化为了可以求解的目标函数:
\[\begin{aligned}
\mathcal{L} \leq & \mathbb{D}_{K L}\left(q\left(Z_u^X \mid \mathbf{X}\right \| p\left(Z_u^X\right\right+\mathbb{D}_{K L}\left(q\left(Z_v^X \mid \mathrm{X}\right|| p\left(Z_v^X\right\right \\
& +\mathbb{D}_{K L}\left(q\left(Z_u^Y \mid \mathrm{Y}\right \| p\left(Z_u^Y\right\right+\mathbb{D}_{K L}\left(q\left(Z_u^S \mid \mathrm{X}, \mathrm{Y}\right \| p\left(Z_u^S\right\right \\
& +\mathbb{D}_{K L}\left(q\left(Z_v^Y \mid \mathrm{Y}\right \| p\left(Z_v^Y\right\right \\
& -\mathbb{E}_{q\left(Z_u^X, Z_v^X \mid \mathrm{X}\right q\left(Z_u^S \mid \mathrm{X}, \mathrm{Y}\right}\left[\log p\left(A^X \mid Z_u^S, Z_u^X, Z_v^X\right\right] \\
& -\mathbb{E}_{q\left(Z_u^Y, Z_v^Y \mid \mathrm{Y}\right q\left(Z_u^S \mid \mathrm{X}, \mathrm{Y}\right}\left[\log p\left(A^Y \mid Z_u^S, Z_u^Y, Z_v^Y\right\right] \\
& +\beta \mathbb{D}_{K L}\left(q\left(Z_u^S \mid \mathrm{X}, \mathrm{Y}\right \mid q\left(\widetilde{Z}_u^S \mid \mathrm{Y}\right\right+\beta \mathbb{D}_{K L}\left(q\left(Z_u^S \mid \mathrm{X}, \mathrm{Y}\right \| q\left(\widehat{Z}_u^S \mid \mathrm{X}\right\right
\end{aligned}
\]
参考
-
[2] Zhu F, Wang Y, Chen C, et al. Cross-domain recommendation: challenges, progress, and prospects[J]. arXiv preprint arXiv:2103.01696, 2021。
-
-
[4] Li P, Tuzhilin A. Ddtcdr: Deep dual transfer cross domain recommendation[C]//Proceedings of the 13th International Conference on Web Search and Data Mining. 2020: 331-339。
-
-
[6] Meng Liu, Jianjun Li, Guohui Li, and Peng Pan. 2020. Cross Domain Recom- mendation via Bi-directional Transfer Graph Collaborative Filtering Networks. In ACM International Conference on Information and Knowledge Management (CIKM。
-
-
[8] Cao J, Sheng J, Cong X, et al. Cross-domain recommendation to cold-start users via variational information bottleneck[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE. IEEE, 2022: 2209-2223。
-
-
[10] Cao J, Lin X, Cong X, et al. DisenCDR: Learning Disentangled Representations for Cross-Domain Recommendation[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 267-277。
-
-
[12] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//2015 ieee information theory workshop (itw. IEEE, 2015: 1-5。
-
-
[14] M. I. Belghazi, A. Baratin, S. Rajeshwar, S. Ozair, Y. Bengio, A. Courville, and D. Hjelm, “Mutual infor- mation neural estimation,” in International Conference on Machine Learning (ICML, 2018。
-
-
[16] S. Gershman and N. Goodman, “Amortized inference in probabilistic reasoning,” in Proceedings of the Annual Meeting of The Cognitive Science Society, 2014。
-
-
[18] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013。
-
-
[20] Hjelm R D, Fedorov A, Lavoie-Marchildon S, et al. Learning deep representations by mutual information estimation and maximization[J]. arXiv preprint arXiv:1808.06670, 2018。
声明:本文由用户投稿上传,本站不保证内容的真实与正确性,并且不承担相关法律责任,如有侵权请提供版权资料并联系删除!
编程笔记
»
跨域推荐:嵌入映射/联合训练和解耦表征