『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

百川AI

发布于 2022-05-15 11:21:28

9490

发布于 2022-05-15 11:21:28

文章被收录于专栏：我还不懂对话我还不懂对话

Abstract

MULTI-VIEW-DNN联合了多个域做的丰富特征，使用multi-view DNN模型构建推荐，包括app、新闻、电影和TV，相比于最好的算法，老用户提升49%，新用户提升110%。并且可以轻松的涵盖大量用户，解决冷启动问题。

主要做user embedding的过程，通多用户在多个域的行为作为一个ivew，来表征用户，参与用户embedding过程。

Contribution

利用丰富的用户特征，建立多用途的用户推荐系统。
针对基于内容的推荐，提出了一种深度学习方法。并学习不同的技术扩展推荐系统。
结合不同领域的数据，提出了Multi-View DNN模型建立推荐系统。
multi-view DNN模型解决用户冷启动问题。
基于四个真实的大规模数据集，通过严格的实验证明所提出的推荐系统的有效性。

Data Set

Type	DataSet	UserCnt	FeatureSize	Joint Users
User view	Search	20M	3.5M	/
Item View	News Apps Movie/TV	5M 1M 60K	100K 50K 50K	1.5M 210K 60K

DSSM FOR USER MODELING IN RECOMMENDATION SYSTEMS

deep structured semantic model参考Learning deep structured semantic models for web search using clickthrough data。

结构图：

把条目映射成低维向量。
计算查询和文档的cosine相似度。

其中：

l_1 = W_1 x

l_i = f(W_i l_{i-1} + b_i), i=2,..., N-1

y = f(W_N l_{N-1} + b_N)

word hashing

通过word hashing层将word映射为稠密向量。以good为例。

添加首尾标记: #good#
拆分word为n-grams: #go, goo, ood, od#
通过多个小的n-grams的向量表示word。

这种方法即使有新词出现，也不会出现问题。

DSSM训练

对于一次搜索，如果点击了一个文档，认为他们是相关的。对于搜索查询集，DSSM去最大化被点击文档D^+ 的条件似然概率**。

P(D^+|Q) = \frac{exp(\gamma R(Q, D^+))}{\sum_{D^\prime \in D} exp(\gamma R(Q,D^\prime))}

其中D是全集，\gamma 是平滑因子。损失函数自然就是：

L(W,b) = -log \prod_{(Q, D^+)} P(D^+|Q)

MULTI-VIEW DEEP NEURAL NETWORK

对于User view，计算User View和Item View之间的P(IV_i|UV) ，然后最小化：

L(W,b) = -log \prod_{(UV, IV^+)} P(IV^+_i|UV)

其中P()定义为：

P(IV^+|UV) = \frac{exp(\gamma cos(UV, IV^+))}{\sum_{IV^\prime \in IV} exp(\gamma cos(UV,IV^\prime))}

Data input

对于第j行输入数据，它的主域X_{u, j} 和一个激活View X_{a, j} ，其余的View输入X_{i:i \not= a} 都为0向量。

User features

search queries：规范化，然后处理成unigram格式。
clicked URLs：只保留主域名，如www.linkdin.com

News features

news article clicks：

title( tri-gram)
top-level category(binary features)
named entities

App features

App download histories:

App tile( tri-gram)
category(binary)

Movie/TV feature

movie/TV view history

title( tri-gram)
description( tri-gram)
genre(binary)

训练过程

训练目标：

原文公式：

p=arg\max_{W_u, W_1,... W_v} \sum^N_{j=1} \frac{exp(\gamma_a cos(Y_u, Y_{a, j}))}{\sum_{X^\prime \in R^{d_a}} exp(\gamma_a cos(Y_u,f_a(X^\prime, W_a))}

训练目标：

L(W_u, W_1,... W_v) = \sum^N_{j=1} \frac{exp(\gamma_a cos(Y_u, Y_{a, j}))}{\sum_{X^\prime \in R^{d_a}} exp(\gamma_a cos(Y_u,f_a(X^\prime, W_a))}

最小化L()为目标得到W_u, W_1,... W_v ，即网络的参数矩阵。

MV-DNN优势

和DSSM相比，其query和doc的feature是一样长的维度，使用同样的预处理，限制了feature。而跨域信息feature往往不同，而且n-gram方法并不适用，所以MV-DNN结合其类别特征（如电影和app类别，地理位置等）。
MV-DNN可以结合多个跨域信息，实现对user embedding。pair-wise training过程，user-item pairs。

降维方法

top features

对于user features，选取top-k最频繁的features。并通过TF-IDF过滤掉最常用的特征。

k-means

k-mean会指定k为类簇的个数，目标是最小化所有类簇点与中心点的距离只和。公式表达:

arg \min_{C_1,C_2,…C_k} \sum_{i=1}^N \min_{C_j \in {\{C_1, C_2…,C_k\}}} distance(X_i, C_i)

其中X_i 是数据点，C_j 是每个类簇的中心。通过K-means对相似的特征群分组为同一个cluster并生成新的特征，共生产k个新的特征。

应用：

对于输入数据矩阵X，shape=[size=n, dimension=k]，划分为X=[f_1, f_2…, f_k] ，然后将每个f_k 归一化，对[f_1, f_2…, f_k] 使用k-means聚类，f_i 之间计算距离用cos相似度。然后就可以将特征降维到k维，对于每个新的特征向量Y_i, 1\leq i \leq n, 1 \leq Cls(a) \leq k 有：

Y_i(j) = \sum_{a:X_i(a)>0 \&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp; Cls(a)=j} f_i(a)?

比如原始维度是3.5M，设置k=10k，那么将为之后维度就是10k。