Wide & Deep Learning for Recommender Systems

文章来自于Google，提出结合了Wide模型和Deep模型的方法，来提升推荐效果；该网络模型应用于Google play的app推荐。

首先，文章开头提到Generalization和Memorization

对于大规模的回归或者分类问题：线性模型+非线性特征；输入比较稀疏，而且需要更多的特征工程。为了减少人工构建特征，deep neural networks往往能从低维的稀疏特征，学习到高阶的特征；也就是文章中的Deep部分。

AND(user_installed_app=netflix, impression_app=pandora”), whose value is 1

完整的推荐系统流程:

wide部分也就是上图左边部分，也就是广义线性模型部分；

\[y=w^Tx+b\]

组合特征部分：

\[\phi_k(x)=\prod_{i=1}^{d}x_i^{c_{ki}} \qquad c_{ki} \in \{0,1\}\]

这里的\(c_{ki}\)表示第i个特征是否参与第k个组合特征。

i表示输入x的第i维。

(e.g.,“AND(gender=female, language=en)”) is 1 if and only if the constituent features (“gender=female” and “language=en”) are all 1, and 0 otherwise

Deep，也就是上图的右边部分；首先把低维的输入特征转化为embedding vector。embedding vector的维度在O(10)~O(100)之间。论文里提到，这些vector初始化阶段是随机的。

合并 wide & deep，2部分输出结果相加再输入logistic loss。

optimizer

wide采用Followthe-regularized-leader (FTRL)优化算法

deep则用AdaGrad。

网络最终的输出：

\[P(Y=1|x)=(w^T_{wide}[x,\phi(x)]+w^T_{deep}a^{(l_f)}+b)\]

数据预处理部分，对于categorical feature 转化为字典；连续值则作n切分，并且归一化；

实际在生产环境中，对于检索系统返回的 app list。采用多个小的batch，并行计算score，从而保证服务的实时性。

这篇论文不长，论述也很清晰。