小打卡：基于MaxCompute+PAI的推荐算法实践

案例背景

小打卡是国内最大的兴趣社群平台，每天能够产生上百万条新的内容。在这样超大的内容生产背景下，平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute，小打卡已经完成了TB级数据仓库方案。在此基础之上，结合机器学习PAI，实现了千人千面的推荐算法。本文将从技术选型、推荐架构、开源算法结合三个方面，讲述小打卡在MaxCompute上的一些实战经验。

为什么选择阿里云

MaxCompute是阿里云完全自研的一种快速、完全托管的TB/PB级的数据仓库解决方案，并且上层提供了DataWorks以实现工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。除此之外，MaxCompute还与阿里云服务的多个产品集成，比如：

数据集成：完成MaxCompute与各种数据源的相互同步。
机器学习PAI：实现直接基于MaxCompute完成数据处理、模型训练、服务部署的一站式机器学习。
QuickBI：对MaxCompute 表数据进行报表制作，实现数据可视化分析。
表格存储：阿里云自研的分布式NoSQL 数据存储服务，MaxCompute 离线计算的机器学习特征可以很方便的写入，以供在线模型使用。

相反，如果完全基于开源的Hadoop 框架，从服务部署、可视化开发、代码管理、任务调度、集群运维等多方面，均需要大量的人力来开发与维护。基于MaxCompute，不论是人力成本，还是计算成本，还是运维成本，都已经降到了最低。

系统架构

小打卡的整个技术架构完全基于阿里云实现。埋点日志、业务数据分别由日志服务、RDS/DRDS 承担收集和存储任务，通过数据集成同步到MaxCompute，之后便可基于PAI 实现机器学习任务。其物理结构如下图所示。小打卡：系统架构

机器学习PAI-Studio 提供了数据预处理、特征工程、机器学习、深度学习、文本分析等丰富的机器学习组件，并且计算结果直接以宽表的形式存储于MaxCompute，极大的减轻了算法开发的工作量。我们基于PAI，实现了GBDT+LR 算法，任务流如下图所示：小打卡：任务流

图中采用了丰富的PAI 机器学习组件，主要包括6 个部分：1- 特征加工，2- 训练模型，3- 验证模型，4- 测试模型，5- 特征映射关系，6- 特征重要性。开发完成后，可以加载到DataWorks 中进行调度，运行完成会生成GBDT 模型文件(pmml 格式)、LR 模型文件(pmml 格式)、特征映射表，以便线上使用。由于我们后端主服务均在华北1，而PAI 的模型在线部署在华东2，存在着公网访问问题，因此我们暂时无法使用PAI 的模型在线部署功能，建议大家将两部分放在同一地域。鉴于此问题，幸好PAI 的同学提供了将pmml 模型文件写入oss 的脚本，相关代码如下：

pai -name modeltransfer2oss

-DmodelName=xlab_m_GBDT_LR_1_1806763_v0
-DossPath="oss://test.oss-cn-shanghai-internal.aliyuncs.com/model/"
-Darn="acs:ram::123456789:role/aliyunodpspaidefaultrole"
-Doverwrite=true
-Dformat=pmml;

因此我们可以将pmml 文件写入oss，然后后端服务读取pmml 模型文件，自行创建模型在线预测。对于解析pmml 模型文件，虽然有开源项目支持pmml 模型加载，但是由于pmml 过于通用，导致性能存在问题，因此我们定制化自解析模型。

如何结合开源算法

遗憾的是，PAI 提供的机器学习算法仍然有限，如果想要使用开源项目来实现算法部分怎么办呢？我们对此也做了尝试，我们则结合MaxCompute+PAI+xLearn 实现了基于FM 算法的CTR 预估模型。 xLearn 需要在单独的一台ECS 上执行，因此引出了以下问题：

如何从MaxCompute 拉取数据，又如何上传结果？ MaxCompute 提供了pyodps，可以很方便的使用python 读写MaxCompute 的离线表。因此，我们在python 循环检测PAI 任务的特征工程结果表是否生成完成。生成完成，则启动下载数据和算法训练任务。算法执行结束后，则将模型文件通过pyodps 写入MaxCompute，当然也可以使用tunnel 工具来完成。
如何周期性调度？ DataWorks 上的任务与ECS 上的任务，如何形成依赖关系？对于拉取，我们通过循环实现了python 与MaxCompute 表的依赖关系，那么算法训练完成了，DataWorks 的下游怎么知道呢？幸好，DataWorks 提供了dowhile 控制流组件，我们可以在while 条件中检测模型表相应分区的数据是否存在了，在 do 组件中，则采用shell 执行sleep。跳出while 后，则下游也开始正常执行了。之后便可以将模型和映射文件同步写入到oss，以供后端使用了。其中 do-while 结构如下：

上云价值

除了排序算法之外，我们还使用PAI 和SQL，分别实现了item_cf 和user_cf 的召回算法，整个推荐系统完全打通。基于MaxCompute 利用DataWorks 调度系统，我们实现了推荐算法模型的每日自动更新。相比于模型不更新，我们对比了60 天前的模型，新的模型效果提升10% 左右。期待阿里云提供越来越丰富的功能，例如基于MaxCompute 的Spark 机器学习。

小打卡：基于MaxCompute+PAI的推荐算法实践

案例背景

为什么选择阿里云

系统架构

如何结合开源算法

上云价值

相关产品

推荐图文

API概览_弹性云服务器 ECS_API参考

2021年用于数据集成的9大ETL工具

云服务器备份和恢复数据问题 - 常见问题

驻云科技：基于MaxCompute搭建社交好友推荐系统

五数.com近50万结拍，“摩拜”中五位被秒！

云+社区【玩转腾讯云】视频征稿活动获奖名单公布

随机推荐

腾讯2020年财报：腾讯云自研战略提速，星

API版本选择建议_弹性云服务器 ECS_API参

无法登录到Windows裸金属服务器怎么办？_

北京大学：技术助援公益，SAE火速上线北

云虚拟主机可以干什么

法家云-阿里小程序“一云多端”上云案例

趣医网

注册了域名不备案可以吗

全民直播

这家慕尼黑剧院真的很COOL！

关于我们