当前位置：主页 > 查看内容

AIRec个性化推荐召回模型调参实战（电商、内容社区为例）

发布时间：2021-07-16 00:00| 有位朋友查看

简介：一、典型推荐场景一场景概念的引入场景它是智能推荐里面设定的一个概念。场景不论是在上传数据的表上还是在控制台上都会有相关的概念场景可以理解为是一个用户流量的入口一个流量入口代表一定的访问心智。比如一个用户他进入到了一个大促的页面他……

一、典型推荐场景

一场景概念的引入

场景它是智能推荐里面设定的一个概念。场景不论是在上传数据的表上还是在控制台上都会有相关的概念场景可以理解为是一个用户流量的入口一个流量入口代表一定的访问心智。比如一个用户他进入到了一个大促的页面他的心智就是去看一看当前有没有感兴趣的商品、有购买欲望的商品在参与大促活动如果有就去下单而如果是非大促时期正常的打开APP进入一个页面浏览最近是否有新鲜好玩的商品这时候会带着不同的心智这里就是在用户流量入口上做了区分。

用户流量入口一旦确定之后一个页面要打造的用户访问逻辑实现目标基本确定也就意味着从用户的流量入口到用户的访问逻辑决定了我们在这个页面的选品逻辑。选品逻辑是我们能够直观体验到的包括投放上的一些策略到最终我们会把它绑定到一系列的算法逻辑上那也就意味着一个场景它代表了唯一的选品逻辑和唯一的算法逻辑的结合。

如果有多个推荐场景但其中多个推荐场景本质是一套算法策略这个时候我们可以把它合并为一个场景但如果存在差异就可以把它拆分成不同的场景。

二新建推荐场景的过程

在不采用云服务的条件下新建一个场景一般的做法是首先圈选物品从数据库中圈选出当前场景需要哪些物品用作推荐接下来要做链路打通比如平台里所有的用户的行为数据分析出我们给用户做推荐的时候如何能够让这样一个新场景页面它能够尽量避免从零起步做训练和预测而是进行一些数据的复用。

整体过程中首先是数据对接然后做数据验证如果是基于自建的模式还需要准备特征工程包括去组装召回排序的链路以及业务编排上所涉及的策略如此相对来说它的时间线会拉得很长包括想要去设置一套推荐系统还要考虑离线近线和在线的这样的链路设计。

三快速搭建个性化推荐页面

我们通过使用智能推荐产品可以快速搭建个性化推荐页面。从对接服务开始完成数据对接接口调试之后将自动拉起行业定制算法模板启动各种计算逻辑包括表回流逻辑任务等。服务拉起后就可以快速定制场景、发布场景。

在落地上线之后需要做场景定制与业务调优主要通过两种方法第一种是通过算法的维度来解决业务上适配的问题。第二种是通过运营策略的维度去解决这个问题比如说去定制一些选品的规则投放的规则比如在扶持策略上做倾斜以及根据物品的推荐时效性去做整体策略的调整。

场景的调优的路径也就是在我们优先完成服务后再单独对场景作算法、运营策略的定制和优化。

二、经典算法模型简介

一协同过滤

算法逻辑

智能推荐应用的协同过滤为 itemCF 算法逻辑为根据输入的平台行为数据结合点击与否的判断产出一个类似PPT中的表格计算出每个item之间的打分表点了ID等于1的item之后点ID为2的概率值这个概率值代表了这两个item之间相似程度。

运作方式

首先要先找到左边的item 找左边item时需要结合实时的用户行为比如说采集到用户点击口红商品命中唯一的口红商品ID。在下一刷时知晓用户对当前口红感兴趣的状态下去推荐更类似的一些口红容易得到更多的点击随后进一步转化为订单数据按照图中的打分情况 ID为2的 item推荐给这个用户这就是整个协同过滤从用户产生行为到调取这一张我们计算出来的表格最终给用户补充到召回链路的这样的一个过程。

优化算子

父类目和子类目的收敛优化相比于啤酒尿不湿的item关联它能够帮助学习到本质上确实比较相似的物品因为他们同属于一个父类目或子类目。逻辑即将优先看如果说这两个比如说这里面的1和2 它两个是同属于一个父类目或者同属于一个子类目的时候可认为它的相似度是比较高的可以在链路里面让它出现的概率更大一些。

swing 系统会考虑一些用户的pair 用户行为对整体计算item相似度过程中的重要程度增加了判断逻辑比如说两个用户他们的行为他们点击的点击序列里发现没有什么太大的相似度但相反如果两个用户虽然不相似但是他们确实有那么两个物品是一起点击过的就发现这两个物品它可能本身就是有比较大的这样的相似度。如果说一个用户对他的行为都是比较类似的两个用户的比较像在这个过程中他们两个共同点击共同命中的这些item 我可能在计算的时候就会给它降权随便的这种方法它其实是很大程度的利用了用户协同这样的一种能力去发现item之间的关联度。

二用户历史偏好召回

算法逻辑

我们刻画一个用户的偏好主要是通过用户的发生的行为比如从过去30天的行为以及实时行为进行计算和分析会发现在电商行业内影响我们消费决策的一些特征例如商品的品牌店铺标签以及商品类目。这些可能是影响消费行为比较重要的特征所以去看这些重要特征映射到用户的身上有什么样的偏好。那么根据用户历史的行为去分析当前的用户他可能在现在或者在过去对哪些类目是有偏好对哪些品牌是有偏好的基于他实时的兴趣我们也可以预测它未来可能对哪些品牌哪些内容是有偏好的将这两者融合也就构成了我们大家可以常说的用户画像。

构成了用户画像之后我们再结合画像去映射到item表上的这些特征从而进行一个组合和展示。在电商行业里面大家也可以看到在这条链路里面我们可以定制的也是它的关闭和启用的状态以及我们最大召回的数量包括说在我们内部的一个优先级里面会涉及很多的特征比如说类目、品牌、店铺和标签。

那么在选择这些特征的时候我们一个方面要考虑在我们行业里在我们的商业模式下这些特征是不是用户主要消费决策的特征。

但另一个方面就是在这些特征的维护上比如我们可能标签打得非常好我可以把连衣裙的风格都打好那标签对于我来说我可以很大程度去利用它的优势那我就可以把标签的优先级去往上调一调这个就是我们可以结合这样的召回链路去做优化的一个策略和方式。

三向量召回

算法逻辑

向量召回embedding是特征维度较高的情况下常用的算法。通过将多维度特征映射为向量的表达方式进行向量距离的计算产出相似度的打分。比如基于标题的向量召回我们首先会将item的标题通过NLP的方式进行分析分词得到一个个词向量之后我们以word2vector的方式计算出词向量之间的相似相关度所以当有2个item我们想要分析他们是否相似时就可以先找出item的向量表达去比对向量之间的距离距离越短也就意味着相似度越高。基于标签的向量召回也是相似的思路基于用户行为序列可以理解为在一次会话中用户会产出一系列点击序列这些点击序列就像一个兴趣流转的sectence 利用同样的思路就像商品表达的连贯的一个标题我们也可以通过类似的方式计算出item之间的相似度。

如果说大家不太清楚向量召回能够给我们的效果带来多大的提升的话我们也可以进行一些平台化的实验然后去通过查看实验报表的这样的一种形式去看这一路召回是不是起到了比较重要的作用。

四新品算法策略

新品算法策略比较容易理解就是我们新发布的这样的一些商品或者内容的推广的策略。在推广的过程中首先我们要让整个系统去知道哪些商品哪些内容是新品这就要求对于我们字段上比如说pub_time、字段要进行实时更新或者说是更加准确的更新。

在这个过程中我们其实都知道新品它是一个冷启动的问题在我们没有任何行为的条件也不知道新品质量的条件下去做一个分发有可能会打击到我们的效果数据因为有一些新品它的质量并不是很好我们去推荐出来了就会损失一些点击损失一些购买量。

在这个过程中我们可以提供基于策略的方案上文提到我们在基于用户的历史偏好的时候就已经计算出来了用户的一些兴趣标签这时我们也可以利用到新品的算法策略里比如我们可以基于用户的偏好类目去做扶持偏好品牌去做扶持以及我们基于标签去做扶持。除了有一些行业我们对新品的要求维度会更高一点我不一定要求他是有个性化的可能就要求他是要基于我们新品它发布之后整个的热度分进行排序我就想发现一个最潜力的新品然后也有可能是我就要优先新发布的内容要先上我们就去调整策略比如第6个点的优先级去进行一个调整其实我们如何去选择一个适配的算法模型也是根据我们本质的业务诉求来的比如像内容行业尤其是我们需要激励创作的点上来看的话我们对新品这块不管是它的流量它的口径都要给它开更大的一个口子让新品能够更加有效的得到曝光。

五其他典型召回算法模型

除了前文提到的算法我们也有一些其他的典型召回的算法和排序的算法智能推荐标准版给大家归档了一些比如说协同过滤、用户偏好召回、新品召回以及向量召回这样的一些召回链路并且这些召回链路里面可以让大家进行一些参数的优化。如果大家有更高阶的需求比如想要去使用高阶的算法模型可能需要我们自己去处理数据去进行一些特征工程处理产出打分表然后再注册到我们线上的模型一起组合使用这个是产品高级版会提供的功能。

三、电商行业优化最佳实践

电商行业的优化最佳实践主要围绕三个维度

第一个是如何结合c端用户的刷新过程中提供实时反馈的体验。

第二个就是在我们做这个模板标准化的产品到嵌入到我们业务系统里面的个性化推荐怎么去做好特征倾斜和效果的提升。

第三个就是个性化推荐它其实属于一个流量的入口我们如何让用户在流量的入口里面得到我们平台营销触达的价值的最大化我们可能会有一些曝光过滤、点击过滤的策略可以来组合进行配置和使用。

一实时反馈体验提升

首先实时反馈怎么来理解就是当我们的用户实时地发生一些行为的时候我们给他下次的推荐结果中就进行了进一步的跟进和反馈。比如这里面给到大家的一张淘宝页面的截图首先我们看到它曝光了很多商品当然后面这两个商品露出不全我们就认为它是无效曝光曝光了4个商品之后用户可能对张云雷代言的彩妆礼盒是比较感兴趣的他就会点击到这个商品去查看详情这就是一次点击行为如果他更感兴趣他可能还会把它去进行一个加购行为。

在这个过程中我们会发现用户对化妆品和护肤相关的内容是比较感兴趣的而且近期他加购行为表示有购买意图。我们可以首先采集到这一条点击的行为实时的回传给推荐系统另外我们希望在二刷三刷n刷的时候也会结合它的兴趣做反馈这个时候我们就可以使用刚刚在系统过滤算法中跟大家讲到我们结合于类目的这样的一个收敛优化比如我们基于商品的类目当前的商品的类目是属于国产品牌的彩妆或者彩妆套装的类目。在这些类目下我们是可以优先召回出来跟当前商品比较相似的去推荐给用户这也就是我们在配置算法优先级的时候可以把类目收敛的优先级给提高。

二特征倾斜与效果提升

比如右边我们给到的一些商品的特征首先它是美妆套装然后品牌是稚优泉店铺是稚优泉天猫旗舰店然后标签是明星联名礼盒化妆品。可能有一些商城是强调店铺的概念的有一些可能一家店会卖很多品牌我们就需要先考虑店铺和品牌对于我们这个行业来说哪个是更重要的我们会加上一些店铺和品牌的一个特征另外我们认为消费决策上我们这个标签是很重要的我们是可以去调整标签的优先级。

判断的逻辑就是我们认为消费决策或者兴趣决策它的首要特征是什么次要特征是什么我们的维护是否是相对来说比较优质的来调整这一路召回的一个优先级去提升我们的推荐效果。

三营销触达策略应用

购买一件商品尤其是女生在做购买决策的时候可能会加购很多过一段时间一直没有下单但是如果重复地给她推荐出来的话她会认为她还是很想买就把它下单了。这其实是消费者的心理逻辑就是在发生一个曝光点击收藏加购行为之后不一定会很快的购买可能在某个时间段意图被触达了之后就下单在这个过程中我们可以考虑在平台里去尝试使用一些营销触达的策略去帮助用户去做消费决策。

例如这里我们配置了曝光过滤的时间是3天点击过滤的时间是1天这意味着我们第一次看到这些商品比如这4件商品里面对太阳帽和服装进行了曝光和点击而其他就只有曝光。在一天之后它不一定是这样的排序在我们的页面里面它可能又出现了我之前点击过的一个商品系统给了他一次重复曝光的机会如果这一次用户又发生点击行为系统还可以再给他一次重复曝光的机会。如果说这次重复曝光机会触发了用户的购买也到了这样的一个曝光过滤的时间系统就不会再推荐了。

如果系统给了一次重复推荐的机会但是用户没有点击它表示暂时用户对它已经没有了系统也不会再对它进行一个二次推荐理想的状态就是在我们重复推荐的过程中去促进用户消费的决策和下单这个也是我们电商行业里面比较常见的一种策略。

像一些长视频、长内容会涉及到我们的停留时长的优化的时候我们也可能会使用到类似的策略。

四、内容行业最佳实践

一多地域/多Feature划分页面搭建

如果内容社区里面涉及到多个地域或者多个feature的一个划分它也可能涉及到一些用户的逻辑比如有些用户我们需要对它做一些特殊的过滤青少年模式比如特殊的 VIP用户就不给他展示某类标签。在这个过程中我们如果选择以往的场景搭建的形式可能会滋生出来很多个场景上百上千个场景对于运维来说是非常难以去维护的。这个时候我们内部是有一套推荐功能叫在线属性过滤大家可以利用地理位置的特征细分品类的特征给视频打上的特殊的标签的特征去对它进行一些交集并集最终拿到一个推荐过滤的结果然后绑定在一个场景上我们可以在这一个场景上去进行多个这样属性过滤的逻辑拼装从而产出多个推荐的落地页面这样去提升我们的运维效率方便我们更快的进行调优。

二推荐内容时效性调整

时效性指的是在我们推荐的结果中我们希望内容的时间分布大概是一个什么样的维度比如我们的一些对时效要求很强的行业尤其是新闻的行业我们会希望推荐的内容如果它超过5天了发布时间超过5天就不再进行推荐了在从它发布到它失效的过程中我们也可能会发生一些上下架这样的操作。在这个过程中我们可以结合我们的时效性去设置物品过滤规则并且在我们急需发布的内容我们可以给它进行加权的操作然后我也可以去进行上下架的调控来保证它在失效时间之内能够得到一个有效的分发。

三优质作者激励

最后一个点是优质作者的激励尤其在新内容的扶持上以新品来说比如我会要求最近20天内发布的最近7天发布的能够得到一个有效的推广因为这也是内容社区的生命力之一我们希望新发布的内容能够有效的得到曝光首先可以去设置一个新品的口径我们认为几天内发布的是新品然后就是给它的流量流量是从一个统计维度来说的比如我们整个平台分发出去多少商品和分发出去多少内容这些内容有多少是属于口径内的整体的流量分布而不是具体到每一个用户的流量分布以及刚刚提到的新品的分发策略是按照兴趣做分发还是按照发布时间做分发还是按照热度做分发这个也是可以结合我们的业务需求去进行一定的策略调整的。

五、结语

以上就是这次跟大家分享的内容如果大家对这个产品是比较感兴趣的可以去试用我们首月首购100元的活动试用完成之后也可以提升配套标准版去解锁我们更高阶的召回模型的干预优化以及实验平台的功能。

感谢大家的阅读。

本文转自网络，原文链接：https://developer.aliyun.com/article/785369
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：SCRUM 下一篇：“掌上志愿”App引入阿里云PolarDB数据库平稳应对数十倍突发流

随机推荐

步骤一：基础配置_弹性云服务器 ECS_快速

前提条件请您在购买前确保已完成注册和充值。详细操作请参见如何注册公有云管...
数据为先，“1+N”模式推动智慧教育创新

信息化2.0时代提出开展智慧教育创新发展行动。2019年2月，中共中央、国务院印发...
Docker生成新镜像版本的两种方式

Docker生成新镜像版本的两种方式 There are two ways Docker can generate new m...
实时数仓入门训练营：Hologres 数据导入/

本文整理自直播《Hologres 数据导入/导出实践-王华峰(继儒)》视频链接: https:/...
建站什么虚拟主机够用

建站什么虚拟主机够用？这要看搭建的是什么类型的网站。比如个人博客类型的网...
高并发服务遇redis瓶颈引发time-wait事故

摘要元旦期间订单业务线告知推送系统无法正常收发消息，作为推送系统维护者...
关于 Node.js 中的异步迭代器

从 10.0.0 版开始，异步迭代器就出现在 Node 中了，在本文中，我们将讨论异步迭...
用于数据可视化的9款主流分析工具！

【51CTO.com快译】数据可视化工具不断发展，提供更强大的功能，同时改善可访问...
星环科技TDS 为数据全生命周期管理提供一

2021年3月24日，主题为《数据的世界，世界的数据》的星环科技2021春季新品发布会...
就凭这3点，可以完全理解Python的类方法

在Python语言中有如下3种方法：成员方法类方法(classmethod) 静态方法(staticm...

AIRec个性化推荐召回模型调参实战（电商、内容社区为例）

推荐图文

达摩院重要科技突破！空天数据库引擎Ganos解读

阿里云CDN/DCDN加速安全助力企业出海，原生防护延伸

详解LongAdder实现原理

数据科学50年，数据科学家是否依然是21世纪最性感的

新疆喀什疫情｜疫情之下：大数据的洞察力

2021 的 Node.js 开发人员路线图

随机推荐

步骤一：基础配置_弹性云服务器 ECS_快速

数据为先，“1+N”模式推动智慧教育创新

Docker生成新镜像版本的两种方式

实时数仓入门训练营：Hologres 数据导入/

建站什么虚拟主机够用

高并发服务遇redis瓶颈引发time-wait事故

关于 Node.js 中的异步迭代器

用于数据可视化的9款主流分析工具！

星环科技TDS 为数据全生命周期管理提供一

就凭这3点，可以完全理解Python的类方法

关于我们