当前位置：主页 > 查看内容

500行SQL快速实现UCF

发布时间：2021-06-08 00:00| 有位朋友查看

简介：写在前面话 UCF通常是User-base Collaborative Filter的简写;大体的算法思路是根据用户行为计算相似群体(邻居)，为用户推荐其邻居喜好的内容；感觉是不是很简单、那废话不多说先撸个SQL。 SQL selectuid1,uid2,sim from( selectuid1 ,uid2 ,cnt12/sqrt(cnt1*……

写在前面话

UCF通常是User-base Collaborative Filter的简写;大体的算法思路是根据用户行为计算相似群体(邻居)，为用户推荐其邻居喜好的内容；感觉是不是很简单、那废话不多说先撸个SQL。

SQL

select uid1,uid2,sim 
from ( 
    select uid1 
        ,uid2 
        ,cnt12 / sqrt(cnt1*cnt2) sim 
        ,row_number() over(partition by uid1 order by cnt12 / sqrt(cnt1*cnt2) desc) sim_rn 
    from ( 
        select a.uid uid1 
            ,b.uid uid2 
            ,count(a.iid) cnt12  
        from tb_behavior a 
        join tb_behavior b 
        on a.iid = b.iid 
        where a.uid <> b.uid 
        group by a.uid,b.uid 
    ) a12 
    join (select uid,count(iid) cnt1 from tb_behavior group by uid) a1 
    on a12.uid1 = a1.uid 
    join (select uid,count(iid) cnt2 from tb_behavior group by uid) a2 
    on a12.uid1 = a2.uid 
) tb_neighbour 
where sim > 0.1 and sim_rn <= 30

读者实现的话只需要把上面的tb_behavior表替换成自己业务的用户行为即可；iid,uid分别对应物品id和用户id;

根据共现相似度，即共同喜好的物品个数比上各自喜好物品总数乘积取平方；最后截断用户最相似的前30个邻居作为推荐的依据。

上面构造了邻居表，下面就是根据邻居的喜好为用户推荐了，具体sql如下：

select uid1,iid 
from ( 
    select uid1 
        ,iid 
        ,max(sim) score 
        ,row_number() over(partition by uid1 order by max(sim) desc) user_rn 
    from tb_neighbour a12 
    join (select uid,iid from tb_behavior) a2 
    on a12.uid2 = a2.uid 
    join (select uid,collect_set(iid) iids1 from tb_behavior group by uid) a1 
    on a12.uid1 = a1.uid 
    where not array_contaions(iids1,a2.iid) 
    group by uid1,iid 
) tb_rec 
where user_rn <= 500

这里说明下包括上面的top30邻居和用户top500的最大推荐列表都是工程优化,截断节约些存储；具体读者可以根据自己业务需要进行设置；

然后大概说下各个表的含义：a1表是用户已消费过的物品，a2表是用户每个邻居喜好的物品;那么也就是说从邻居喜好的物品中过滤掉已经消费的

物品整体根据共现相似度进行排序。

思考

但思路很简单、实际作者开发中总会遇到各种各样的问题，下面就捡几个主要的和大家一起讨论下：

1.join引起的数据倾斜问题：tb_neighbour表很大，往往热点物品会占据80%的曝光和消费记录，如何解决？
2.增量更新问题：上面的框架，tb_behavior表每次都是全量计算，是否能改造成增量更新邻居表和推荐结果，并减少计算时间呢？

join引起的数据倾斜问题

先思考问题1，既然我们目的是求相似邻居，物品join只是为了关联上一组用户对，那自然的想法是可以根据feed做近似采样、相似度精度也几乎无损失。

下面我试着实现下这种思路：

with tb_behavior_sample as ( 
    select uid,iid  
    from ( 
        select uid 
            ,iid 
            ,row_number() over(partition by iid order by rand()) feed_rn 
        from tb_behavior 
    ) bh 
    where feed_rn <= 50000 
)  
 
select uid1,uid2,sim 
from ( 
    select uid1 
        ,uid2 
        ,cnt12 / sqrt(cnt1*cnt2) sim 
        ,row_number() over(partition by uid1 order by cnt12 / sqrt(cnt1*cnt2) desc) sim_rn 
    from ( 
        select a.uid uid1 
            ,b.uid uid2 
            ,count(a.iid) cnt12  
        from tb_behavior_sample a 
        join tb_behavior_sample b 
        on a.iid = b.iid 
        where a.uid <> b.uid 
        group by a.uid,b.uid 
    ) a12 
    join (select uid,count(iid) cnt1 from tb_behavior group by uid) a1 
    on a12.uid1 = a1.uid 
    join (select uid,count(iid) cnt2 from tb_behavior group by uid) a2 
    on a12.uid1 = a2.uid 
) tb_neighbour 
where sim > 0.1 and sim_rn <= 30

这里用了hive的with as语法，读者可自行查阅，篇幅有限，就不展开了；feed_rn就是随机采样了50000条，实际操作时读者可以先统计下item的分布、大概找到一个阈值；

比如取top10的item的出现次数作为阈值；那计算相似度时分子最多减小10，分母不变。这对大多数情况精度应该足够了，而且因为避免了数据倾斜，大大降低了计算时间。

增量更新问题

问题2是一个工程问题，lambda架构能使初始结果效果不错，可直接上线灰度了；在此基础上再加小时或者天增量；kappa架构相对就比较繁琐、需要一开始就设计增量流程。

精度方面也需要一定的累积；不过如何选择，读者可以根据自己的数据量和熟悉程度自行选择；作者这里仅以kappa架构说明。

重新review上面sql，我们发现我们仅需要记录下cnt12,cnt1,cnt2,iids1这些计算关键即可，其中iids2是用户邻居喜好的物品数组；数值类型可累加更新、

数组类型合并起来比较麻烦，一种解决方案是注册UDF；这里采取另一种这种的方案：把iids1合并成字符串，过滤的时候再分割为字符串数组。

with tb_behavior_sample_incr as ( 
    select uid,iid  
    from ( 
        select uid 
            ,iid 
            ,row_number() over(partition by iid order by rand()) feed_rn 
        from tb_behavior_incr 
    ) bh 
    where feed_rn <= 50000 
)  
 
insert overwrite table tb_neighbour 
select uid1,uid2,sim 
from ( 
    select uid1 
        ,uid2 
        ,sum(cnt12) / sqrt(sum(cnt1)*sum(cnt2)) sim 
        ,row_number() over(partition by uid1 order by sum(cnt12) / sqrt(sum(cnt1)*sum(cnt2)) desc) sim_rn 
    from ( 
        select uid1,uid2,cnt12,cnt1,cnt2 
        from tb_neighbour 
        union all 
        select a.uid uid1 
            ,b.uid uid2 
            ,count(a.iid) cnt12  
            ,cnt1 
            ,cnt2 
        from tb_behavior_sample_incr a 
        join tb_behavior_sample_incr b 
        on a.iid = b.iid 
        where a.uid <> b.uid 
        group by a.uid,b.uid  
    ) a12 
    join (select uid,count(iid) cnt1 from tb_behavior_incr group by uid) a1 
    on a12.uid1 = a1.uid 
    join (select uid,count(iid) cnt2 from tb_behavior_incr group by uid) a2 
    on a12.uid1 = a2.uid 
    group by uid1,uid2 
) tb_neighbour 
where sim > 0.1 and sim_rn <= 30

其中tb_behavior_sample_incr,tb_behavior_incr是相应tb_behavior_sample,tb_behavior的增量表；使用union all和group by聚合相同用户对的结果

kappa架构初次计算即是增量，不断累积每次增量的结果更新tb_neighbour；相当于lambda初始全量计算的一种回放，直至追到最新的时间分区。

insert overwrite table tb_user_consume 
select uid,substring_index(concat_ws(",",collect_list(iids1)),",",10000) iids1  
from ( 
    select uid,concat_ws(",",collect_set(cast(iid as string))) iids1 
    from tb_behavior_incr 
    union all 
    select uid,iids1 
    from tb_user_consume 
) a 
group by uid 
 
select uid1,iid 
from ( 
    select uid1 
        ,iid 
        ,max(sim) score 
        ,row_number() over(partition by uid1 order by max(sim) desc) user_rn 
    from tb_neighbour a12 
    join (select uid,cast(iid as string) iid from tb_behavior_incr) a2 
    on a12.uid2 = a2.uid 
    join (select uid,split(iids1,",") iids1 from tb_user_consume) a1 
    on a12.uid1 = a1.uid 
    where not array_contaions(iids1,a2.iid) 
    group by uid1,iid 
) tb_rec 
where user_rn <= 500

使用tb_user_consume缓存用户最近消费的前10000条记录，将用户邻居最新喜好物品推荐给用户。

写在后面的话

呼！终于写完了；虽然说有了上面这一套操作，UCF推荐基本完成；但有没有更好的方式呢？我想应该就是embedding大法了吧；比如item2vec对用户聚类，根据聚类

推荐；再或者根据好友关系，推荐好友喜好的物品。前者表征更细致，值得一说的是其也有负采样策略和checkpoint增量更新；后者好友信任度更高，解释性更强。

本文转载自网络，原文链接：https://www.cnblogs.com/arachis/p/UCF.html?utm_source=tuicool&utm_medium=referral
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：在Monorepo中，如何使用Maven对多个微服务进行版本控制？ 下一篇：Java关于延迟加载的一些应用实践

随机推荐

2020年中国网络安全产业高峰论坛在京成功

11月30日，由工业和信息化部、北京市人民政府共同主办的2020年中国网络安全产业...
IDC：2020上半年，云运营服务市场规模为1

据国际数据公司(IDC)近日发布的《中国云运营服务市场(2020上半年)跟踪》报告显示...
重口味说说：感觉不是我在上学，而是学在

1．爱上一个人跟拉屎一样简单，忘记一个人跟吃屎一样难。 2．大姨妈是吐血鬼，卫...
阿里云与西奥电梯达成深度合作推出可信

阿里云与西奥电梯联合共同打造西奥可信电梯物联网平台，通过工业互联网的规则引...
[leetcode/lintcode 题解] 国内大厂面试

private Map Character, Set Character constructGraph(String[] words) { Map C...
搭建一个微服务商城到底可以有多快？

作者阿里云技术运营望宸技术实践的门槛不仅在于应用上线后各类问题的排查难度 ...
2021年Python程序员必备的VS code插件

今天，猿妹要和大家介绍Python程序员在2021年最不应该错过的优秀VS Code扩展： 1...
ssd云服务器是什么

ssd 云服务器是什么？就是存储模式选择为ssd超高速云盘的云服务器。ssd超高...
企业搜索-Elastic Stack 实战手册

作者：朱永生什么是企业搜索企业搜索，顾名思义，就是企业使用的搜索服务或者...
办网站必须要备案吗

办网站必须要备案吗？是的，使用中国大陆境内的服务器开办网站，必须先办理网站...

500行SQL快速实现UCF

写在前面话

SQL

思考

join引起的数据倾斜问题

增量更新问题

写在后面的话

推荐图文

K8S调度器优选策略讲解（1）简介

图解经典的进程调度算法

58到家

公司邮箱如何群发邮件

大数据时代，必须做好这3大布局：才能抢占新的造富

威瑞信2020年第四季度报告，.com注册总量达到1.518

随机推荐

2020年中国网络安全产业高峰论坛在京成功

IDC：2020上半年，云运营服务市场规模为1

重口味说说：感觉不是我在上学，而是学在

阿里云与西奥电梯达成深度合作推出可信

[leetcode/lintcode 题解] 国内大厂面试

搭建一个微服务商城到底可以有多快？

2021年Python程序员必备的VS code插件

ssd云服务器是什么

企业搜索-Elastic Stack 实战手册

办网站必须要备案吗

关于我们