前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >画像平台主要功能

画像平台主要功能

原创
作者头像
张叔叔讲互联网
发布2023-10-04 18:03:46
3890
发布2023-10-04 18:03:46
举报

本文介绍画像平台4个功能模块:标签管理、标签服务、分群功能和画像分析。

标签管理

为了高效地使用画像标签,需要对标签进行统筹管理。标签管理最基本的功能是对标签进行增删改查操作,其中新增标签的方式多种多样;其次是围绕标签数据的信息管理,其中包括标签的分类、标签值分布以及标签生产调度信息等。

1. 标签增删改查

标签是画像平台的数据基石,基于标签数据才能衍生出画像平台的各种功能。标签管理主要功能是支持标签的增删改查操作,其中增加标签是标签管理的核心功能。标签管理支持通过不同的方式添加标签。添加标签可以根据标签数据源分为两类:基于现有数据统计获取和基于外部数据导入。

基于现有数据统计获取的标签示例:基于用户购买行为数据可以产出标签“最近一周总购买次数”,即根据每日购买行为数据统计出最近一周的购买次数;基于用户送礼行为统计“距今最近一次送礼天数”、“近一个月平均送礼金额”;基于用户登录行为统计出“使用App高频用户”和“低频用户”、“用户的活跃等级(低活、中活、高活)”等。以上新标签的产出都是基于已有的某一组数据,也可以通过组合多组数据共建一个新标签。比如基于职业和历史消费行为,可以新增“是否高消费白领”标签;基于出生日期和兴趣爱好,可以添加“二次元青少年”标签。图2-1展示了新增规则统计类标签的功能示意图,可以基于现有的属性和用户行为数据构建新的标签并指定其更新频率。

 图2-1 基于规则统计新增标签功能示意图
图2-1 基于规则统计新增标签功能示意图

基于外部数据导入创建标签的示例:用户的兴趣标签可以基于文件或者现有数据表进行导入创建,比如将Hive表中存储的用户兴趣数据导入到画像平台构建“兴趣爱好”标签;基于Excel文件上传用户的婚姻状况数据可以构建新的标签“是否已婚”。图2-2展示了基于Hive表和Excel文件上传数据并创建标签的功能示意图。

 图2-2 基于数据导入方式创建标签功能示意图
图2-2 基于数据导入方式创建标签功能示意图

标签管理功能支持对标签进行修改和删除的操作。标签在使用过程中会暴露出一些问题,此时需要对标签进行修改。比如“用户活跃度”标签中的高活跃用户统计规则随着业务发展需要进行调整,其统计口径由原来的“最近一个月活跃天数超过15天”改为“最近一个月活跃天数超过20天”;比如某些标签生产逻辑复杂且资源消耗大,然而使用率却较低,此时可以对标签进行删除操作,停止该标签的后续生产并及时清理存储空间。图2-3展示了标签列表页功能示意图,左侧展示了标签的分类,右侧展示了标签列表以及常见功能。

 图2-3 标签管理常见功能示意图
图2-3 标签管理常见功能示意图
2. 标签数据管理

为了方便管理大量标签,可以对标签进行分类;为了了解标签数据是否正常,可以借助标签值分布情况进行分析;为了掌握标签的生产情况可以统计标签生成信息。标签管理功能可以支持上述3种标签数据管理功能。

标签分类管理功能:随着标签数量的增加,选择并使用标签的过程逐渐繁琐。通过标签分类对标签进行合理划分可以提高后续使用标签的便捷度,而且能够提高标签使用的准确率。借助标签分类还可以满足一些特殊场景需求,比如对指定分类下的标签进行权限控制;通过标签分类构建标签专场来提高标签的认知度和使用范围。

标签分布功能:一个标签有多个不同的标签值,比如性别标签的取值有男、女,兴趣爱好的标签值有军事、娱乐等,用户活跃度标签值分为高活、中活、低活,那不同标签取值覆盖的数据比例是多少?这个需要借助标签值数据分布功能来查看。通过该功能可以了解指定标签下不同取值的分布情况,比如男女比例,兴趣爱好分布,利用该分布数据可以加深对业务的了解;基于分布数据可以做标签监控,当标签值分布波动较大时可以发出报警信息并及时修正标签数据,防止底层数据异常影响上层应用。图2-4展示了标签分布功能示意图,图中展示了性别标签的男女占比以及过去一段时间的占比趋势变化。

 图2-4 标签分布功能示意图
图2-4 标签分布功能示意图

标签服务

标签服务主要以数据服务的形式存在,一般通过接口或者底层数据表的形式对外提供服务,其中接口服务主要包括标签查询和元数据查询。

标签查询服务:标签数据可以进行数据服务化并支持标签查询功能,比如给出用户ID可以返回该用户的性别、年龄等标签信息;给出设备ID可以返回设备操作系统、App版本等信息。标签查询服务最终可以通过微服务的形式对外提供,大部分场景下标签查询请求量较大且QPS较高,需要支持分布式和高并发场景。图2-5展示了标签服务化功能示意图,其中展示了性别标签的服务化信息。

图2-5 标签服务化功能示意图
图2-5 标签服务化功能示意图

元数据查询服务:标签元数据包括标签名称、创建人、标签准确率和覆盖率、标签存储信息、标签生成规则、标签值及其占比分布等信息。画像平台中涉及展示标签信息的功能模块都会调用标签元数据查询服务,比如在规则类标签生成、规则人群创建等页面上需要展示出标签的基本信息以及标签值选项;为了引导用户更合理地使用标签,需要增加标签注释信息,注释中的数据口径、标签准确率和覆盖率信息等都来自元数据查询服务。元数据查询服务使用场景较多但是大部分请求QPS并不高,需要严格保证元数据的准确性。

分群功能

分群功能就是找出满足条件的目标用户并构建成人群并提供相关服务。基于底层的标签数据或者其他数据源,可以实现多种人群圈选方式;人群创建成功后,可以在其基础上支持多种附加功能;人群判存是基于人群的一种常见服务。

1、人群创建

人群创建即找到满足条件的用户并构建人群,根据圈选方式的不同可以分为规则、导入、组合、行为明细圈选等多种方式。

基于规则圈选创建人群:画像平台底层存在大量的画像标签,可以直接基于标签间的交、并、差操作进行人群圈选,比如圈选出常住省是北京且性别为男性的用户;最近一个月送礼次数超过5次且爱好军事的用户;常住省是天津或者上海,且性别为男性但不喜欢军事的用户。规则人群圈选是一种最常见、简单且易理解的人群圈选方式,图2-6展示了规则人群圈选的功能示意图,可以基于已有属性和用户行为数据进行人群创建。

图2-6 基于规则的人群圈选方式功能示意图
图2-6 基于规则的人群圈选方式功能示意图

通过导入方式创建人群:通过文件导入或者数据表导入的方式创建人群,其中数据表可以来自Hive、MySQL等各类数据源。基于规则的人群圈选可筛选的用户局限于底层标签数据所覆盖的用户范围,而导入人群可以支持任何用户,不再局限于标签数据中包含的用户,这无疑可以扩大人群所能覆盖的业务范围。图2-7展示了通过数据导入方式创建人群的功能示意图,图中展示了通过Hive表和上传文件创建人群的主要配置。

 图2-37 基于数据导入方式创建人群功能示意图
图2-37 基于数据导入方式创建人群功能示意图

通过组合创建人群:基于已有人群进行交、并、差操作可以构建组合人群,比如对于已经构建成功的A、B两个人群可以通过交并差操作构建新的人群C。组合人群可以对各类人群进行上层组合,满足了更加多元的圈选需求。

基于行为明细的人群圈选:行为圈选是基于用户的行为明细数据进行圈选,其数据粒度较细且与时间紧密相关,基于这一特点,可以实现行为次数统计和行为序列圈选。行为数据的来源大部分是用户操作日志,其中记录了用户在什么时间点做了哪些事情,比如小明在2022-03-18 08:00:00给小红的视频进行了点赞。基于此类行为数据,可以统计出在指定时间范围内对指定视频点赞超过10次的所有用户,或者在该段时间内先后发生了点赞和评论行为的用户。

上面是几种常见的人群圈选方式,但是不同场景下对于人群圈选方式的要求不同,下面再介绍两种特殊场景下的人群圈选方式。

人群LookALike:人群LookALike是借助算法能力实现人群的放大与缩小。给定一个种子人群,可以根据相似规则找到与该种子人群相似的用户并产出目标人群。比如电商场景下提供了用户量级为100万的高消费种子人群,利用用户之间消费行为相似这一特点可以找出种子人群中每个用户最相似的10个用户,最终被放大为1000万的目标人群。同理也可以借助算法能力进行种子人群缩小,找出其中最满足条件的用户。

以上就是常见的一些人群圈选方式,更多圈选方式以及实现方案会在后续章节做详细介绍。

2. 人群附加功能

为了方便使用人群,需要在人群基础上添加一些附加功能,常见的功能包括人群编辑与重算、人群拆分、人群自动更新和下载等操作。图2-8展示了人群列表中的附加功能示意图,其中人群支持多种附加操作。

图2-8 人群管理常见附加功能示意图
图2-8 人群管理常见附加功能示意图

人群拆分与截取:当一个人群用户量较大而业务只需要其中一部分用户时,需要对人群进行拆分或者截取。拆分是在原来人群的基础上随机拆出一定比例的用户,比如100万量级的人群按20%随机拆分可以构建一个20万用户的子人群。当一个大的人群需要同时拆分成多个子人群时,各子人群之间需要保证互斥性,即不同子人群之间没有重叠用户。截取发生在人群生成的过程中,比如按照在线时长截取头部20万的用户,此时会在生成人群的过程中按照在线时长大小对用户排序后进行截取。拆分和截取是在不同阶段从一个较大的人群中找到更小范围用户的常见功能。

人群自动更新:有些人群需要每日定时更新来满足业务需求,比如每天需要给昨日新增且有点赞行为的用户发红包,这就需要支持人群自动更新功能。自动更新可以支持每日更新、每周更新或者指定任意天数更新;也可以指定人群自动更新的时间范围,防止无限期的更新造成资源浪费。人群自动更新带来了人群版本的概念,需要记录当前人群版本信息,方便后续数据追溯。

人群下载:画像平台用户有时需要将人群下载成指定格式,比如TXT、Excel或者Hive表等格式。如果人群涉及权限控制,当数据导出时需要进行权限校验;数据导出到Hive表中也要考虑后续使用者的数据表权限问题。

人群抽样:人群创建完成之后,为了校验其中用户是否满足既定条件,可以对人群随机抽样然后人工校验。抽样功能需要支持在人群中快速随机找到一定数目的用户,并结合其他业务属性进行展示。

3. 人群判存

判断指定用户是否在给定的人群中即人群判存(或者叫判定)。业界判存的实现思路主要有两种:第一种是基于实际人群的判存,此时人群已经创建完成,通过判断给定用户是否在当前人群中即可实现判存,其实现逻辑比较简单;第二种是基于虚拟人群的判存,判存不再依赖实际产出的人群而只是一些简单的配置规则,比如判断用户是否属于北京市男性人群,只需要通过标签查询服务获取该用户的常住省和性别标签信息,如果标签数值是北京市和男性,那说明该用户在人群中。第一种方式比较通用,适用于任何类型的人群;第二种方式具有一定的局限性,仅限于规则人群的判存。

人群判存主要以接口服务的形式对外提供,画像平台功能层面可以提供人群判存配置入口,用户可申请使用人群判存服务并配置判存服务有效时间,系统在有效期内提供判存服务,过期后判存服务失效并释放判存服务所用资源。

画像分析

如果需要更深入地了解单个用户或者人群特征,需要借助标签数据进行画像分析。基于标签数据可以实现人群分布分析、指标分析、下钻分析和交叉分析等功能;基于用户行为明细数据可以实现事件分析、留存分析、漏斗分析等;针对单个用户最常见的功能是用户画像查询功能;人群投放效果可以通过投放分析功能展示出来。

1. 人群画像分析

人群画像分析是针对用户群体做画像分析,其画像分析内容包括人群分布分析、指标分析、下钻分析和交叉分析等。人群分布分析是计算人群在指定标签上不同标签值的占比情况,比如性别标签的男女取值分布,理论上各标签值分布之和为100%,通常使用饼图进行结果展示。指标分析是针对指标类标签的分析,比如最近一周平均在线时长、最近一周点赞次数变化等,通常使用折线图进行结果展示。交叉分析主要针对用户群进行多维度交叉分析,比如不同性别下的年龄段分布、不同省份下的兴趣分布等,通过交叉分析可以更深入地了解人群特征分布情况。

人群画像分析可以分为人群即席分析和人群离线分析,其适用的人群类型不同。人群即席分析只适用于可基于标签进行规则筛选的人群,但是对于导入类人群需要通过离线计算的方式进行画像分析。比如用户通过文件上传的方式创建了一个人群,要分析该人群画像数据,需进行异步的离线计算后再将分析结果展示给用户,虽然分析结果产出较晚,但是这种人群画像分析方式适用于所有类型的人群。图2-9展示了人群即席分析的功能示意图,其中展示出了被筛选人群的画像分析和指标分析结果。

图2-9 人群画像分析功能示意图
图2-9 人群画像分析功能示意图

很多场景下需要对多个人群画像结果进行对比分析,比如通过对比给定人群与大盘日活用户来查看人群的主要特点。数据分析领域往往使用TGI(Target Group Index)来进行对比分析,通过不同人群间相同标签值的占比数据计算出TGI数值便可以找到其显著差异点,这些差异点具有很高的数据分析价值。

提示:TGI = [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例] * 标准数100。

2. 行为明细分析

行为明细分析是基于用户行为数据的分析,目前业界比较主流的分析模型包括事件分析、漏斗分析和留存分析。

事件分析是对用户行为中所涉及事件的分析。用户行为可以映射到具体的事件上,比如用户的登录行为对应到登录事件,用户浏览推荐商品列表可以对应到访问商品页面这一事件。事件分析可以筛选出满足条件的事件并统计其所涉及的各类指标数值,比如统计最近一周首页访问量;统计并分析最近一个月北京市有过购买行为的用户量等。

漏斗分析即通过漏斗图的方式展示分析结果,主要用于对一个有多步骤的流程进行整体分析。比如用户在某电商平台的购买流程包含浏览商品、点击商品详情、发起拼单、立即支付、支付完成等步骤,漏斗分析可以将该流程视为一个整体,分析其中各重要步骤的转化率和随时间的变化情况。图2-10展示了漏斗分析的功能示意图,图中展示了购买流程的漏斗转化数据。

 图2-10 漏斗分析功能示意图
图2-10 漏斗分析功能示意图

留存分析可以统计满足某初始条件的用户,在后续发生留存行为的数据分布情况。传统的留存分析主要是分析用户活跃情况,即新增用户后续是否继续使用产品功能,其实对于新增用户后续是否发生购买行为,是否发布评论等其他行为也可以纳入留存分析的范畴。借助留存分析可以了解用户的使用情况,从而反映产品对于用户的价值大小。

以上是几种常见的行为分析模型,业界常见的分析模型还有页面分析、指标分布分析、行为跨度分析和商业价值分析等,其底层依赖的数据都是用户行为数据,只是上层构建的分析模型不同。

3. 单用户分析

单用户分析最常见的功能是用户画像查询,比如查询某个大V账号的画像信息,其返回结果包含性别、年龄、兴趣爱好、使用偏好、常住省等内容。运营人员借助该功能可以对用户有一个更加深入的了解和认识,从而辅助进行更好的大V运营。用户画像查询功能还可以用来排查问题,比如在用户举报、青少年保护上面都可以通过画像数据来核对用户信息,提高问题排查效率和准确度。配合用户画像查询功能可以拓展标签数据异常反馈功能,当用户在查询画像数据时,对于错误标签值可以进行反馈,基于反馈信息可以及时对标签数值进行纠错,提高标签的准确率。图2-11展示了用户画像查询的功能示意图,右侧通过词云的形式展示了该用户的主要特点。

图2-11 用户画像查询功能示意图
图2-11 用户画像查询功能示意图

以上是画像平台常见的功能汇总,通过标签管理功能实现了标签的增删改查,有了标签便可以提供标签服务;基于标签数据可以实现分群和画像分析功能,其中分群功能根据业务特点可选择不同的实现方式,人群画像分析支持分布分析、指标分析及交叉分析等功能;人群大多会应用到投放场景中,可以通过投放分析功能分析人群使用效果。

本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 标签管理
    • 1. 标签增删改查
      • 2. 标签数据管理
      • 标签服务
        • 1、人群创建
          • 2. 人群附加功能
            • 3. 人群判存
              • 1. 人群画像分析
                • 2. 行为明细分析
                  • 3. 单用户分析
                  相关产品与服务
                  大数据
                  全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
                  http://www.vxiaotou.com