首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

行业知识图谱在贝壳的应用实践

导读:现如今传统行业纷纷拥抱互联网,将业务逐渐线上化。但由于传统行业的数字化程度不高,以及信息流通速度比较慢,导致难以快速了解到市场发生的变化以及自身所处的位置。而行业知识图谱技术通过合理的引入内部和外部数据,并进行充分的融合和挖掘,可以清晰的看到行业整体的发展趋势,更好的赋能传统行业的进一步发展。

本文将从以下几个方面进行阐述:

为什么要做行业知识图谱

首先回答下上面的三个问题:

1. 我是谁

通过对公司内部数据,如业务流水交易数据,行为数据等进行分析,可以准确的了解到自身的发展状况。比如对贝壳找房的相关内部数据分析,可以知道目前的门店数有13000多家,以及具体的体量规模,挂牌交易量和覆盖人群等情况。但仅内部数据难以准确的描述公司在整个市场中的位置。

2. 我在哪

通过引入外部数据,可以定量化的描述行业整体的发展状况,从而了解自身所处的位置。比如通过业界对贝壳的评价,以及一些市场行业数据的分析,可以得到贝壳的交易规模和房源挂牌量都是业界第一。从横向维度上进行比较,即与房产中介和房源平台对标的情况,可以知道贝壳找房现为业界领头羊;从纵向时间维度上来看,可以对比十年前的自己和竞争对手与现在的自己的变化情况;从数据上来看,比如门店挂牌量和门店带看量可以反映经纪人作业的情况,或者通过区域门店与GMV的占比来进一步明确自身的市场定位。

3. 我去哪

通过融合后的行业数据图谱对行业整体进行分析,可以清楚的看到市场潜在的增长空间和增长方向,从而更好的设定自己的发展目标和价值追求点。比如贝壳找房的愿景是服务2亿家庭的品质居住平台。

行业知识图谱解决问题的思路

1. 做什么

经过自我剖析和了解市场后,可以制定明确的发展目标和具体实现的步骤、方案,以及合理的效果评价,从而形成一个正向的循环过程。

举例来说,通过行业图谱,明确了贝壳找房发展的价值空间,如房源量预计可以年增长11%。基于此便可以制定公司层面的核心目标,比如GMV的年增长率。再然后到具体的业务部门,为了促进GMV的增长,可能需要提高差异化的房源增量线索供给。进一步的,依据业务目标就可以制定技术目标,即搭建我们的情报分析平台,以及引入更多的数据。

2. 怎么做

首先需要有一套知识图谱技术应用的框架:

具体有:

  • 智能问答:比如对话助手,智能客服,和经纪人的知识赋能。
  • 智能推理:基于图谱的关联关系进行推荐搜索,并给出排序理由,以及利用智能推理实现文本生成。
  • 社区发现:有风控预警,用户画像,和知识融合。

有了技术平台后,便可以构建情报系统。包括提供给决策者或作业人员使用的提效工具,以及线索增量和大盘决策等应用。

3. 做啥样

通过算法,数据和应用,构建起整体的技术平台:

重点是要评价目标的达成效果和目标设定本身。从而解决垂直领域在情报上的欠缺。

行业数据引入的逻辑和方法

为了构建行业知识图谱,需要引入的外部数据有以下五个方面:

  • 对标竞品:竞争对手的产品情况。
  • 专业内容:房地产政策,如金融,原材料,宏观经济情况。
  • 上下游:开发商,物业,建筑商等。
  • 环境周边:医院,学校等POI点
  • 用户群体:长租住户,短租住户等

数据加工的过程和实体融合

通常引入的不同来源的数据格式多种多样,因此需要经过数据清洗和实体融合的过程。对于贝壳找房来说,重点融合小区,楼栋,门店,指标体系这几方面的数据。

小区的融合:贝壳目前的覆盖的小区有40多万,只占到70%左右。通过数据融合,得到全国小区73万,准确率有98%。从而确定贝壳在小区维度之后的发展方向。

门店的融合:因为成交数据难以获取到,通常采用门店数据量的对比间接评价与竞品之间的价值比例。

行业图谱的建立和情报分析的过程

1. 行业图谱的建立

目前,贝壳构建好的行业图谱包含的三元组数量有480亿。实体类型有经纪人,门店,学校,公园,房源,购物中心,幼儿园等140多个类别,主要采用其中高频的60多个。关系数量有230个,加上属性有1800个左右。目前采用的存储平台从以前的Neo4j和JanusGraph,逐渐迁移到Dgraph。

图谱建立的难点在于如何构建图谱的关联关系,因此需要相关的业务专家支持才能做好实体的属性。另外,通过在公司层面建立图谱编辑平台,从而统一不同部门的所构建的图谱本体。

2. 情报分析的能力

通过构建好的图谱,可以大大提高情报分析的能力,主要包括三个方面:

提效:包括报盘匹配和门店选址两个应用。报盘匹配是将成交的房源与具体的门店进行关联,之前主要由经纪人来完成,现在通过图谱,可以实现90%-80%的准召率;门店选址是通过对某个区块内的门店数,商业体,人流量等进行加权计算,从而得到给定区域可以容纳的商家数,以及最佳选址。该功能目前还在研发中。

增量:由于某些小区没有在内部挂牌,或者地址不准确,可能导致搜索没有数据,从而不能进行相应的关联推荐。但通过情报系统可以了解到其他商家挂牌的小区,从而更好的辅助经纪人作业。

决策:GMV数据通常不能直接得到,但可以通过挂牌数,门店数和经纪人作业情况等数据来模拟得到GMV数据,从而为贝壳的进一步发展给予指导。

行业知识图谱在智能应用上的作用和表现

目前基于贝壳行业知识图谱开发的应用有:

小贝助手:IM场景下基于三元组的知识问答。当经纪人接受多个客户的同时咨询时,可以对客户问题进行相应答案的提示,从而提高经纪人的回答准确率,为经纪人提效。

搜索效果:当搜索不到任何结果时,可以推荐对应的站外热度,相关房源和对应的地址。

AI讲房:主要是VR看房场景的文稿自动生成。

今天的分享就到这里,谢谢大家。

作者介绍

孙拔群,贝壳找房行业知识图谱负责人

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/BpfhuI7A1MetR0CPV4xR
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com