分享人 徐光伟 昆卡) 阿里巴巴达摩院算法专家
了解更多解决方案详情 https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
搜索是在线教育企业流量获取的利器截至2020年12月份教育行业月活TOP10的统计 其中具备搜题能力的软件多达5个 拍照搜题作为产品能力 可以帮助客户获取大量用户以及流量 从而为其他产品提供变现能力 正是由于这样定位 拍照搜题整体准确性和搜索效率都成为至关重要的一点 所以开放搜索对此做了很多订制优化。
教育搜题业务特点对于教育搜题业务场景归纳了三大特点
第一点海量题库 教育题库都是属于千万级别甚至到亿级别 而且不断的持续增长 同时搜题业务存在很明显的高峰现象 例如晚上七八点 节假日最后一天 这时搜题会存在非常高的QPS的波峰 搜索延迟会严重影响用户的体验。
第二点场景丰富 拍照搜题涵盖的场景越来越丰富 包括不同的年龄段 例如低年级搜题主要围绕拍照看图识字或连线题 需要更多的图片信息的题目 还包括不同的学科 目前支持的学科多达十多种 因此丰富的场景就会对搜索效果带来更大的挑战。
第三点算法需求 拍照搜题产品形态一般只会展现TOP3或者TOP5的结果 正是因为这样设定 准确性对于拍照搜题来说至关重要 同时拍照搜题还会涉及到多模态和多语言处理能力 解决图文搜索和多语言处理的需求。
开放搜索教育搜题方案架构阿里云开放搜索的拍照搜题解决方案 当用户通过拍照经过OCR识别之后的文本 经过开放搜索引擎处理后会返回TOP3-5的结果给用户得到展示 并且针对企业题库数据严格保证数据的安全和隐私。
教育搜题算法能力查询分析算法优化完整的处理流程教育行业分词和学科类目预测分词在拍照搜题场景下存在两大难点 第一点英文题目OCR识别之后空格缺失 左边第一个图可以看到 即便针对很长没有空格的英文文本 模型也是可以非常准确的做正确的切分。第二个难点是数学题目公式表示之后的切分 左边第二个图可以看到数学符号部分都做出正确的切分。
类目预测在拍照搜题场景下对应的就是学科的预测和题型的预测 我们结合图片以及OCR识别之后的文本信息做多模态预测 从而提高搜题准确率。
多路召回排序技术由于拍照搜题业务场景的特殊性 开放搜索还引入了多路召回排序技术。
为什么要做多路召回呢
教育拍照搜题相比传统的网页或者电商的搜索存在明显的差异 第一点是搜索的Query特别长 第二点是搜索的Query由拍照OCR识别之后得到的文本 其中关键TERM识别错误的话 就会严重影响召回排序。
传统的纯文本查询方案包括两种 第一种是OR逻辑查询 第二种AND逻辑查询 AND逻辑查询上基于我们刚才说到的针对教育领域优化定制的Query模块分析之后大幅提高效果 现在可以做到准确性接近OR逻辑。
如何兼顾搜索计算开销以及搜索的准确率呢
引入了文本的向量召回 对文本向量召回技术优化了三点
第一点是其中的BERT模型我们采用达摩院自研的StructBERT 并针对于教育行业做了定制 同时对BERT模型做压缩加速。
第二点是向量检索引擎采用达摩院自研的Proxma引擎 准确性和速度都超越开源系统。
第三点训练数据可以基于客户的搜索日志不断积累 效果持续提升。
从右边的图可以看到 最终我们在基于两侧的BERT模型就可以达到非常好的效果 准确性超过OR逻辑3%—5% 整体召回DOC数量减少40倍 Latecy降低10倍以上。
搜题效果展示举例两个具体搜题的case 左边这个case可以看到其中因为问题中的文字描述和题库中文字描述不一致 传统搜索引擎返回的结果相关性极差 经过我们引入语意向量召回之后右边TOP3结果完全符合题意。第二个case因为这个题目中包含图片的信息 传统的搜索引擎无法做到准确的召回 基于我们多路召回引入图象信息之后TOP1返回完全一致的题目。
开放搜索解决方案优势案例一 某K12的教育用户 用户数达到千万级别 题库量在八千万左右而且在持续增加 客户接入开放搜索之后返回搜题准确率提升45% 延迟降到50%毫秒。
案例二 某高职教育客户 产品DAU三百万 月活一千万 客户接入之后反馈对比他们原先自建的系统 在高峰时候耗时大于两秒 现在开放搜索可以稳定在50毫秒 同比下降40倍。TOP5题目搜索准确率提升2.4%搜索结果从原来40%降到不到1% 业务高峰期可以实现秒级平滑扩容。
获得专家指导
https://survey.aliyun.com/apps/zhiliao/6R4u6vilI
如果您对搜索与推荐相关技术感兴趣 欢迎加入钉钉群内交流
本文介绍了阿里云服务器迁移中心(SMC)如何帮助伟东云教育提升迁云效率。 公司...
在家学解决方案基于阿里云平台 可同时支撑海量学生同时线上授课 满足各省中小学...
赛题介绍 RISC-V作为一个开放处理器架构 自2010年诞生起 为物联网时代的CPU发展...
在十年之后,人们的生活可能发生很多变化,但与十年之后科技的变化相比就会显得...
来源 | 阿里巴巴云原生公众号 Arthas Star?突破 2.5 万啦 开源地址:_h_ ttps://...
腾讯位置服务控制台 首先在 腾讯位置服务控制台 下注册完毕后,打开个性化样式 i...
随着前端工程日益复杂,某些业务或者工具库通常涉及到很多个仓库,那么时间一长...
简介 我们在做组合优化的时候需要去解决各种问题 根据问题的复杂度不同可以分为P...
如何设计云应用程序(SaaS) 如何设计云应用程序(SaaS) 软件即服务(SaaS)已...
你曾经有包裹在即将到达目的地时丢失吗?随着假期的到来,我们中的许多人正在订购...