当前位置:主页 > 查看内容

阿里云峰会 | AI搜题加速在线教育行业场景创新

发布时间:2021-06-03 00:00| 位朋友查看

简介:分享人 徐光伟 昆卡) 阿里巴巴达摩院算法专家 了解更多解决方案详情 https://www.aliyun.com/page-source/data-intelligence/activity/edusearch 搜索是在线教育企业流量获取的利器 截至2020年12月份教育行业月活TOP10的统计 其中具备搜题能力的软件多达5个……

分享人 徐光伟 昆卡) 阿里巴巴达摩院算法专家

了解更多解决方案详情 https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

搜索是在线教育企业流量获取的利器

image

截至2020年12月份教育行业月活TOP10的统计 其中具备搜题能力的软件多达5个 拍照搜题作为产品能力 可以帮助客户获取大量用户以及流量 从而为其他产品提供变现能力 正是由于这样定位 拍照搜题整体准确性和搜索效率都成为至关重要的一点 所以开放搜索对此做了很多订制优化

教育搜题业务特点

image


对于教育搜题业务场景归纳了三大特点

第一点海量题库 教育题库都是属于千万级别甚至到亿级别 而且不断的持续增长 同时搜题业务存在很明显的高峰现象 例如晚上七八点 节假日最后一天 这时搜题会存在非常高的QPS的波峰 搜索延迟会严重影响用户的体验。

第二点场景丰富 拍照搜题涵盖的场景越来越丰富 包括不同的年龄段 例如低年级搜题主要围绕拍照看图识字或连线题 需要更多的图片信息的题目 还包括不同的学科 目前支持的学科多达十多种 因此丰富的场景就会对搜索效果带来更大的挑战。

第三点算法需求 拍照搜题产品形态一般只会展现TOP3或者TOP5的结果 正是因为这样设定 准确性对于拍照搜题来说至关重要 同时拍照搜题还会涉及到多模态和多语言处理能力 解决图文搜索和多语言处理的需求。

开放搜索教育搜题方案架构

image

阿里云开放搜索的拍照搜题解决方案 当用户通过拍照经过OCR识别之后的文本 经过开放搜索引擎处理后会返回TOP3-5的结果给用户得到展示 并且针对企业题库数据严格保证数据的安全和隐私。

教育搜题算法能力查询分析算法优化完整的处理流程

image

教育行业分词和学科类目预测

image

分词在拍照搜题场景下存在两大难点 第一点英文题目OCR识别之后空格缺失 左边第一个图可以看到 即便针对很长没有空格的英文文本 模型也是可以非常准确的做正确的切分。第二个难点是数学题目公式表示之后的切分 左边第二个图可以看到数学符号部分都做出正确的切分。

类目预测在拍照搜题场景下对应的就是学科的预测和题型的预测 我们结合图片以及OCR识别之后的文本信息做多模态预测 从而提高搜题准确率。

多路召回排序技术

image

由于拍照搜题业务场景的特殊性 开放搜索还引入了多路召回排序技术。

为什么要做多路召回呢

教育拍照搜题相比传统的网页或者电商的搜索存在明显的差异 第一点是搜索的Query特别长 第二点是搜索的Query由拍照OCR识别之后得到的文本 其中关键TERM识别错误的话 就会严重影响召回排序。

传统的纯文本查询方案包括两种 第一种是OR逻辑查询 第二种AND逻辑查询 AND逻辑查询上基于我们刚才说到的针对教育领域优化定制的Query模块分析之后大幅提高效果 现在可以做到准确性接近OR逻辑。

image

如何兼顾搜索计算开销以及搜索的准确率呢

引入了文本的向量召回 对文本向量召回技术优化了三点

第一点是其中的BERT模型我们采用达摩院自研的StructBERT 并针对于教育行业做了定制 同时对BERT模型做压缩加速。

第二点是向量检索引擎采用达摩院自研的Proxma引擎 准确性和速度都超越开源系统。

第三点训练数据可以基于客户的搜索日志不断积累 效果持续提升。

从右边的图可以看到 最终我们在基于两侧的BERT模型就可以达到非常好的效果 准确性超过OR逻辑3%—5% 整体召回DOC数量减少40倍 Latecy降低10倍以上。

搜题效果展示

image

举例两个具体搜题的case 左边这个case可以看到其中因为问题中的文字描述和题库中文字描述不一致 传统搜索引擎返回的结果相关性极差 经过我们引入语意向量召回之后右边TOP3结果完全符合题意。第二个case因为这个题目中包含图片的信息 传统的搜索引擎无法做到准确的召回 基于我们多路召回引入图象信息之后TOP1返回完全一致的题目。

开放搜索解决方案优势

image

案例一 某K12的教育用户 用户数达到千万级别 题库量在八千万左右而且在持续增加 客户接入开放搜索之后返回搜题准确率提升45% 延迟降到50%毫秒。


案例二 某高职教育客户 产品DAU三百万 月活一千万 客户接入之后反馈对比他们原先自建的系统 在高峰时候耗时大于两秒 现在开放搜索可以稳定在50毫秒 同比下降40倍。TOP5题目搜索准确率提升2.4%搜索结果从原来40%降到不到1% 业务高峰期可以实现秒级平滑扩容。


获得专家指导

https://survey.aliyun.com/apps/zhiliao/6R4u6vilI

如果您对搜索与推荐相关技术感兴趣 欢迎加入钉钉群内交流

image.png




本文转自网络,原文链接:https://developer.aliyun.com/article/784459
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:浅谈分布式一致性:Raft 与 SOFAJRaft 下一篇:没有了

推荐图文


随机推荐