当前位置：主页 > 查看内容

AnalyticDB向量检索+AI 实战: 声纹识别

发布时间：2021-04-20 00:00| 有位朋友查看

简介：一、背景近年来随着人工智能对传统行业的赋能改造越来越多的基于人工智能的业务解决方案被提出来声纹识别在保险行业中的身份认证便是一个很好的例子. 声纹识别是根据说话人发音的生理和行为特征自动识别说话人身份的一种生物识别技术对应在电话销售场……

一、背景

近年来随着人工智能对传统行业的赋能改造越来越多的基于人工智能的业务解决方案被提出来声纹识别在保险行业中的身份认证便是一个很好的例子. 声纹识别是根据说话人发音的生理和行为特征自动识别说话人身份的一种生物识别技术对应在电话销售场景下它主要解决以下安全问题一方面有不法分子窃取电话销售人员账号信息非法获取客户个人信息资料并进行贩卖、泄露严重侵犯了公民个人的信息隐私权另一方面部分行业从业人员利用一些规则漏洞通过套保、骗保等非法手段实施金融诈骗. 针对这些安全问题可以通过实时声纹认证加以解决以电话销售人员为监管核心利用每个人独一无二的声纹进行严密的个人身份认证保证电话销售人员对接客户时是本人注册登录规范电销人员行为从源头上有效规避信息泄露、漏洞利用等风险。

二、声纹识别原理

上图是端对端的深度学习训练和推理过程。对比传统声纹识别模型我们的模型在实际使用中优势明显在用户远程身份验证场景通过注册用户说一段话即可轻松快速的确认注册用户身份识别准确率达到95%以上秒级响应实时声纹核身。下面简要介绍我们模型的特点。

2.0 度量学习

实验发现在声纹识别中采用softmax进行网络训练用余弦相似度的测试性能往往不如传统声纹识别模型尤其是在鲁棒性上。分析发现[6]基于softmax的分类训练为了得到更小的loss 优化器会增大一些easy samples的L2 length 减小hard examples 的L2 length 导致这些样本并没有充分学习特征呈现放射状以MNIST识别任务为例基于softmax学到的特征分布如图3(a)所示. 同类别特征分布并不聚拢在L2 长度上拉长呈放射状且每个类别的间距并不大在verification的任务中会导致相邻的两个类别得分很高。

为了达到类内聚拢类间分散的效果我们研究了在图像领域中应用较为成功的几种softmax变种包括AM-softmax[4] arcsoftmax[5]等从图3(b)可以看到基于margin的softmax 相比纯softmax 类间的分散程度更大且类内特征更聚拢对声纹1:1比对和1:N搜索的任务友好。

2.1 噪音鲁棒性

在特征提取时对于简单加性噪音我们提出了基于功率谱减法实现噪音抑制对于其他复杂噪音我们提出了基于降噪自动编码器的噪音补偿模型将带噪语音特征映射到干净语音特征实现噪音消除。

在模型训练时我们采用数据增强的训练机制将噪音数据通过随机高斯的形式加入到声纹模型的训练中使得训练后的模型对噪音数据具有更好的鲁棒性。

2.2 短音频鲁棒性

为了提高短音频鲁棒性我们提出了基于短时帧级别的模型训练机制使模型能够在极短的语音时长约0.5秒下即可完成声纹识别. 在此基础上我们在模型训练中引入了更多高阶的音频统计信息和正则化方法进一步提升了模型在短语音条件下 2~3秒的识别精度。

三、如何使用AnalyticDB搭建声纹对比系统3.0 创建插件

使用一下SQL来分别创建AnalyticDB的非结构化分析插件OpenAnalytic和向量检索插件fastann。

3.1 建表

我们可以建立一个表来保存所有说话人的声音和声音的特征后续我们可以从这个表中搜索说话人。

3.2 创建索引

我们可以为特征向量列创建向量检索索引。

3.3 创建声纹识别算法pipeline

通过以下sql 我们可以在数据库中创建声纹特征提取的算法模型。

3.4 获取说话人声纹特征

通过以下sql可以使用3.3创建的pipeline。这个UDF的输入是pipeline名称和目标文本。输出是一个说话人声音的特征向量。

# 通过声音文件识别
SELECT open_analytic.pipeline_run_dist_random( speaker_feature_extractor , 
 声音文件

3.5 说话人声纹特征导入AnalyticDB

获取声音特征后, 我们可以使用一下sql来讲数据插入3.1创建的表中。

INSERT INTO speaker_table VALUES ( 说话人id , 声音文件 , 声音特征向量

3.6 在数据库中搜索最相似的的人

通过以下sql 我们可以在声音特征库中搜索最相似的说话人。然后我们可以根据特征间距离是否满足预设的阈值来判断是否是同一个人。

3.7 比较两个声音是否为同一个人

我们还可以提取出两个人的声音特征然后直接计算二者的距离来判断这两个声音是否来自同一个说话人。SQL如下

四、AnalyticDB介绍

分析型数据库(AnalyticDB)是阿里云上的一种高并发低延时的PB级实时数据仓库可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索。AnalyticDB for MySQL 全面兼容MySQL协议以及SQL:2003 语法标准, AnalyticDB forPostgreSQL 支持标准 SQL:2003 高度兼容 Oracle 语法生态。

向量检索和非结构化数据分析是AnalyticDB的进阶功能。目前两款产品都包含向量检索功能, 可以支持人脸, 人体, 车辆等的相似查询和推荐系统。AnalyticDB在真实应用场景中可以支持10亿级别的向量数据的查询, 毫秒级别的响应时间。AnalyticDB已经在多个城市的重大项目中大规模部署。

在一般的包含向量检索的的应用系统中, 通常开发者会使用向量检索引擎(例如Faiss)来存储向量数据, 然后使用关系型数据库存储结构化数据。在查询时也需要交替查询两个系统, 这种方案会有额外的开发工作并且性能也不是最优。AnalyticDB支持结构化数据和非结构化数据(向量)的检索仅仅使用SQL接口就可以快速的搭建起以图搜图或者图片结构化数据混合检索等功能。AnalyticDB的优化器在混合检索场景中会根据数据的分布和查询的条件选择最优的执行计划在保证召回的同时得到最优的性能。AnalyticDB向量版采用了多项创新性技术, 这些技术在我们的论文 AnalyticDB-V: A Hybrid Analytical Engine Towards Query Fusion for Structured and Unstructured Data 中有详细介绍介绍。目前论文已经被数据库三大顶会之一的VLDB接受, 具有技术领先性。

结构化信息非结构化信息图片混合检索在实际应用中被广泛使用的。例如人脸门禁系统被部署在多个小区时, 我们使用一张表存储了所有小区的人脸特征, 在人脸检索时我们只需要检索当前小区的人脸特征。在这种情况下, 使用AnalyticDB我们只需要在SQL中增加where 小区名 xxx 就可以轻易实现。AnalyticDB同时提供了先进的图像文本分析算法, 能够提取非结构化数据的特征和标签, 用户仅仅需要使用SQL就可以完成图像文本内容的分析。

五、参考文献

[1] Heigold G, Moreno I, Bengio S, et al. End-to-end text-dependent speaker verification[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016: 5115-5119.

[2]Li C, Ma X, Jiang B, et al. Deep speaker: an end-to-end neural speaker embedding system[J]. arXiv preprint arXiv:1705.02304, 2017.

[3] Snyder D, Garcia-Romero D, Sell G, et al. X-vectors: Robust den embeddings for speaker recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 5329-5333.

[4] Wang F, Cheng J, Liu W, et al. Additive margin softmax for face verification[J]. IEEE Signal Processing Letters, 2018, 25(7): 926-930.

[5] Dang J, Guo J, Xue N, et al. Arc face: Additive angular margin loss for deep face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4690-4699.

[6] Ranjan R, Castillo C D, Chellappa R. L2-constrained softmax loss for discriminative face verification[J]. arXiv preprint arXiv:1703.09507, 2017.

六、结语

本文介绍了如何使用AnalyticDB来搭建声纹比对系统。AnalyticDB还支持其他多种多样人工智能算法如目标检测, 商品识别, 基因识别等等。想了解更多请用钉钉扫码加入AnalyticDB向量版交流群。

本文转自网络，原文链接：https://developer.aliyun.com/article/783632
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 下一篇：没有了

随机推荐

如何用 C++ 读写文件

在 C++ 中，对文件的读写可以通过使用输入输出流与流运算符和来进行。当读写文...
第一次给知名项目贡献代码，有点紧张

大家好，我是鱼皮的小老弟阿巴，大家也可以叫我小阿巴。我也对编程非常感兴趣，...
函数计算助力石墨文档突破性能瓶颈，有效

客户介绍石墨文档是中国第一款支持云端协作的企业办公服务软件（功能类比于Goo...
UNION ALL这么用，从摸鱼学徒进阶摸鲸校

身为数据分析师，大家对SQL可是再熟悉不过了。大多数人对常规的sql语法都已经熟...
Python高能小技巧：用海象操作符减少重复

a = b是一条普通的赋值语句，读作a equals b，而a := b则是赋值表达式，读作a wa...
数据猿发布――2021中国数据智能产业图谱

说明:数据猿此次发布的2021中国数据智能产业图谱/全景图2.0版是在此前1.0版的基...
直播预告 | Tair(Redis)行业场景深度刨析

直播主题 Tair(Redis)行业场景深度刨析-轻松构建全球多活的Session系统直播时间...
阿里终面：优秀的代码都是如何分层的？

说起应用分层，大部分人都会认为这个不是很简单嘛，就 Controller，Service，Map...
阿里的 RocketMQ 如何让双十一峰值之下 0

作者 | 愈安来源 | 阿里巴巴云原生公众号 2020 年双十一交易峰值达到 58.3 W 笔...
轻松在Linux/Mac/Windows上配置FFmpeg开

作者：Mintimate 博客： https://www.mintimate.cn Mintimates Blog，只为与你分...

AnalyticDB向量检索+AI 实战: 声纹识别

推荐图文

IoT Analytics：三分之一的制造商计划将软件转移到

更新MacOs Big Sur 11.2.3后…

123

打造美好家居数字化转型标杆，亚士创能与阿里云达成

有意思的空间说说：每天醒来的第一件事就是，想睡觉

大数据“守护”，为城市织起安全网

随机推荐

如何用 C++ 读写文件

第一次给知名项目贡献代码，有点紧张

函数计算助力石墨文档突破性能瓶颈，有效

UNION ALL这么用，从摸鱼学徒进阶摸鲸校

Python高能小技巧：用海象操作符减少重复

数据猿发布――2021中国数据智能产业图谱

直播预告 | Tair(Redis)行业场景深度刨析

阿里终面：优秀的代码都是如何分层的？

阿里的 RocketMQ 如何让双十一峰值之下 0

轻松在Linux/Mac/Windows上配置FFmpeg开

关于我们