有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
本文将介绍腾讯云语音识别的产品系列、产品功能、产品应用场景及关键参数等信息。计费详情见 计费概述(在线版)

语音识别(ASR)系列

腾讯云语音识别(ASR)系列产品共包含以下五个子产品:录音文件识别实时语音识别录音文件识别极速版一句话识别语音流异步识别。提供腾讯云语音识别基础的AI语音转文字能力。这些产品均以接口形式(PaaS级)提供产品服务。
语音识别
基础产品
功能简介
免费并发路数/QPS额度
时效性
常见应用场景
支持语种(算法引擎)
特色功能
可对时长5小时以内的录音文件进行识别
接口限频:20次/秒(异步回调产品,仅限制接口请求频次)
非实时
说明:异步回调,最长在3小时内完成识别,大多数情况下1小时音频约3分钟以内完成识别(半小时内发送超过1000小时录音或者2万条识别任务的除外)
呼叫中心语音转写、庭审数据录入、会议转写、直播语音转写质检、课堂语音内容转写等时效性要求不高的场景
8k(电话场景):中文普通话、英语
16k(通用场景):中文普通话、23种方言混合、普粤英混合、英语、粤语、日语、韩语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语
16k普方英大模型:中文普通话+英语+多方言混合引擎,除普通话外支持27种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话)
说话人分离(支持分离1-10人)
单标点最大字数
可识别长时间传入的语音流数据,实时返回识别结果,实现“边说边出文字”的效果
200路
实时
智能外呼、人工客服、数字人(虚拟人)、对话机器人、会议实时字幕、游戏内语音识别、直播实时字幕等有实时要求的场景
8k(电话场景):中文普通话、英语、中文普通话金融专用 16k(通用场景):中文普通话、23种方言混合、普粤英混合、英语、粤语、日语、韩语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、中文普通话专用(教育、医疗、法庭、繁体)、英语专用(游戏、教育)
16k普方英大模型:中文普通话+英语+多方言混合引擎,除普通话外支持27种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话)
vad检测
断句检测阈值
可对时长2小时以内的录音文件进行识别
20路
准实时
说明:通常30分钟音频可在10秒内完成识别
短视频快速生成字幕、快速语音转写质检、新闻语音转写等转写时效性较高的场景
8k(电话场景):中文普通话、英语 16k(通用场景):中文普通话、23种方言混合、普粤英混合、英语、粤语、日语、韩语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语
单标点最大字数
可对60秒以内的短音频文件进行识别
30QPS
准实时
说明:通常30秒音频可在3秒内完成识别
语音输入法、语音消息转文字、语音搜索等短音频场景
8k(电话场景):中文普通话、英语 16k(通用场景):中文普通话、23种方言混合、普粤英混合、英语、粤语、日语、韩语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、中文普通话专用(医疗)、阿拉伯语、西班牙语、印地语
可对语音流进行准实时识别
20路
准实时
说明:异步分片回调,回调时机为一小段话(一般3-15秒)回调一次
适用于直播审核等场景
16k(通用场景):中文普通话、英语、粤语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语
暂无

语音识别(ASR)特色功能

热词和自学习定制模型

腾讯云语音识别(ASR,Automatic Speech Recognition)产品除了适用于通用场景外,在多个垂类场景(如:智能外呼、法庭、游戏、医疗、教育、直播等)进行了大量训练,能够满足不同业务的识别需求,腾讯云语音识别所提供的多套模型的识别性能得到内外部用户的一致认可。
对于部分特殊的业务场景,尤其是原创用语、创新用语、新热度词句、生僻用语组合等可能影响识别性能的情况,我们提供了 热词自学习定制模型 两种方案,供客户自助对此类特殊场景进行 ASR 优化,在短时间内即可实现 ASR 识别性能的提升。

临时热词表

对于单次请求有大量热词需求的用户(如:开放热词功能给到C端用户的情况),我们提供了临时热词表的方案进行支持。临时热词表无需事先创建热词表,在每次请求时直接传入临时热词表即可使用热词功能,云端不会保留每次传入的临时热词表。
临时热词表限制:多个热词用英文逗号分割,最多128个热词。
参数示例:“腾讯云|10,语音识别|5,ASR|10”

超级热词

超级热词的效果:超级热词对词表相关内容识别准确率相比通用热词有极大提升。
超级热词的使用方法:创建热词表或每次请求直接传入临时热词表时,若热词权重设置为11,热词将升级为超级热词。但建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率
参数示例:“腾讯云|11”
?

语音识别+(ASR+)系列

腾讯云语音识别+(ASR)系列产品目前包含以下两个子产品:说话人识别、虚拟号真人判定。提供基于语音转文字能力的垂类场景独立接口服务。这些产品均以接口形式(PaaS 级)提供产品服务。
语音识别
基础产品
功能简介
免费并发路数/QPS额度
时效性
常见应用场景
基于语音识别与声纹识别能力,将说话人的音频与语音库中该说话人预存的音频进行1:1比对验证,具备一定的抗攻击能力。
20QPS
准实时
登录锁、身份核验等场景
基于语音识别和声学算法能力,在智能外呼场景下,能够在毫秒级准确判断真人用户何时接起电话,帮助客户判断对话机器人的启动时机。
200路
实时(毫秒级判定接听状态)
智能外呼场景中,因虚拟号平台转接而无法直接触达客户、从而无法在正确时机启动机器人对话的场景

增值产品系列

语音识别增值产品是指用户在使用语音识别(ASR)系列产品时,针对某些参数和功能需要额外进行收费的功能。这些功能在常规的语音转文字能力之外,能够解析更多的音频信息,可极大提升客户的使用体验。客户可根据实际需要选择是否需要开启产品的增值功能。
语音识别
增值产品
适用接口与参数
功能简介
常见应用场景
收费介绍
?录音文件识别(目前仅支持8k_zh、16k_zh引擎,入参 EmotionRecognition)
?
情绪识别能力可解析音频中说话人的情绪,支持在文本或返回结构中展示情绪标签,如:高兴、愤怒、伤心等。 本功能为额外收费的增值能力,开启参数使用时会进行独立计费,详情请见【收费介绍】。
?
服务质量监控、呼叫中心应对、会议氛围监控等场景
本功能为增值服务,与录音文件识别基础产品独立计费,不可叠加或互相抵消。
?录音文件识别 (目前仅支持8k_zh、16k_zh引擎,入参 ResTextFormat 的对应值4)
?
分段能力可对录音文件识别的识别结果按照语义分段,并展示词级别粒度的详细识别结果。 本功能为额外收费的增值能力,开启参数使用时会进行独立计费,详情请见【收费介绍】。
?
庭审笔记、会议纪要等 等场景
本功能为增值服务,与录音文件识别基础产品独立计费,不可叠加或互相抵消。 更多计费介绍请见 计费概述(在线版)- 分段增值服务
?录音文件识别(目前仅支持 8k_zh、16k_zh 引擎,入参 ResTextFormat 的对应值5)
口语转书面语功能基于腾讯云大语言模型(LLM),可精简口语表达中的冗余、重复、语气词,并修正发言人口误,实现口语转书面语的效果。
本功能为额外收费的增值能力,开启参数使用时会进行独立计费,详情请见【收费介绍】。
无需人工干预的会议纪要整理场景(如:在线会议后直接输出会议纪要)
本功能为增值服务,与录音文件识别基础产品独立计费,不可叠加或互相抵消。 更多计费介绍请见 计费概述(在线版)- 口语转书面语增值服务

产品视频

?
?
?
http://www.vxiaotou.com