【玩转腾讯云】【腾讯云语音合成】智能语音交互之语音合成篇

原创

ruskin

发布于 2020-05-04 21:43:34

20.1K1

发布于 2020-05-04 21:43:34

文章被收录于专栏：AI语音AI语音

开篇前言

语音合成（Text To Speech，TTS）满足将文本转化成拟人化语音的需求，打通人机交互闭环。提供多种音色选择，支持自定义音量、语速，让发音更自然、更专业、更符合场景需求。语音合成广泛应用于语音导航、有声读物、机器人、语音助手、自动新闻播报等场景，提升人机交互体验，提高语音类应用构建效率。

1.减少人工录音的时间消耗以及成本，实现语音服务快速上线

原本客户使用人工录音，需要邀请录音人，还需要安排专业的录音棚，录音完成后还需要大量人工剪辑，每一个步骤都需要一定的时间。新的需求出现后都需要几天，甚至是几周的时间，使用腾讯云TTS之后，声音合成的工作可以缩短到小时级别。

2.快速应对动态文本

新闻APP播报及浏览器内容播报等场景，文本变化多样，不可能通过人工朗读的方式来实现语音播放，但应用了腾讯云TTS之后，就使得动态文本的朗读变成了可能。

3.打通人机交互的闭环，实现以假乱真的人机沟通效果

已经在使用合成效果不佳的客户，他们的用户通常因为TTS发声人声音僵硬，朗读不流畅等原因不愿意与机器人继续交流。使用腾讯云TTS之后，他们的用户通常较难分辨发声人是真人还是机器人，使得人机交互的体验更好，用户更愿意与机器人交流。

前置步骤

对于腾讯云API接口，基本上都依赖腾讯云账号体系，本接口也是其中之一，所以这里的前置步骤都很类似，包括：登录注册、实名认证、开通服务、新建密钥，完成前置步骤之后就可以准备接入。

实现接入

腾讯云语音合成接口分为两个接口，流式音频合成接口和非流式音频合成接口，两者都是实时性返回接口，区别在于流式的接口在服务端完成一小段音频之后就开始返回，遵循http chunk协议，直至所有音频全部完成结束。而非流式接口则在请求的文本全部合成完成后服务端一次性返回音频。

这里可以根据自身的场景选择需要的接口，对于实时性要求很高的场景，例如智能机器人对话，则可以采用流式合成，对于有声读物，语音播报场景可以选择非流式音频合成接口，客户可以在非流式的接口基础上实现预请求，即第一句合成播报的同时请求合成第二句话并缓存结果，这样可以让播报无缝连接。

在选择好需要的接口之后，可以参考下方对应的接口接入指导。

非流式音频合成

1. 接口文档

2. 参考接口文档进行请求逻辑开发，基本的逻辑是http get或者post请求。这里的难点在于接口的鉴权，云API接口目前可以采用V1鉴权和V3鉴权，V1鉴权和V3鉴权的共同点在于都可以识别验证腾讯云账号，区别在于V3鉴权适用的场景更为广泛，例如对于请求body过大（大于1MB）的请求则需用V3鉴权。对于语音合成接口，可以采用简单的V1鉴权，当然V3鉴权也可以，客户可以自行选择。

V1鉴权计算Signature参考实例：

若采用POST请求，则 GET替换成POST cvm.tencentcloudapi.com/ 替换成 tts.tencentcloudapi.com/ Action=DescribeInstances 替换成 Action=TextToVoice 其他参数参考Action的替换方式，排序拼凑最终的串，采用SHA1加密生成Signature，此处注意，如果Signature是放在json body中则不需要urlencode，否则需要urlencode。

接口鉴权可以参考官网提供SDK里面的详细逻辑，或者参考官网鉴权计算步骤进行每一步骤的详细验证