8月份,NVIDIA开源了一个深度学习推断库——Jetson Voice ,专为Jetson Nano、TX1/TX2、Xavier NX和AGX Xavier等嵌入式设备而设计,为AI技术带来了更多可能性。现在,让我们深入了解这个Jetson Voice 吧。
支持的平台和语言
Jetson Voice 支持Python和JetPack 4.4.1或更新版本,为用户提供了更广泛的应用范围。这意味着它可以在多种Jetson设备上运行,从小型的Jetson Nano到高性能的AGX Xavier,都可以受益于这一强大的工具。
功能强大的AI任务
Jetson Voice 为用户提供了多项关键功能,包括:
1. 自动语音识别(ASR): 支持75种不同语言,包括流式语音识别、命令/关键词识别和语音活动检测。这意味着它可以用于语音识别应用,从智能助手到语音命令控制。
2. 自然语言处理(NLP): 这个库支持12种不同的自然语言处理任务,包括文本分类、标记分类、问题回答等。其中,采用了DistilBERT 7变换器架构,以提高性能和减少内存占用,让NLP任务更加高效。
3. 文本到语音(TTS): 支持80种语言的文本到语音合成,为用户提供高质量的语音输出,可以用于语音助手、有声书和更多应用。
性能优化
Jetson Voice 的DNN模型经过NeMo 13训练,并使用TensorRT 6进行部署,以获得最佳性能。而所有计算任务都在设备上的GPU上执行,保证了高效的计算速度。
示例音频
对于对TTS音频输出感兴趣的人,Jetson Voice 提供了TTS音频示例,让您可以亲自体验这一强大功能的效果。
Jetson Voice的发布代表了Jetson平台用户的一次技术飞跃。无论您是开发智能助手、自然语言处理应用还是需要文本到语音功能,Jetson Voice都将为您提供更多可能性和工具,更多关于信息,可以访问代码库:https://github.com/dusty-nv/jetson-voice