前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >openai whisper 语音识别,语音翻译

openai whisper 语音识别,语音翻译

作者头像
崔哥
发布2024-03-08 10:02:20
2650
发布2024-03-08 10:02:20
举报
文章被收录于专栏:崔哥的专栏崔哥的专栏

简介

Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。

安装

代码语言:javascript
复制
apt install ffmpeg

pip install -U openai-whisper

使用

指令

代码语言:javascript
复制
whisper video.mp4
whisper audio.flac audio.mp3 audio.wav --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper --help

代码中使用,以下是Python示例

代码语言:javascript
复制
import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

扩展,Whisper ASR Webservice

whisper 只支持服务端代码调用,如果前端要使用得通过接口,Whisper ASR Webservice帮我们提供了这样的接口,目前提供两个接口,一个音频语言识别和音频转文字(支持翻译和转录)

Whisper ASR Webservice除了支持Whisper,还支持faster-whisperfaster-whisper据说能够实现比 Whisper更快的转录功能,同时显存占用也比较小。

Whisper ASR Webservicegit 仓库 下的docker-compose.gpu.yml可以直接使用

接口文档

http://localhost:9000/docs

其中,音频转文字接口,识别出的文字可能是简体,繁体混合的,可以通过参数initial_prompt调节,比如设置参数值为以下是普通话的句子,这是一段会议记录。,来源: https://blog.csdn.net/gootyking/article/details/134475995

参考

https://zhuanlan.zhihu.com/p/617770448

https://github.com/openai/whisper

https://github.com/SYSTRAN/faster-whisper

本文参与?腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客?前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 安装
  • 使用
  • 扩展,Whisper ASR Webservice
    • 接口文档
    • 参考
    相关产品与服务
    语音识别
    腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
    http://www.vxiaotou.com