首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#语音

LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊

新智元

脑机接口(BCI)在科研和应用领域的进展在近期屡屡获得广泛的关注,大家通常都对脑机接口的应用前景有着广泛的畅享。

1200

GPT-4o:深夜炸场,她 来了!

NewBeeNLP

在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,推出了一款名为GPT-4o的“旗舰级”生成式人工智能模型,并将在未来几周内在公司面向开发...

2200

免费GPT-4o来袭,音频视觉文本实现「大一统」

AI科技评论

用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本...

1100

GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

HyperAI超神经

5 月 11 日,Sam Altman 也在一档播客节目中称,OpenAI 将继续改进并提升 ChatGPT 的语音功能质量,并表示语音交互是通向未来交互方式的...

5000

9.8k star! 基于大模型的音频转文字工具,零门槛上手

永恒君

Buzz 是一款开源的语音转文字工具,它能够实时将语音转换为文字,支持多种操作系统,包括 Windows、macOS 和 Linux。它不仅支持实时语音识别,还...

3710

共享充电宝语音芯片ic方案支持远程4g无线更新语音

清月电子

KT148A是一款32位的DSP语音芯片,标准的SOP8封装。内置420KByte的语音空间,最大支持420秒的语音长度,支持多段语音,同时支持直驱0.5W的扬...

3300

GNU Radio FFT模块窗函数对比

Gnep@97

GNU Radio 中 FFT 模块的窗函数包括以下几种:矩形窗(Rectangular Window)、汉明窗(Hamming Window)、汉宁窗(Han...

7410

KT148A语音芯片串口版本播放音乐的时候,直接导致单片机工作异常

清月电子

在使用你们KT148A串口版本播放音乐的时候,直接导致单片机工作异常,测了一下供电发现每次播放音乐的时候,供电会有很大波动。看了一下你们的手册,说是带载能力不够...

6010

情感AI产品Hume.AI CEO Alan Cowen最新访谈视频(42分钟)

朱晓霞

一、Alan Cowen个人背景 1.UC Berkeley的心理学博士,在研究人类情感方面发表了40多篇论文。 2.在Google建立了情感计算团队。 ...

10210

【python的魅力】:教你如何用几行代码实现文本语音识别

用户11062259

SpeechLib 是微软提供的一个用于语音功能的 COM 库,它允许开发者在 Windows 平台上进行文本到语音(TTS)和语音识别的开发。通过 Speec...

12210

黑科技:微信可以设置空白昵称了,还能发空白朋友圈和空白微信消息

苏生不惑

根据官方消息,微信文字,语音,表情包,图片等在2分钟内可撤回,word,excle,pdf,ppt等文件可在3小时内撤回。

18110

4个月用户增长20倍!腾讯云音视频助力游戏语音公司Oopz高速成长

腾讯云音视频

腾讯 · 行业应用产品经理 (已认证)

作为国内一款集语音开黑、社区交友、AI聊天于一体的游戏语音软件,Oopz于2023年12月开放公测。凭借腾讯云实时音视频TRTC的技术支持,快速获得了游戏玩家的...

16020

TTS它又又又来了!17.8k Star!OpenVoice V2只需一小段参考音频即可实现高效的声音克隆!

Python兴趣圈

它能够仅使用一小段人声就实现语音克隆。这意味着您可以通过输入极少的语音样本,轻松生成高质量的语音合成。

45110

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

机器之心

4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,...

10510

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

机器之心

与 Claude -3 Opus、Mistral-Large、Gemini-1.5-Pro 等领先大语言模型相比,“海螺AI"的一大亮点是支持语音交互,也是我们...

37110

在线教程丨刘强东数字人首秀交易额破5千万!用GeneFace++ 生成实时说话数字人

HyperAI超神经

近日,京东创始人刘强东化身「采销东哥 AI 数字人」,在京东家电家居和超市的采销直播间开启了自己的直播首秀。此次直播活动观看人次超 2 千万,交易总额超 5 千...

12510

五一Python抢票神器来了

Python小二

还在为五一回家抢不到火车票发愁吗?今天介绍一个Python抢票神器,希望对你有帮助。

11710

ElevenLabs:创新语音技术的个性化体验

程序那些事儿

ElevenLabs 是一个创新的在线平台,它将人工智能技术与个性化语音合成相结合,为用户提供了一个全新的语音克隆和语音生成体验。无论是创建有声读物、音频内容还...

8110

ICCV 2023 | Imitator:个性化语音驱动的 3D 人脸动画

用户1324186

上海交通大学 · 研究员 (已认证)

图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。给定音频序列和个性化风格嵌入作为输入,我们生成特定人物的运动序列,并为双唇辅音('m...

15610

CVPR2024 | ProbTalk:变化且协调的整体语音运动生成

用户1324186

上海交通大学 · 研究员 (已认证)

用语音驱动来生成逼真的全身动作对于提供更沉浸式和互动式用户体验至关重要。这个任务引起了相当多的研究兴趣。Habibie等人提出的早期方法使用确定性回归模型将语音...

12510
领券
http://www.vxiaotou.com