Google在人群中为人工智能隔离音色提供了一种引人入胜，略微可怕的方式

文章来源：腾讯云开发者社区BeauHD

一位匿名的读者引用Ars Technica的报道：谷歌研究人员已经开发出一种深度学习系统，旨在帮助计算机在嘈杂的环境中更好地识别和隔离个人声音。正如该公司本周在谷歌研究博客上发布的一篇文章中指出的那样，该科技中的一个巨头团队试图复制鸡尾酒会效应，或者人类大脑专注于一个音频来源，同时过滤掉其他人的能力 - 就像你一样在派对上与朋友交谈。谷歌的方法采用了视听模式，因此主要侧重于隔离视频中的声音。该公司发布了许多YouTube视频，展示了该技术的实际应用。该公司表示，该技术适用于带有单个音频轨道的视频，并且可以通过算法来隔离视频中的声音，具体取决于谁在说话，或者通过让用户手动选择想要听到声音的人的脸部。谷歌表示，这里的可视化组件是关键，因为技术可以监视人的嘴巴何时移动，以便更好地识别在给定点处关注哪些声音，并为视频长度创建更准确的单个语音轨道。博客文章中指出，研究人员通过在YouTube上收集100,000个“讲座和会谈”视频，开发了这种模型，从那些流畅的视频中提取了近2000小时的片段，然后混合该音频创建一个“合成的鸡尾酒会”添加了人造背景噪音。Google随后通过阅读每个视频帧中说话的人的“脸部缩略图”以及该视频音轨的谱图来训练技术人员分割混合音频的能力。该系统能够在给定时间挑选哪个音频源属于哪个脸部，并为每个扬声器创建单独的语音音轨。

发表于: 2018-04-132018-04-13 18:30:00
原文链接：http://hardware.slashdot.org/story/18/04/13/2115250/google-works-out-a-fascinating-slightly-scary-way-for-ai-to-isolate-voices-in-a-crowd
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Google在人群中为人工智能隔离音色提供了一种引人入胜，略微可怕的方式

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐