现在在说话的是哪个总？

文章来源：企鹅号 - 腾讯云

「分不清谁是谁」，是开会时候的大Bug。

请听题：

有时候，会议室里是开了摄像头，但在线上还是不容易分清谁是谁：

（就像这样）

想弄明白「是谁在说话」，得靠听声、看嘴型。总之，基本靠猜。

能不能帮我分出来会议室里的说话人？

收到收到，马上安排！

刚刚，腾讯会议发布腾讯天籁inside3.0。

简单来说，靠AI+16阵列麦拾音矩阵+音视频多模态识别算法，解决这几项烦恼：

1、人像分割：给会议室每人一个「小窗口」

基于「多说话人分离」技术，给到会议室里每人一个1080p小窗口「特写」：

它的响应速度在毫秒级。多人激烈讨论，也能迅速把C位切给最新发言人。

不管是侧对、背对摄像头，还是边走边说，都能确保始终在画面中心。

这只是「多说话人分离」技术的体现之一。再举个例子：

如果多个人对着一台设备发言，会后的智能录制也能把多个说话人区分出来。

2、智能音幕：帮你的邻座「闭麦」

有时候，坐在会议室里说悄悄话，也得「小心翼翼」。因为：

-A在发言，邻座B和C的低声讨论，对面可能听得也很清楚；

-A在发言，邻座B只是接了个电话，也会被无差别收音了。

能不能只收音指定区域，甚至指定人？

今后开会，会议室里可以划定收音范围了。就像有一道无形的「智能音幕」，支持定向区域拾音。

指定区域内，声音清晰；区域外，声音直接屏蔽掉。

3、去混响：超大会议室说话，听不出回声

现在，基于AI+16阵列麦的拾音矩阵，以及优化过的自动增益算法，即使在超大超空旷的会议室，听起来也像面对面。

不信？点开听听

AI时代，清晰拾音和区分说话人技术，是实现语音转文字、字幕翻译和智能纪要的前提。

毕竟，得先搞清谁说了什么，才能把准确的内容给到大模型。

然而，会议室拾音向来是大难题。

房间尺寸、空旷程度，讲话者的坐姿、远近、方位...都会让拾音条件变化。

甚至桌上放个纸巾盒、水杯，也会反射遮挡讲话人声音。

就在几年前，鹅厂自己开线上会，大家也得轮流坐到麦克风旁边（或者举着话筒），对面才能听清。

我们用AI重构音视频，为大模型落地“开路”：

在腾讯Al?Lab多项技术加持下，通过人工智能和算法优化，腾讯会议天籁实验室正在分步拆解这道声学难题。

- 先实现大会议室里的远距离收音。

我们引入每帧数百M计算量的大模型进行知识蒸馏，来实现去混响、降噪等声学优化。

2021年，腾讯天籁inside1.0面世，推出一体屏拾音模组，支持12米超远距离拾音。

这意味着，即使只有一台终端，也能满足基本的收音需求。而且开会坐多远都没关系了。

- 再攻克五花八门的收音难题。

虽然拾音能力在加强，但在大尺寸的会议室里要做到像面对面那样清晰，仅靠一块大屏仍然不够。

2022年，腾讯天籁inside2.0推出分布式麦克风方案，实现全空间覆盖式的均匀拾音、均衡扩音、智能降噪、回声消除。

- 接着应用多模态算法，把音频和视频结合起来。

传统的声源定位模式，是按声音方向。如果是两个人离得很近（处在同一个方向），设备就难以把它们分出来。

这次的腾讯天籁inside3.0多模态方案，基于视频（比如，嘴唇动）和音频（比如，说话声音）融合计算实现。

而且，我们把底层发言人坐标开放给厂商，厂商可以做二次开发。

比如：定制发言人的画幅比例、设置多人对话时的切换速度、切换逻辑等等。

这一系列解决方案，已经应用在大量厂商的硬件中。

从一体屏、级联桌面麦音箱，到消费级桌面麦音箱、教育拾音吊顶麦...现在，越来越多的设备都是「天籁inside」。

未来，我们还会继续探索在更多个人通信设备场景的落地。

下次开会，认准这个logo！

发表于: 2024-04-172024-04-17 14:02:59
原文链接：https://page.om.qq.com/page/OtgaYimSbHzw0vmuQ1H6eo_A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

现在在说话的是哪个总？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐