首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

现在在说话的是哪个总?

「分不清谁是谁」,是开会时候的大Bug。

请听题:

有时候,会议室里是开了摄像头,但在线上还是不容易分清谁是谁:

(就像这样)

想弄明白「是谁在说话」,得靠听声、看嘴型。总之,基本靠猜。

能不能帮我分出来会议室里的说话人?

收到收到,马上安排!

刚刚,腾讯会议发布腾讯天籁inside3.0。

简单来说,靠AI+16阵列麦拾音矩阵+音视频多模态识别算法,解决这几项烦恼:

1、人像分割:给会议室每人一个「小窗口」

基于「多说话人分离」技术,给到会议室里每人一个1080p小窗口「特写」:

它的响应速度在毫秒级。多人激烈讨论,也能迅速把C位切给最新发言人。

不管是侧对、背对摄像头,还是边走边说,都能确保始终在画面中心。

这只是「多说话人分离」技术的体现之一。再举个例子:

如果多个人对着一台设备发言,会后的智能录制也能把多个说话人区分出来。

2、智能音幕:帮你的邻座「闭麦」

有时候,坐在会议室里说悄悄话,也得「小心翼翼」。因为:

-A在发言,邻座B和C的低声讨论,对面可能听得也很清楚;

-A在发言,邻座B只是接了个电话,也会被无差别收音了。

能不能只收音指定区域,甚至指定人?

今后开会,会议室里可以划定收音范围了。就像有一道无形的「智能音幕」,支持定向区域拾音。

指定区域内,声音清晰;区域外,声音直接屏蔽掉。

3、去混响:超大会议室说话,听不出回声

现在,基于AI+16阵列麦的拾音矩阵,以及优化过的自动增益算法,即使在超大超空旷的会议室,听起来也像面对面。

不信?点开听听

AI时代,清晰拾音和区分说话人技术,是实现语音转文字、字幕翻译和智能纪要的前提。

毕竟,得先搞清谁说了什么,才能把准确的内容给到大模型。

然而,会议室拾音向来是大难题。

房间尺寸、空旷程度,讲话者的坐姿、远近、方位...都会让拾音条件变化。

甚至桌上放个纸巾盒、水杯,也会反射遮挡讲话人声音。

就在几年前,鹅厂自己开线上会,大家也得轮流坐到麦克风旁边(或者举着话筒),对面才能听清。

我们用AI重构音视频,为大模型落地“开路”:

在腾讯Al?Lab多项技术加持下,通过人工智能和算法优化,腾讯会议天籁实验室正在分步拆解这道声学难题。

- 先实现大会议室里的远距离收音。

我们引入每帧数百M计算量的大模型进行知识蒸馏,来实现去混响、降噪等声学优化。

2021年,腾讯天籁inside1.0面世,推出一体屏拾音模组,支持12米超远距离拾音。

这意味着,即使只有一台终端,也能满足基本的收音需求。而且开会坐多远都没关系了。

- 再攻克五花八门的收音难题。

虽然拾音能力在加强,但在大尺寸的会议室里要做到像面对面那样清晰,仅靠一块大屏仍然不够。

2022年,腾讯天籁inside2.0推出分布式麦克风方案,实现全空间覆盖式的均匀拾音、均衡扩音、智能降噪、回声消除。

- 接着应用多模态算法,把音频和视频结合起来。

传统的声源定位模式,是按声音方向。如果是两个人离得很近(处在同一个方向),设备就难以把它们分出来。

这次的腾讯天籁inside3.0多模态方案,基于视频(比如,嘴唇动)和音频(比如,说话声音)融合计算实现。

而且,我们把底层发言人坐标开放给厂商,厂商可以做二次开发。

比如:定制发言人的画幅比例、设置多人对话时的切换速度、切换逻辑等等。

这一系列解决方案,已经应用在大量厂商的硬件中。

从一体屏、级联桌面麦音箱,到消费级桌面麦音箱、教育拾音吊顶麦...现在,越来越多的设备都是「天籁inside」。

未来,我们还会继续探索在更多个人通信设备场景的落地。

下次开会,认准这个logo!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtgaYimSbHzw0vmuQ1H6eo_A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com