「分不清谁是谁」,是开会时候的大Bug。
请听题:
有时候,会议室里是开了摄像头,但在线上还是不容易分清谁是谁:
(就像这样)
想弄明白「是谁在说话」,得靠听声、看嘴型。总之,基本靠猜。
能不能帮我分出来会议室里的说话人?
收到收到,马上安排!
刚刚,腾讯会议发布腾讯天籁inside3.0。
简单来说,靠AI+16阵列麦拾音矩阵+音视频多模态识别算法,解决这几项烦恼:
1、人像分割:给会议室每人一个「小窗口」
基于「多说话人分离」技术,给到会议室里每人一个1080p小窗口「特写」:
它的响应速度在毫秒级。多人激烈讨论,也能迅速把C位切给最新发言人。
不管是侧对、背对摄像头,还是边走边说,都能确保始终在画面中心。
这只是「多说话人分离」技术的体现之一。再举个例子:
如果多个人对着一台设备发言,会后的智能录制也能把多个说话人区分出来。
2、智能音幕:帮你的邻座「闭麦」
有时候,坐在会议室里说悄悄话,也得「小心翼翼」。因为:
-A在发言,邻座B和C的低声讨论,对面可能听得也很清楚;
-A在发言,邻座B只是接了个电话,也会被无差别收音了。
能不能只收音指定区域,甚至指定人?
今后开会,会议室里可以划定收音范围了。就像有一道无形的「智能音幕」,支持定向区域拾音。
指定区域内,声音清晰;区域外,声音直接屏蔽掉。
3、去混响:超大会议室说话,听不出回声
现在,基于AI+16阵列麦的拾音矩阵,以及优化过的自动增益算法,即使在超大超空旷的会议室,听起来也像面对面。
不信?点开听听
AI时代,清晰拾音和区分说话人技术,是实现语音转文字、字幕翻译和智能纪要的前提。
毕竟,得先搞清谁说了什么,才能把准确的内容给到大模型。
然而,会议室拾音向来是大难题。
房间尺寸、空旷程度,讲话者的坐姿、远近、方位...都会让拾音条件变化。
甚至桌上放个纸巾盒、水杯,也会反射遮挡讲话人声音。
就在几年前,鹅厂自己开线上会,大家也得轮流坐到麦克风旁边(或者举着话筒),对面才能听清。
我们用AI重构音视频,为大模型落地“开路”:
在腾讯Al?Lab多项技术加持下,通过人工智能和算法优化,腾讯会议天籁实验室正在分步拆解这道声学难题。
- 先实现大会议室里的远距离收音。
我们引入每帧数百M计算量的大模型进行知识蒸馏,来实现去混响、降噪等声学优化。
2021年,腾讯天籁inside1.0面世,推出一体屏拾音模组,支持12米超远距离拾音。
这意味着,即使只有一台终端,也能满足基本的收音需求。而且开会坐多远都没关系了。
- 再攻克五花八门的收音难题。
虽然拾音能力在加强,但在大尺寸的会议室里要做到像面对面那样清晰,仅靠一块大屏仍然不够。
2022年,腾讯天籁inside2.0推出分布式麦克风方案,实现全空间覆盖式的均匀拾音、均衡扩音、智能降噪、回声消除。
- 接着应用多模态算法,把音频和视频结合起来。
传统的声源定位模式,是按声音方向。如果是两个人离得很近(处在同一个方向),设备就难以把它们分出来。
这次的腾讯天籁inside3.0多模态方案,基于视频(比如,嘴唇动)和音频(比如,说话声音)融合计算实现。
而且,我们把底层发言人坐标开放给厂商,厂商可以做二次开发。
比如:定制发言人的画幅比例、设置多人对话时的切换速度、切换逻辑等等。
这一系列解决方案,已经应用在大量厂商的硬件中。
从一体屏、级联桌面麦音箱,到消费级桌面麦音箱、教育拾音吊顶麦...现在,越来越多的设备都是「天籁inside」。
未来,我们还会继续探索在更多个人通信设备场景的落地。
下次开会,认准这个logo!
领取专属 10元无门槛券
私享最新 技术干货