AI音视频如何重构在线会议？记者探展InfoComm 2024体验腾讯天籁inside3.0

央广网北京4月19日消息（记者万玉航）亚太区首屈一指的专业视听和集成体验解决方案展北京InfoComm China 2024于 4月17日-4月19日在北京的国家会议中心 (CNCC) 盛大开幕。为期三天的商贸展会和高峰会议，吸引了众多展商携新品参展交流。

记者在现场注意到，AI大模型、智能化、人机交互等“热词”高频出现在本届展会上，全球知名品牌的新品首发与创新解决方案中多有涉及。

在腾讯会议展区，工作人员向记者介绍称，AI时代，会议室的良好拾音和区分说话人技术，是实现语音转文字、字幕翻译和智能纪要等能力的前提。为此，4月17日，腾讯会议天籁实验室发布了腾讯天籁inside3.0升级，在腾讯AI Lab多项技术加持下，推出16mic多模态人像分割解决方案，具备智能音幕功能，能够精准区分和定位会议室里的发言人，并升级了去混响效果。

通过音视频多模态AI算法，此次腾讯天籁inside3.0拥有“听得更清楚”、“交流无障碍”、“效率大提升”和“会议资产可沉淀”四大亮点。“听得更清楚”，是指通过对300种噪声的智能降噪，可以让主讲人声音增强；“交流无障碍”则是通过实时转写、字幕显示、多语言翻译等功能，让交流更加无障碍。此外，全新升级的AI小助手，也能在会议中实时解答用户的各种问题，让用户不错过重要的会议内容。

在腾讯会议展区现场，前来体验的厂商和观众络绎不绝。记者来到“多人分镜模式”体验区时，工作人员告诉记者，腾讯天籁inside3.0的人像分割功能，可以精准区分、定位会议室里的发言人，能够让他们时刻处于画面C位，让交流更专注、高效。

“现代化的会议室通常采用大面积的玻璃设计，混响非常严重，若采用传统的声源定位模式，在噪声和混响条件下，特别是当发言人空间方位相近时，就准确定位到当前发言人。”该工作人员表示。

据了解，腾讯天籁inside在每一场会都会给每位发言人快速建立起一个人声合一的档案，结合多模态AI算法，就能够在众多的会议室参会者中准确识别出当前发言人，即便距离相近、发言人侧对及背对摄像头、亦或是移动中，都能牢牢锁定。

在“裸眼3D”体验区，前来体验的观众纷纷对记者表示，他们对于视频会议可以带来如此强的“面对面”效果感到震撼。工作人员告诉记者，裸眼3D技术可以实时捕捉交流双方的微表情、微动作，让视频对话带来更丰富的信息。

据了解，腾讯天籁inside3.0方案，涵盖AI+16阵列麦拾音矩阵+音视频多模态识别算法。具备智能音幕功能，能够精准区分和定位会议室里的发言人，并升级了去混响效果。

智能音幕能力，相当于在会议室里建立起虚拟音频屏障，让线上发言人只听到特定区域的声音，减少区域外的人声和噪声干扰。据介绍，智能音幕支持实时调整方向。

通过音视频多模态AI算法，腾讯天籁inside3.0还支持精准区分、定位发言人。基于这项能力并结合腾讯会议Rooms的多流技术打造的硬件，可以为每位发言人提供单独的视频画面，更接近在同一个会议室开会的体验，提升沟通的临场感。

天籁inside3.0还提升了去混响表现，并基于天籁16麦音频方案优化了降噪模型。实测显示，在多种会议室噪声的干扰下，无论发言人距离屏幕远近，线上都能清晰听到声音。

腾讯会议与MAXHUB联合发布了集成腾讯天籁inside3.0方案的两款产品。据介绍，腾讯天籁inside开放了底层坐标给合作厂商，厂商可自行定制发言人的画幅比例、多人对话时的切换速度、切换逻辑等，进行二次开发。

目前，天籁inside音频解决方案已覆盖一体机大屏、扩展麦、天花麦等产品，应用在MAXHUB、Newline、海信商显、耳目达、TCL、维海德、开得联、皓丽、大华以及华创等多家知名厂商的会议室硬件中。

此外，记者注意到，本届InfoComm现场，多家参展厂商均在醒目位置展示了与腾讯会议合作的硬件解决方案，包括MAXHUB、罗技、耳目达、poly、维海德、亿联网络等多家硬件厂商均推出了与腾讯会议合作的新一代场景方案和产品能力。通过领先的音视频与AI技术，腾讯会议正在持续助力厂商提升会议硬件的表现，提供听觉、视觉、内容上更加沉浸专注的会议体验。

编辑:牛谷月

热榜