当前位置: 网站首页 技术文章 正文

新方法让AI更懂真实世界!人大北邮上海AI实验室联手出击

来源:互联网 发布时间:2024-09-22 00:04:07

研究人员最近推出了一项创新技术,让人工智能不仅能够观看,还能聆听,并更好地理解我们身处的真实世界。这项技术被称为Ref-AVS(视听场景下的指代分割),它标志着AI在理解复杂视听环境方面迈出了重要一步,已被国际顶级会议ECCV2024收录。

新方法让AI更懂真实世界!人大北邮上海AI实验室联手出击

想象一下,在一场音乐会的录像中,机器如何才能精准地锁定正在演奏乐器的表演者呢?传统的方法往往侧重于单一模态,比如视觉、文本或音频,而Ref-AVS则采用一种综合多模态信息的新策略,从而实现了更为精准的定位。

视频对象分割(VOS):这种方法依赖于初始帧中的对象掩码来指导后续帧的分割工作,然而这种依赖使得其精度受到限制。视频对象参考分割(Ref-VOS):通过自然语言描述来替代掩码标注,尽管更加便捷,但在复杂场景下的表现力有限。视听分割(AVS):以音频为引导,识别视频中发声的对象,但对于无声物体却无能为力。

Ref-AVS则不同,它巧妙地结合了文本、音频和视觉模态的信息,使之能够适应更为真实的动态视听环境。无论是同时唱歌和弹吉他的艺术家,还是正在发声的乐器,都能被准确地识别出来。

为了验证这一方法的有效性,研究团队创建了名为Ref-AVS Bench的数据集,并开发了一个高效的端到端框架来处理多模态信息。该数据集包含了40020帧视频,覆盖了6888个物体及20261个指代表达式。每个视频片段都有相应的音频,并附带了详细的像素级标注,以确保数据的质量和多样性。

新方法让AI更懂真实世界!人大北邮上海AI实验室联手出击

在构建过程中,团队从YouTube上精心挑选了10秒钟长度的视频,排除了编辑频繁、视角切换过多或非现实合成的内容,以保证数据集的真实性。为了提升表达式的多样性,他们还引入了听觉、视觉和时间三个维度的信息,设计了一系列既能反映多模态场景又满足用户特定需求的表达式。

为了生成高质量的表达式,研究制定了三个基本原则:唯一性、必要性和清晰度。在实际操作中,研究团队首先利用Grounding SAM对关键帧进行分割和标记,然后由人工标注员进行校正,最终通过跟踪算法生成连续的目标对象掩码。

在技术实现上,研究团队采用了时序双模态融合模块,结合了缓存记忆机制来捕捉多模态信息随时间的变化。随后,多模态特征被送入多模态集成变换器进行融合,生成最终特征供掩码解码器使用。团队选择了Mask2Former作为基础分割模型,并通过跨注意力变换器将多模态特征融入其中。

实验结果表明,Ref-AVS在定量和定性测试中均表现出色,特别是在处理未见过的视听场景和空指代情况下,显示出了强大的泛化能力和鲁棒性。此外,Ref-AVS在与现有方法的对比中也取得了优势,能够准确地理解用户的指令并完成目标对象的分割。

新方法让AI更懂真实世界!人大北邮上海AI实验室联手出击

展望未来,研究者们计划探索更先进的多模态融合技术,提高模型的实时应用能力,并拓展数据集的规模和多样性,以便将这项技术应用于视频分析、医疗图像处理、自动驾驶等多个领域。

相关教程