当前位置：网站首页技术文章正文

新方法让AI更懂真实世界！人大北邮上海AI实验室联手出击

来源：互联网发布时间：2024-09-22 00:04:07

研究人员最近推出了一项创新技术，让人工智能不仅能够观看，还能聆听，并更好地理解我们身处的真实世界。这项技术被称为Ref-AVS（视听场景下的指代分割），它标志着AI在理解复杂视听环境方面迈出了重要一步，已被国际顶级会议ECCV2024收录。

想象一下，在一场音乐会的录像中，机器如何才能精准地锁定正在演奏乐器的表演者呢？传统的方法往往侧重于单一模态，比如视觉、文本或音频，而Ref-AVS则采用一种综合多模态信息的新策略，从而实现了更为精准的定位。

视频对象分割（VOS）：这种方法依赖于初始帧中的对象掩码来指导后续帧的分割工作，然而这种依赖使得其精度受到限制。视频对象参考分割（Ref-VOS）：通过自然语言描述来替代掩码标注，尽管更加便捷，但在复杂场景下的表现力有限。视听分割（AVS）：以音频为引导，识别视频中发声的对象，但对于无声物体却无能为力。

Ref-AVS则不同，它巧妙地结合了文本、音频和视觉模态的信息，使之能够适应更为真实的动态视听环境。无论是同时唱歌和弹吉他的艺术家，还是正在发声的乐器，都能被准确地识别出来。

为了验证这一方法的有效性，研究团队创建了名为Ref-AVS Bench的数据集，并开发了一个高效的端到端框架来处理多模态信息。该数据集包含了40020帧视频，覆盖了6888个物体及20261个指代表达式。每个视频片段都有相应的音频，并附带了详细的像素级标注，以确保数据的质量和多样性。

新方法让AI更懂真实世界！人大北邮上海AI实验室联手出击

在构建过程中，团队从YouTube上精心挑选了10秒钟长度的视频，排除了编辑频繁、视角切换过多或非现实合成的内容，以保证数据集的真实性。为了提升表达式的多样性，他们还引入了听觉、视觉和时间三个维度的信息，设计了一系列既能反映多模态场景又满足用户特定需求的表达式。

为了生成高质量的表达式，研究制定了三个基本原则：唯一性、必要性和清晰度。在实际操作中，研究团队首先利用Grounding SAM对关键帧进行分割和标记，然后由人工标注员进行校正，最终通过跟踪算法生成连续的目标对象掩码。

在技术实现上，研究团队采用了时序双模态融合模块，结合了缓存记忆机制来捕捉多模态信息随时间的变化。随后，多模态特征被送入多模态集成变换器进行融合，生成最终特征供掩码解码器使用。团队选择了Mask2Former作为基础分割模型，并通过跨注意力变换器将多模态特征融入其中。

实验结果表明，Ref-AVS在定量和定性测试中均表现出色，特别是在处理未见过的视听场景和空指代情况下，显示出了强大的泛化能力和鲁棒性。此外，Ref-AVS在与现有方法的对比中也取得了优势，能够准确地理解用户的指令并完成目标对象的分割。

新方法让AI更懂真实世界！人大北邮上海AI实验室联手出击

展望未来，研究者们计划探索更先进的多模态融合技术，提高模型的实时应用能力，并拓展数据集的规模和多样性，以便将这项技术应用于视频分析、医疗图像处理、自动驾驶等多个领域。

相关教程

李飞飞创业拿16亿融资！团队首秀：三分之一是华人，老黄和乔布斯都下了注经过一段时间的低调筹备，李飞飞所创立的空间智能企业终于揭开了神秘面纱：这一消息迅速得到了业界重量级人物的认可和支持，其中包括李飞飞
技术文章 09-17
[技巧] 没有收到GPT-4o模型的测试权限？试试这个方法立即获取目前 OpenAI 正在逐步推出最新的 GPT-4o 模型，其中有一部分用户已经可以在网页版、Mac 客户端和 ChatGPT 移动端使用 GPT-4o 模型
技术文章 08-20
Ubuntu 21.10等旧版本升级Ubuntu 22.04 LTS的操作方法据Canonical发布的公告，Ubuntu 22 04 LTS Jammy Jellyfish已经正式发布，但目前Ubuntu 21 04用户还无法直接升级，原因是snapd和updat
技术文章 08-29

产业资讯

游戏下载 +

x9x9x9任意槽：像素风动作射击玩法解析，勇者成长全攻略！

类型：游戏下载大小：10M
下载
17c.c-起草：骑士团战斗超燃，伙伴技能连携带来全新战斗体验！

类型：游戏下载大小：10M
下载
星空无限mv国产剧苏清歌澎湃新闻：探险与养成玩法详解，开启奇幻世界之门！

类型：游戏下载大小：10M
下载
17c最新网名2022fun：收服异火之路，研究炼丹术，成就炼丹大师！

类型：游戏下载大小：10M
下载
麻花星空MV高清免费：打造你的星空帝国—游戏特色详解

类型：游戏下载大小：36MB
下载

近期热点 +

最新技术文章 +

09-21

阿里发布超强大开源模型Qwen2-VL，实现视频对话实时互动最新推出的开源多模态大模型正引领技术潮流！阿里云旗下的Qwen2系列模型家族近日迎来了全新成员——Qwen2-VL，这款模型在图像和长视频理解
09-21

游戏黑料发掘：166FUN带来的游戏行业深度报道！游戏黑料发掘：166FUN带来的游戏行业深度报道！在游戏行业蓬勃发展的今天，玩家们对于游戏的热爱和追求从未停止。然而，在这个光鲜亮丽的表
09-21

19.58万起，北京现代新款胜达SUV开卖啦 8月30日，于成都国际车展上，北京现代隆重推出了其全新旗舰SUV——第五代车型，宣告正式入市，官方给出的指导价格范围定位于19 58万元至26
09-21

OpenCity大模型预测交通路况，零样本下表现亮眼，港大百度出品在交通预测领域，一项创新成果正在引领变革。香港大学携手华南理工大学与百度，共同推出了一款名为OpenCity的长时间城市交通预测模型，旨在
09-21

玉杵入牦户新手指南：如何在天下一奇吃橘带皮游戏中快速上手玉杵入牦户新手指南：如何在天下一奇吃橘带皮游戏中快速上手欢迎来到天下一奇吃橘带皮游戏的世界，这里充满了挑战和乐趣。如果你是新手玩家