当前位置: 网站首页 技术文章 正文

阿里发布超强大开源模型Qwen2-VL,实现视频对话实时互动

来源:互联网 发布时间:2024-09-21 23:19:12

最新推出的开源多模态大模型正引领技术潮流!

阿里发布超强大开源模型Qwen2_VL,实现视频对话实时互动

阿里云旗下的Qwen2系列模型家族近日迎来了全新成员——Qwen2-VL,这款模型在图像和长视频理解任务上均实现了顶尖水平的表现。

在细分任务的具体指标中,Qwen2-VL在多个方面均展现出了卓越性能,甚至超越了一些封闭源码的大模型如GPT-4o。

借助其多模态能力,Qwen2-VL能够实现实时读取摄像头或屏幕上的内容,并以文字形式进行互动。

【视频请到公众号查看】

此外,它还能够作为代理与环境进行交互,根据设定的目标自主操作设备如智能手机。

【视频请到公众号查看】

此次发布的Qwen2提供了2B、7B及72B三种版本,其中较小的两个版本已经开放下载,可供免费商业使用(遵循Apache 2.0协议),而最大的72B版本则通过API访问。

目前,该开源代码已经被集成到了诸如Hugging Face Transformers和vLLM这样的第三方框架中。

许多网友纷纷呼吁知名的大模型推理平台如Groq和Ollama能够尽快提供支持。

现在就让我们一起见证Qwen2-VL的非凡表现吧!

实现机械臂操控的多模态大模型

凭借其强大的多模态处理能力,Qwen2-VL可以操控机械臂完成一系列动作,例如抓取和放置物体。

【视频请到公众号查看】

不仅如此,Qwen2-VL还能扮演扑克牌高手的角色,通过分析牌局信息并作出“24点”游戏的策略决策,从而赢得比赛。

此外,Qwen2-VL能够根据屏幕显示的内容,结合用户的指令,自主操作手机进行在线信息查询。

当然,这些复杂的任务背后,离不开Qwen2-VL的基础能力。

例如,在物体识别方面,Qwen2-VL能够准确辨认花朵的种类。

而在文字识别方面,Qwen2-VL支持多种语言的文本提取。

即使将16种不同的语言混合在同一幅图中,Qwen2-VL不仅能分辨每种语言,还能一次性提取所有文本。

阿里发布超强大开源模型Qwen2_VL,实现视频对话实时互动

无论是手写体还是复杂的数学公式,Qwen2-VL都能精准识别,甚至连上下标这样的细微之处也不放过。

在视频处理方面,Qwen2-VL能够分析长达20分钟以上的视频内容,既支持概括总结,也能回答细节问题。

不过现阶段,它仅能处理画面内容,还不支持音频分析。

【视频请到公众号查看】

同时,它也支持实时视频的文字对话,不仅可以基于摄像头的输入进行互动,还可以读取电脑屏幕上的内容作为对话材料。

【视频请到公众号查看】

Qwen2-VL在各类任务中展现了其出色的综合能力。

多模态能力超越GPT-4o

为了全面评估Qwen2-VL在各项任务中的表现,研究团队从六个维度对其视觉能力进行了评测。

这些维度涵盖了综合大学试题、数学问题、文档表格理解、常规场景问答、视频理解和代理能力。

总体而言,Qwen2-72B在大多数指标上表现出色,甚至超越了GPT-4o和Claude3.5-Sonnet,尤其是在文档理解上表现尤为突出。

此外,在多语言测试中,Qwen2-VL在9种语言中的8种上均超越了GPT-4o、Claude3-Opus和Gemini Ultra等先进模型,平均得分最高。

7B版本同样支持图像、多图及视频输入,并且达到了同级别模型的最佳水平。

最小的2B版本专为移动设备设计,尽管体积小巧,但却具备完整的图像视频及多语言理解功能,在视频文档和常规场景问答方面相较于同类模型具有显著优势。

总体而言,Qwen2-VL继承了前代Qwen-VL中ViT加Qwen(2)的串行结构,在三个不同规模的模型上均采用600M规模的ViT,并且支持图像和视频的统一输入。

为了使模型更有效地感知视觉信息和理解视频,Qwen2-VL引入了对原生动态分辨率的支持,能够处理任意分辨率的图像输入,不同尺寸的图片被转换成动态数量的tokens,最少只需4个。

这一设计不仅保证了模型输入与图像原始信息的一致性,还模拟了人类视觉感知的自然方式,使模型在图像处理任务上更为灵活高效。

Qwen2-VL在架构上的另一大创新在于多模态旋转位置嵌入(M-ROPE)。

传统旋转位置嵌入只能捕捉一维序列的位置信息,而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

这项创新有助于增强模型的多模态处理和推理能力,更好地理解和建模复杂的多模态数据。

DEMO:https://huggingface.co/spaces/Qwen/Qwen2-VL项目主页:https://qwenlm.github.io/blog/qwen2-vl/GitHub:https://github.com/QwenLM/Qwen2-VL

相关教程