最新推出的开源多模态大模型正引领技术潮流!
阿里云旗下的Qwen2系列模型家族近日迎来了全新成员——Qwen2-VL,这款模型在图像和长视频理解任务上均实现了顶尖水平的表现。
在细分任务的具体指标中,Qwen2-VL在多个方面均展现出了卓越性能,甚至超越了一些封闭源码的大模型如GPT-4o。
借助其多模态能力,Qwen2-VL能够实现实时读取摄像头或屏幕上的内容,并以文字形式进行互动。
【视频请到公众号查看】
此外,它还能够作为代理与环境进行交互,根据设定的目标自主操作设备如智能手机。
【视频请到公众号查看】
此次发布的Qwen2提供了2B、7B及72B三种版本,其中较小的两个版本已经开放下载,可供免费商业使用(遵循Apache 2.0协议),而最大的72B版本则通过API访问。
目前,该开源代码已经被集成到了诸如Hugging Face Transformers和vLLM这样的第三方框架中。
许多网友纷纷呼吁知名的大模型推理平台如Groq和Ollama能够尽快提供支持。
现在就让我们一起见证Qwen2-VL的非凡表现吧!
实现机械臂操控的多模态大模型
凭借其强大的多模态处理能力,Qwen2-VL可以操控机械臂完成一系列动作,例如抓取和放置物体。
【视频请到公众号查看】
不仅如此,Qwen2-VL还能扮演扑克牌高手的角色,通过分析牌局信息并作出“24点”游戏的策略决策,从而赢得比赛。
此外,Qwen2-VL能够根据屏幕显示的内容,结合用户的指令,自主操作手机进行在线信息查询。
当然,这些复杂的任务背后,离不开Qwen2-VL的基础能力。
例如,在物体识别方面,Qwen2-VL能够准确辨认花朵的种类。
而在文字识别方面,Qwen2-VL支持多种语言的文本提取。
即使将16种不同的语言混合在同一幅图中,Qwen2-VL不仅能分辨每种语言,还能一次性提取所有文本。
无论是手写体还是复杂的数学公式,Qwen2-VL都能精准识别,甚至连上下标这样的细微之处也不放过。
在视频处理方面,Qwen2-VL能够分析长达20分钟以上的视频内容,既支持概括总结,也能回答细节问题。
不过现阶段,它仅能处理画面内容,还不支持音频分析。
【视频请到公众号查看】
同时,它也支持实时视频的文字对话,不仅可以基于摄像头的输入进行互动,还可以读取电脑屏幕上的内容作为对话材料。
【视频请到公众号查看】
Qwen2-VL在各类任务中展现了其出色的综合能力。
多模态能力超越GPT-4o
为了全面评估Qwen2-VL在各项任务中的表现,研究团队从六个维度对其视觉能力进行了评测。
这些维度涵盖了综合大学试题、数学问题、文档表格理解、常规场景问答、视频理解和代理能力。
总体而言,Qwen2-72B在大多数指标上表现出色,甚至超越了GPT-4o和Claude3.5-Sonnet,尤其是在文档理解上表现尤为突出。
此外,在多语言测试中,Qwen2-VL在9种语言中的8种上均超越了GPT-4o、Claude3-Opus和Gemini Ultra等先进模型,平均得分最高。
7B版本同样支持图像、多图及视频输入,并且达到了同级别模型的最佳水平。
最小的2B版本专为移动设备设计,尽管体积小巧,但却具备完整的图像视频及多语言理解功能,在视频文档和常规场景问答方面相较于同类模型具有显著优势。
总体而言,Qwen2-VL继承了前代Qwen-VL中ViT加Qwen(2)的串行结构,在三个不同规模的模型上均采用600M规模的ViT,并且支持图像和视频的统一输入。
为了使模型更有效地感知视觉信息和理解视频,Qwen2-VL引入了对原生动态分辨率的支持,能够处理任意分辨率的图像输入,不同尺寸的图片被转换成动态数量的tokens,最少只需4个。
这一设计不仅保证了模型输入与图像原始信息的一致性,还模拟了人类视觉感知的自然方式,使模型在图像处理任务上更为灵活高效。
Qwen2-VL在架构上的另一大创新在于多模态旋转位置嵌入(M-ROPE)。
传统旋转位置嵌入只能捕捉一维序列的位置信息,而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。
这项创新有助于增强模型的多模态处理和推理能力,更好地理解和建模复杂的多模态数据。
DEMO:https://huggingface.co/spaces/Qwen/Qwen2-VL项目主页:https://qwenlm.github.io/blog/qwen2-vl/GitHub:https://github.com/QwenLM/Qwen2-VL