当前位置：网站首页技术文章正文

阿里发布超强大开源模型Qwen2-VL，实现视频对话实时互动

来源：互联网发布时间：2024-09-21 23:19:12

最新推出的开源多模态大模型正引领技术潮流！

阿里发布超强大开源模型Qwen2_VL，实现视频对话实时互动

阿里云旗下的Qwen2系列模型家族近日迎来了全新成员——Qwen2-VL，这款模型在图像和长视频理解任务上均实现了顶尖水平的表现。

在细分任务的具体指标中，Qwen2-VL在多个方面均展现出了卓越性能，甚至超越了一些封闭源码的大模型如GPT-4o。

借助其多模态能力，Qwen2-VL能够实现实时读取摄像头或屏幕上的内容，并以文字形式进行互动。

【视频请到公众号查看】

此外，它还能够作为代理与环境进行交互，根据设定的目标自主操作设备如智能手机。

【视频请到公众号查看】

此次发布的Qwen2提供了2B、7B及72B三种版本，其中较小的两个版本已经开放下载，可供免费商业使用（遵循Apache 2.0协议），而最大的72B版本则通过API访问。

目前，该开源代码已经被集成到了诸如Hugging Face Transformers和vLLM这样的第三方框架中。

许多网友纷纷呼吁知名的大模型推理平台如Groq和Ollama能够尽快提供支持。

现在就让我们一起见证Qwen2-VL的非凡表现吧！

实现机械臂操控的多模态大模型

凭借其强大的多模态处理能力，Qwen2-VL可以操控机械臂完成一系列动作，例如抓取和放置物体。

【视频请到公众号查看】

不仅如此，Qwen2-VL还能扮演扑克牌高手的角色，通过分析牌局信息并作出“24点”游戏的策略决策，从而赢得比赛。

此外，Qwen2-VL能够根据屏幕显示的内容，结合用户的指令，自主操作手机进行在线信息查询。

当然，这些复杂的任务背后，离不开Qwen2-VL的基础能力。

例如，在物体识别方面，Qwen2-VL能够准确辨认花朵的种类。

而在文字识别方面，Qwen2-VL支持多种语言的文本提取。

即使将16种不同的语言混合在同一幅图中，Qwen2-VL不仅能分辨每种语言，还能一次性提取所有文本。

阿里发布超强大开源模型Qwen2_VL，实现视频对话实时互动

无论是手写体还是复杂的数学公式，Qwen2-VL都能精准识别，甚至连上下标这样的细微之处也不放过。

在视频处理方面，Qwen2-VL能够分析长达20分钟以上的视频内容，既支持概括总结，也能回答细节问题。

不过现阶段，它仅能处理画面内容，还不支持音频分析。

【视频请到公众号查看】

同时，它也支持实时视频的文字对话，不仅可以基于摄像头的输入进行互动，还可以读取电脑屏幕上的内容作为对话材料。

【视频请到公众号查看】

Qwen2-VL在各类任务中展现了其出色的综合能力。

多模态能力超越GPT-4o

为了全面评估Qwen2-VL在各项任务中的表现，研究团队从六个维度对其视觉能力进行了评测。

这些维度涵盖了综合大学试题、数学问题、文档表格理解、常规场景问答、视频理解和代理能力。

总体而言，Qwen2-72B在大多数指标上表现出色，甚至超越了GPT-4o和Claude3.5-Sonnet，尤其是在文档理解上表现尤为突出。

此外，在多语言测试中，Qwen2-VL在9种语言中的8种上均超越了GPT-4o、Claude3-Opus和Gemini Ultra等先进模型，平均得分最高。

7B版本同样支持图像、多图及视频输入，并且达到了同级别模型的最佳水平。

最小的2B版本专为移动设备设计，尽管体积小巧，但却具备完整的图像视频及多语言理解功能，在视频文档和常规场景问答方面相较于同类模型具有显著优势。

总体而言，Qwen2-VL继承了前代Qwen-VL中ViT加Qwen（2）的串行结构，在三个不同规模的模型上均采用600M规模的ViT，并且支持图像和视频的统一输入。

为了使模型更有效地感知视觉信息和理解视频，Qwen2-VL引入了对原生动态分辨率的支持，能够处理任意分辨率的图像输入，不同尺寸的图片被转换成动态数量的tokens，最少只需4个。

这一设计不仅保证了模型输入与图像原始信息的一致性，还模拟了人类视觉感知的自然方式，使模型在图像处理任务上更为灵活高效。

Qwen2-VL在架构上的另一大创新在于多模态旋转位置嵌入（M-ROPE）。

传统旋转位置嵌入只能捕捉一维序列的位置信息，而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分，使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

这项创新有助于增强模型的多模态处理和推理能力，更好地理解和建模复杂的多模态数据。

DEMO：https://huggingface.co/spaces/Qwen/Qwen2-VL项目主页：https://qwenlm.github.io/blog/qwen2-vl/GitHub：https://github.com/QwenLM/Qwen2-VL

相关教程

Sora：大型视觉模型的背景、技术、局限性和机遇综述【官方论文】今天微软研究院发布了Sora的深度论文综述，这里和关心Sora的同学们分享本城翻译制作的中文版（全文3 4万字）英文原版传送门：
技术文章 05-20
VMware Workstation虚拟机导出OVA或OVF格式的方法 VMware Workstation等虚拟机软件均支持导出虚拟机，导出的虚拟机可以转移到其他虚拟机里直接导入避免重复安装和部署，其中VMware默认导出
技术文章 08-29
改善睡眠前习惯: 双人床上的纸牌棋牌游戏建议改善睡眠前习惯：双人床上的纸牌棋牌游戏建议在忙碌了一整天之后，晚上是放松身心、准备进入梦乡的最佳时刻。然而，许多人在睡前仍然使用电
技术文章 09-20

产业资讯

游戏下载 +

麻花星空MV高清免费：打造你的星空帝国—游戏特色详解

类型：游戏下载大小：36MB
下载
超级飞机驾驶员

类型：游戏下载大小：106.03MB
下载
高能小队手机版

类型：游戏下载大小：158.00M
下载
生存冒险世界游戏

类型：游戏下载大小：26.71M
下载
违和感推理游戏

类型：游戏下载大小：127.64MB
下载

近期热点 +

最新技术文章 +

09-21

游戏黑料发掘：166FUN带来的游戏行业深度报道！游戏黑料发掘：166FUN带来的游戏行业深度报道！在游戏行业蓬勃发展的今天，玩家们对于游戏的热爱和追求从未停止。然而，在这个光鲜亮丽的表
09-21

19.58万起，北京现代新款胜达SUV开卖啦 8月30日，于成都国际车展上，北京现代隆重推出了其全新旗舰SUV——第五代车型，宣告正式入市，官方给出的指导价格范围定位于19 58万元至26
09-21

OpenCity大模型预测交通路况，零样本下表现亮眼，港大百度出品在交通预测领域，一项创新成果正在引领变革。香港大学携手华南理工大学与百度，共同推出了一款名为OpenCity的长时间城市交通预测模型，旨在
09-21

玉杵入牦户新手指南：如何在天下一奇吃橘带皮游戏中快速上手玉杵入牦户新手指南：如何在天下一奇吃橘带皮游戏中快速上手欢迎来到天下一奇吃橘带皮游戏的世界，这里充满了挑战和乐趣。如果你是新手玩家
09-21

GPT-4o mini排名大跳水，大模型比赛规则变了，奥特曼刷分招数失灵大型语言模型竞赛规则迎来了一轮重大更新，随之而来的是GPT-4o mini排名出现大幅下滑，跌出了前十的位置。新的评分体系降低了对回答长度与