通义千问推出最强视觉理解模型Qwen2

发布时间：2024-11-15 20:31:42

8月30日，通义推出阿里通义千问发布第二代视觉语言模型Qwen2-VL，千问旗舰模型 Qwen2-VL-72B的最强API已上线阿里云百炼平台。Qwen2-VL在多个权威测评中刷新了多模态模型的视觉最佳成绩，在部分指标上甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型。理解

2023年8月，模型通义千问开源第一代视觉语言理解模型Qwen-VL，通义推出成为开源社区最受欢迎的千问多模态模型之一。短短一年内，最强模型下载量突破1000万次。视觉目前，理解多模态模型在手机、模型车端等各类视觉识别场景的通义推出落地正在加速，开发者和应用企业也格外关注Qwen-VL的千问升级迭代。

通义千问推出最强视觉理解模型Qwen2-VL-72B，最强API已上线阿里云

相比上代模型，Qwen2-VL的基础性能全面提升。可以读懂不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；可以理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；能理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B 在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，在文档理解方面优势尤其明显，仅在综合的大学题目方面与 GPT-4o 存在差距。

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API，地址：

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

雷峰网(公众号：雷峰网)