6月2日,阿里千问大模型团队正式发布Qwen3.7-Plus模型。作为Qwen3.7的多模态升级版本,该模型定位为“视觉与语言统一的智能体基座”,旨在通过深度融合多模态感知与推理能力,推动AI智能体从单一文本交互向多模态交互跨越。
据官方介绍,Qwen3.7-Plus并不是一次从零开始的新模型研发,而是在Qwen3.7成熟架构基础上的能力跃迁。它完整保留了Qwen3.7在文本处理、代码生成、工具调用以及复杂生产力工作流方面的核心能力,同时重点强化了三个方向:视觉理解、视觉推理和跨模态任务处理。
这意味着,Qwen3.7-Plus不仅能“看懂”图像中的物体和文字,还能基于视觉信息进行逻辑推理——例如分析图表数据、识别场景中的异常情况,或根据设计草图直接生成代码。在跨模态任务处理上,用户可以在同一对话中混合输入文字和图片,模型能够无缝整合多模态信息并给出连贯回应,无需切换到不同模型。
值得关注的是,阿里千问对Qwen3.7-Plus的核心定位是“混合智能体”的基座模型。在AIAgent加速落地的当下,智能体需要具备环境感知、任务规划和工具调用等多重能力。传统纯文本模型在需要理解UI界面、分析监控画面或读取文档扫描件等场景中存在天然短板,Qwen3.7-Plus则通过视觉能力的深度集成,为智能体补上了“眼睛”这一关键感知模块。
从技术路线上看,这种将视觉理解能力原生集成到通用模型中的做法,有别于“文本模型+外挂视觉模块”的拼接方案。集成式的统一架构可以带来更高效的推理速度和更一致的多模态表现,在实时性要求高的智能体任务中尤为关键。