Magma多模态AI模型：突破局限，整合多能力实现优异表现

微软研究团队携手多所高校研究人员，正式发布了名为 “Magma” 的多模态 AI模型。此模型意在处理并整合图像、文本、视频等多样数据类型，助力在数字与物理环境中执行复杂任务。如今，多模态 AI代理在机器人技术、虚拟助手以及用户界面自动化等领域应用广泛。

过往的 AI 系统常聚焦于视觉 -语言理解或机器人操作，很难将二者能力融合于一个统一模型。众多现有模型虽在特定领域表现不错，但在不同应用场景中的泛化能力欠佳。像 Pix2Act 和WebGUM 模型在 UI 导航方面表现突出，OpenVLA 和 RT-2 更适合机器人操控，然而它们通常需分别训练，难以跨越数字与物理环境的界限。

“Magma” 模型的问世，就是为突破这些局限。它引入一套强大训练方法，融合多模态理解、动作定位和规划能力，让 AI 代理能在各类环境中顺畅运行。Magma的训练数据集涵盖3900万样本，包含图像、视频和机器人动作轨迹。并且，该模型采用 “可标记集”（Set-of-Mark，SoM）和“轨迹标记”(Trace-of-Mark，ToM) 两项创新技术。“可标记集” 使模型能标记 UI 环境中的可操作视觉对象，“轨迹标记”则助其追踪物体随时间的移动，提升未来行动规划能力。

“Magma” 运用先进的深度学习架构与大规模预训练技术，优化在多个领域的表现。模型利用 ConvNEXt-XXL 视觉主干处理图像和视频，借助LLaMA-3-8B 语言模型处理文本输入。这种架构让 “Magma” 能高效整合视觉、语言与动作执行。经过全面训练，“Magma”在多个任务上成绩优异，展现出强大的多模态理解和空间推理能力。

项目入口为：https://microsoft.github.io/Magma/ 。值得关注的是，Magma模型经3900万多样本训练，拥有强大的多模态学习能力；成功整合视觉、语言和行动，突破现有 AI模型局限；在多项基准测试中表现出色，具备较强的泛化能力与优异的决策执行能力。

# AI快讯