Magma多模态AI模型:突破局限,整合多能力实现优异表现

AI快讯1天前发布 niko
6 0
AiPPT - 一键生成ppt

微软研究团队携手多所高校研究人员,正式发布了名为 “Magma” 的多模态 AI模型。此模型意在处理并整合图像、文本、视频等多样数据类型,助力在数字与物理环境中执行复杂任务。如今,多模态 AI代理在机器人技术、虚拟助手以及用户界面自动化等领域应用广泛。

过往的 AI 系统常聚焦于视觉 -语言理解或机器人操作,很难将二者能力融合于一个统一模型。众多现有模型虽在特定领域表现不错,但在不同应用场景中的泛化能力欠佳。像 Pix2Act 和WebGUM 模型在 UI 导航方面表现突出,OpenVLA 和 RT-2 更适合机器人操控,然而它们通常需分别训练,难以跨越数字与物理环境的界限。

“Magma” 模型的问世,就是为突破这些局限。它引入一套强大训练方法,融合多模态理解、动作定位和规划能力,让 AI 代理能在各类环境中顺畅运行。Magma的训练数据集涵盖3900万样本,包含图像、视频和机器人动作轨迹。并且,该模型采用 “可标记集”(Set-of-Mark,SoM)和“轨迹标记”(Trace-of-Mark,ToM) 两项创新技术。“可标记集” 使模型能标记 UI 环境中的可操作视觉对象,“轨迹标记”则助其追踪物体随时间的移动,提升未来行动规划能力。

“Magma” 运用先进的深度学习架构与大规模预训练技术,优化在多个领域的表现。模型利用 ConvNEXt-XXL 视觉主干处理图像和视频,借助LLaMA-3-8B 语言模型处理文本输入。这种架构让 “Magma” 能高效整合视觉、语言与动作执行。经过全面训练,“Magma”在多个任务上成绩优异,展现出强大的多模态理解和空间推理能力。

项目入口为:https://microsoft.github.io/Magma/ 。值得关注的是,Magma模型经3900万多样本训练,拥有强大的多模态学习能力;成功整合视觉、语言和行动,突破现有 AI模型局限;在多项基准测试中表现出色,具备较强的泛化能力与优异的决策执行能力。

© 版权声明
智谱清言 - 国产最强AI模型