微软开源Magma多模态AI Agent基础模型，带来创新应用体验

AI快讯1年前 (2025)发布 niko

微软于近日在其官方网站正式将名为“Magma”的多模态AIAgent基础模型进行开源。此款新型人工智能具备横跨数字与物理世界的实力，可同时对图像、视频、文本等多种数据类型加以处理。

独特心理预测功能 ：相较于传统AI助手，Magma的突出特点在于拥有心理预测功能，这使其能更为精准地洞悉视频里人物或物体的意图以及未来的行为走向。

广泛的应用场景：Magma的应用范围极为广泛。用户能够借助这款AI实现自动下单购物、天气查询等日常操作。不仅如此，它还可以对实体机器人进行自动控制，并且在诸如象棋等活动中为用户给予实时帮助。这种多模态能力让Magma在不同环境下都表现优异，能够应对各类复杂任务。

提升机器人学习适应性：依据官方介绍，Magma特别适用于AI驱动的助手或机器人，有助于它们更好地认知周围环境并做出相应行动。例如，它能够引导家用机器人学习整理从未见过的物品，或者协助虚拟助手为用户生成详细的操作指南。这种特性显著增强了机器人的学习能力与实用性。

技术原理与意义：Magma模型属于VLA（视觉语言动作）系列，通过学习海量公开的视觉和语言数据，能够融合语言、空间和时间方面的智能，从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的持续发展，Magma的推出无疑标志着智能助手和机器人技术向前迈进了一大步。

项目链接:https://microsoft.github.io/Magma/

文章版权归作者所有，未经允许请勿转载。