当地时间2月25日,微软在官网开源多模态AI Agent基础模型Magma。据介绍,与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。
微软开源多模态AI Agent基础模型Magma
来源:界面新闻
微软
5.1k
- 微软回应取消部分数据中心租约:某些领域战略性调整,坚持原定资本支出计划
- 微软OmniParser最新版本可将DeepSeek等模型转化为计算机智能体
评论