微软OmniParser最新版本可将DeepSeek等模型转化为计算机智能体

2月17日,根据微软官网,微软日前发布视觉Agent解析框架OmniParser最新版本V2,可将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。相比前代版本,OmniParser V2在检测更微小可交互元素时精度更高、推理速度更快。具体而言,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并通过缩小图标描述模型的输入图像尺寸,推理延迟较前代降低60%。

未经正式授权严禁转载本文,侵权必究。

微软

5.3k
  • 迪拜王储:阿联酋电信公司du将与微软合作启动数据中心项目
  • 继微软之后, 亚马逊被传放缓数据中心扩张

OpenAI

  • 美国司法部敦促法院强制谷歌剥离Chrome浏览器,OpenAI有意收购
  • AI早报 | OpenAI有意买下谷歌Chrome浏览器;人形机器人被装上AI鼻子

评论

暂无评论哦,快来评价一下吧!