OpenAI开源浏览智能体评测基准BrowseComp

界面快报 · 来源：界面新闻

当地时间4月10日，美国开放人工智能研究中心（OpenAI）宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示，一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试（如SimpleQA）主要衡量模型检索基本孤立事实的能力，这类测试已被具备快速浏览工具（如支持浏览功能的GPT-4o）的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力，现开源基准测试BrowseComp。

未经正式授权严禁转载本文，侵权必究。

OpenAI

AI早报 | 黄仁勋否认对OpenAI不满，透露将巨额投资；腾讯元宝登顶苹果商店免费榜3小时前
科技早报 | 黄仁勋否认对OpenAI不满，透露将巨额投资；苹果人工智能团队再现离职潮3小时前

暂无评论哦，快来评价一下吧！

历史搜索全部删除

热门搜索

OpenAI开源浏览智能体评测基准BrowseComp

OpenAI

评论