OpenAI宣布推出AI Agent评测基准PaperBench

界面快报 · 来源：界面新闻

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。

未经正式授权严禁转载本文，侵权必究。

OpenAI

OpenAI推出ChatGPT Health对标蚂蚁阿福！医疗设备ETF(159873)最新单日净申购400万份深市同类居首，近10日“吸金”超900万元3天前
AI早报 | 智谱成“全球大模型第一股”；OpenAI推出ChatGPT健康6天前

暂无评论哦，快来评价一下吧！

历史搜索全部删除

热门搜索

OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI

评论