OpenAI宣布推出AI Agent评测基准PaperBench

当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。

未经正式授权严禁转载本文,侵权必究。

OpenAI

  • DeepSeek月访问量超ChatGPT!科创板人工智能ETF(588930)连续3个交易日获得资金净流入,实时成交额突破2000万元
  • 软银领投、OpenAI官宣400亿美元最新融资,投后估值达3000亿美元

评论

暂无评论哦,快来评价一下吧!