当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。
OpenAI宣布推出AI Agent评测基准PaperBench
来源:界面新闻
OpenAI
- DeepSeek月访问量超ChatGPT!科创板人工智能ETF(588930)连续3个交易日获得资金净流入,实时成交额突破2000万元
- 软银领投、OpenAI官宣400亿美元最新融资,投后估值达3000亿美元
热门排行April 04
- Prada集团首席营销官Lorenzo Bertelli:表达者应让自己被理解,而非受众去费力思索
- 汽车早报|小米辟谣网传雷军致用户和公众的信;鸿蒙智行称网传享界S9广深沿江高速追尾事故不实
- 汽车早报|安徽省公安厅已指导属地公安调查“小米汽车三人死亡事故”;葡萄牙加大电动汽车补贴力度
- 马航MH370搜寻因天气原因暂停,预计年底再重启
- 缅甸地震已致4名中国人遇难
- 韩国将迎关键一天:9万人抢旁听位、尹锡悦缺席弹劾案宣判
- 大众汽车火速提价应对美25%关税,多家车企正考虑跟进
- 特朗普终止“小额免税”,中国跨境电商如何接招?
- 欧盟如何报复“对等关税”?法国主张打击美国科技巨头
- 直通部委 | 一季度发生电动自行车火灾1863起 清明假期人员流动量预计达7.6亿人次
评论