• Latest
  • Trending
刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

2025-04-03

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07

OpenAI大变革!继续与微软等,以非营利模式冲击AGI

2025-05-06
官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

2025-04-21
刚刚,o4-mini发布!OpenAI史上最强、最智能模型

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

2025-04-17
67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

2025-04-15
对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

2025-04-14

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

2025-04-10
Retail
星期四, 5月 22, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

数字金融网 by 数字金融网
2025-04-03
in 其它分类
A A
0
刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。

这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。

根据OpenAI公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习专业博士。但在辅助学习、了解科研内容方面很有帮助。

推荐可能喜欢的

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

开源地址:https://github.com/openai/preparedness/

PaperBench组成介绍

PaperBench的核心是其任务模块,主要定义了智能体需要完成的具体任务,需要从头开始复现20篇ICML 2024会议上的Spotlight和Oral两大类顶级论文,包括理解论文的贡献,开发代码库以及成功执行实验,以评测智能体从理论到实践的全方位自动化能力。

为了确保评估的准确性和细致性,PaperBench开发了一套详细的评分标准,以层次化的树形结构呈现。使得评分过程能够深入到每一个细节,从论文的核心贡献到具体的实验结果,再到代码实现和执行要求,每一个环节都有相应的评分节点。

这些评分节点被精心设计为可单独评分的任务,总数达到了8316个,从而实现了对智能体能力的全面评估。

评分模块的核心是基于大模型的自动评分系统,它能根据评分标准自动评估智能体的复制尝试。自动评分系统的引入大幅提高评分效率和可扩展性,使PaperBench能快速评估大量提交。

为验证自动评分系统的准确性,PaperBench创建了单独的评分系统基准测试JudgeEval,通过比较自动评分系统的输出与人类专家的评分结果来评估其性能。这一过程不仅确保自动评分系统的可靠性,也为未来的评分系统改进提供重要参考。

规则模块确保评估过程的公平性。它规定智能体在执行任务时可以使用的资源,例如允许智能体浏览互联网,但禁止使用论文作者的原始代码库或其他在线复制资源。这些规则确保智能体的能力基于其自身的理解和实现,而非依赖现有代码或资源。

PaperBench还包含一个轻量级评估变体模块PaperBench Code-Dev,旨在降低评估门槛,使其更适合更广泛的社区使用。

Code-Dev放宽了一些评测要求,例如,跳过了执行代码以验证结果是否复制的步骤,仅对代码开发进行评估。这一变体虽牺牲了一些评估完整性,但大幅降低了评估成本和复杂性,使更多研究者能参与智能体的评估。

智能体测试环境

每个被测试的智能体在运行Ubuntu 24.04的Docker容器中执行任务,保证了环境的一致性和可重复性,接近真实研究场景的运行环境。

容器可访问单个A10 GPU,这对于加速机器学习实验至关重要。同时,容器具备联网能力,智能体可下载软件包、访问在线资源。

为满足实验中的多种服务需求,研究人员为智能体提供了HuggingFace和OpenAI API的密钥,其中OpenAI API预加载了1000美元额度。这确保了智能体在需要使用OpenAI的微调API或从HuggingFace下载数据集时,能够顺利操作。

智能体的本地工作目录包含论文的PDF和Markdown格式文件、论文附录以及指令文本文件,为智能体提供了丰富的信息来源和明确的指导。

在智能体设置方面,研究团队基于Inspect AI的基本智能体开发了SimpleAgent。SimpleAgent运行工具使用循环,配备bash shell命令执行工具、Python代码执行工具、web浏览器工具和分页文件阅读器工具,能够高效完成任务。但是,大多数使用SimpleAgent的智能体存在提前结束任务的问题。

为解决这一问题,OpenAI开发了IterativeAgent通过修改系统提示,要求智能体每次只进行下一步操作,并移除了提交工具,确保在整个可用时间内持续工作。这些改进使IterativeAgent在实验中表现出与SimpleAgent不同的行为模式,为研究不同智能体设置对模型复制能力的影响提供了新的视角。

评测数据

OpenAI通过该基准对GPT – 4o、o1、o3 – mini、DeepSeek – R1、Claude 3.5 Sonnet和Gemini 2.0 Flash主流开闭源模型打造的智能体进行了综合测试。

每个模型对每篇论文运行3次,每次运行的最长时间为12小时。结果显示,Claude 3.5 Sonnet效果最好,平均复现分数达到21.0%;o1的得分较低,为13.2%;R1只有6%;其他测试模型的表现更差。

最让人意外的是,OpenAI刚发布没多久的o3-Mini-High直接垫底,看来这个评测还是相当客观的。

通过对智能体日志的手动检查发现,除Claude 3.5 Sonnet外,其他模型经常提前结束任务,并且所有模型都未能有效规划如何在有限时间内完成论文复现任务,o3 – mini在工具使用方面也存在困难。

这表明智能体在执行长期任务方面存在不足,尽管它们在制定和编写多步计划方面有一定能力,但在实际执行长计划时却表现不佳。

为了进一步确定智能体和PaperBench的评测准确性,OpenAI还找来了8名顶级名校的机器学习专业博士,需要在与智能体相似的条件下,对PaperBench中的4篇论文进行复现尝试,每人对每篇论文进行3次独立尝试。

结果显示,在复现尝试的早期阶段,o1的表现优于人类基线,但在24小时后,人类开始超越o1。

这表明模型在开始时能够快速编写大量代码,但在后续有效规划和改进提交内容方面存在不足,而人类在前期消化论文的时间较多,但后续能够持续提升复现效果。也就是说,目前智能体的能力还无法超越人类。

本文素材来源OpenAI,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解
  • AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能
  • 解密NVIDIA团队的代理式AI技术实践
  • 突发!特朗普准备取消AI芯片出口限制
  • 微软将大量AI功能、智能体集成在Windows11,全民AI时代来了
  • OpenAI大变革!继续与微软等,以非营利模式冲击AGI
  • 官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号