• Latest
  • Trending
刚刚,o4-mini发布!OpenAI史上最强、最智能模型

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

2025-04-17

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07

OpenAI大变革!继续与微软等,以非营利模式冲击AGI

2025-05-06
官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

2025-04-21
67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

2025-04-15
对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

2025-04-14

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

2025-04-10
AI岗位超8成,阿里国际启动大规模校招

AI岗位超8成,阿里国际启动大规模校招

2025-04-07
Retail
星期四, 5月 22, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

数字金融网 by 数字金融网
2025-04-17
in 其它分类
A A
0
刚刚,o4-mini发布!OpenAI史上最强、最智能模型

今天凌晨1点,OpenAI进行了技术直播,发布了最强、最智能模型o4-mini和满血版o3。

o4-mini和o3是两款多模态模型,能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式(思维链中可以思考图像)。

根据OpenAI公布的测试数据显示,o4-mini在AIME2024和2025中,分别达到了93.4%和92.7%,比满血版o3还强,成为目前准确率最高的模型;在Codeforces测试中达到了2700分,成为全球前200名最强程序员。

推荐可能喜欢的

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

o3和o4-mini简单介绍

传统大模型往往局限于对输入数据的直接处理和生成输出结果,而OpenAI首次赋予o3和o4-mini调用外部工具的能力。

在训练过程中,模型不仅学习如何生成文本,还学习如何在面对复杂任务时选择合适的工具来辅助推理。例如,在解决复杂的数学问题时,模型可以调用计算器工具来完成复杂的计算过程;在处理图像数据时,可以调用图像处理工具来完成裁剪、旋转等操作。

这种工具使用能力的实现,使得模型能够处理更加复杂的任务场景,而不仅仅局限于简单的文本生成。

多模态推理能力则是o3和o4-mini模型的另外一大亮点,可以同时处理文本、图像、音频等,并将这些不同模态的数据进行有机整合。架构上,OpenAI使用了创新的神经网络架构,使模型能够将图像和文本数据分别编码为统一的特征表示。

例如,对于图像数据,模型通过卷积神经网络提取图像的特征;对于文本数据,模型使用Transformer编码器提取文本的语义信息。

然后,模型通过一个融合模块将这些不同模态的特征进行整合,生成统一的特征表示,从而在推理过程中实现多模态数据的联合处理。

o3和o4-mini多模态处理模块的另一个重要特点是其对不同模态数据的动态处理能力。模型可以根据任务的需求,动态地调整对不同模态数据的处理权重。

例如,在处理一个以图像为主的任务时,模型会更多地关注图像数据的特征;而在处理一个以文本为主的任务时,模型会更多地关注文本数据的语义信息。

在训练过程中,OpenAI采用了大规模的无监督学习和少量的监督学习相结合的方式。无监督学习部分,模型通过大量的文本和图像数据进行预训练,学习到语言和图像的基本特征和模式;监督学习部分,则通过标注数据和工具使用数据,对模型进行微调,使其能够更好地理解和使用工具。

o3和o4-mini测试数据

在基准测试方面,o3和o4-mini模型的表现非常强。在AIME 2024测试中,在不使用外部工具的情况下,o3准确率为91.6%,o4-mini为93.4%;AIME 2025测试中,o3准确率为88.9%,o4-mini为92.7%。

而在编程竞赛(Codeforces)测试中,o4-mini达到了惊人的2719分,能够位列全球前200名参赛者之列;o3则为2706分。

在博士级问题解答GPQA测试中,在不使用工具的情况下,o3模型的准确率达到了83%,o4-mini为81.4%;人类最终测试中,o3为20.32分,o4-mini为24.9分都略低于OpenAI发布的Agent模型Deep research。

在多模态任务方面,o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现非常出色。

除了常规测试之外,OpenAI还根据科研人员的使用,分享了一些实际使用测试结果。

在科学研究领域,模型能够帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路。例如,在一个物理学研究项目中,模型通过分析实验数据和查阅相关文献,成功地帮助研究人员完成了一个复杂的物理量估计任务。

这一过程仅用了几分钟,而人类研究人员可能需要数天甚至数周的时间来完成。不仅展示了模型在处理复杂科学问题时的高效性,更证明了其在实际科学研究中的巨大潜力。

在软件开发领域,模型能够帮助开发者快速定位和修复代码中的错误。通过调用代码分析工具和调试工具,模型能够快速地识别出代码中的问题,并提出有效的解决方案。

在实际测试中,模型在处理一个复杂的Python包问题时,通过调用容器工具和代码分析工具,成功地定位并修复了一个复杂的错误,这一过程也仅用了几分钟。

从今天开始,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限,所有计划的速率限制与之前的模型保持不变。

满血o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能,能够在函数调用时保留推理标记以提升性能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。

本文素材来源OpenAI,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解
  • AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能
  • 解密NVIDIA团队的代理式AI技术实践
  • 突发!特朗普准备取消AI芯片出口限制
  • 微软将大量AI功能、智能体集成在Windows11,全民AI时代来了
  • OpenAI大变革!继续与微软等,以非营利模式冲击AGI
  • 官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号