• Latest
  • Trending
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

2025-08-08
数字化深水区里,中国企业到底需要怎样的AI应用底座?

快手提出强化学习创新框架RLEP,突破大模型推理瓶颈

2025-08-07
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

2025-07-29
Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投

2025-07-18
头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

2025-07-17
刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

2025-07-16

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
Retail
星期六, 8月 9, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

数字金融网 by 数字金融网
2025-08-08
in 其它分类
A A
0
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

今天凌晨1点,OpenAI进行了技术直播,发布了全球科技圈期待已久的GPT-5。

GPT-5首次使用了内嵌式三位一体集成架构,彻底颠覆了前代模型的独立运行模式,一共由3个核心模型组成,分别是处理常规问题的GPT-5-main模型、解决复杂任务的GPT-5-thinking深度思考模型、实时决策的路由机制,还有一个是额度使用完后启动的mini版本。

实时决策的路由机制是主要创新,该机制会根据对话类型、复杂程度、工具需求以及你的明确意图,快速决定使用哪个模型,相当于马路中的“交通指挥员”,会用最适合的模型来解决适合你所提出的问题。

路由机制会持续接受真实信号的训练,包括用户切换模型的情况、对回应的偏好率以及测得的正确性等,其性能会随着时间不断提升。

推荐可能喜欢的

数字化深水区里,中国企业到底需要怎样的AI应用底座?

快手提出强化学习创新框架RLEP,突破大模型推理瓶颈

2025-08-07
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01

值得一提的是,免费版ChatGPT也可以使用GPT-5,不过会有额度限制,达到限制后可使用GPT-5-mini版本。

根据OpenAI公开的测试数据显示,GPT-5在数学、编码、视觉感知和健康的表现全部大幅度超越前代,成为目前最强大模型。

在健康领域,通过HealthBench评估体系对GPT-5模型家族进行了全面测试,涵盖HealthBench、HealthBench Hard和HealthBench Consensus等多个维度,并与前代OpenAI模型进行对比。

结果显示,GPT-5-thinking在该领域的表现大幅超越包括GPT-4o、o1、o3和o4-mini在内的所有前代模型。其中,在HealthBench Hard这一挑战性评估中,其得分从o3的31.6%提升至46.2%成为目前最佳。

数学方面在2025年美国AIME测试中无工具得分94.6%,使用Python是99.6%,如果是Pro专业版+Python可达到100%,同样大幅度超过了o3模型。

在SWE-bench软件测试中,GPT-5启动思考模式下达到了74.9%,超过了o3的69.1以及4o的30.8,成为目前最强编码模型。

这里有一个小插曲,OpenAI在直播介绍GPT-5的SWE-bench测试数据时,o3的图表高度是错误的,居然和4o的一样。

安全与幻觉方面,在特定潜在错误领域,GPT-5-thinking的挑战性对话幻觉率较OpenAI o3降超8倍,高风险场景错误率较GPT-4o降超50倍,在全球健康背景适应方面零失误。

在应用场景方面,编码是GPT-5最突出的核心能力,只需要几句话就能自动快速完成应用的开发,例如,输入提示词:创建的单页应用是一个名为“Jumping Ball Runner”的游戏,以单个HTML文件呈现。游戏目标是让玩家操控球跳跃越过障碍物,尽可能长时间地生存下去。

这款游戏具备多项特色功能,包括随着游戏进行不断加快的速度、最高分记录功能、重试按钮,以及为各类动作和事件配备的趣味音效。在视觉设计上,用户界面色彩丰富,搭配视差滚动背景,营造出层次感和动态效果;游戏角色采用卡通风格设计,造型有趣,观赏性强,旨在让所有年龄段的玩家都能从中获得乐趣。

也可以制作交互式内容来解释像伯努利效应这样的复杂概念,在几分钟内就能生成数百行代码。

GPT-5只用了5分钟就快速开发了一个财务分析模版,而使用传统方法要花费好几个小时。

只需要几句提示词,就能制作一个可交互式的类塔防游戏,还可以选择与不同的角色对话,增加可玩性和动作。

也可以用GPT-5几分钟自动开发一个学习法语的网络应用,功能需求包括一个类似贪吃蛇的游戏,游戏中有老鼠、奶酪和法语单词。

GPT-5在开发应用程序、绘制图表、解读代码、开发AI Agent方面非常出色,不会任何代码的路人也能快速开发出自己想要的应用。

训练数据方面,与OpenAI之前的模型一样,GPT-5的训练数据来源广泛,包括互联网上公开的信息、与第三方合作获取的信息,以及用户或训练师生成的信息。为了确保数据的质量和降低潜在风险,采用了严格的数据处理流程。

包括先进的数据过滤技术,用于减少训练数据中的个人信息,同时通过Moderation API和安全分类器,防止有害或敏感内容的使用。

在训练方法上,GPT-5的推理模型,包括GPT-5-thinking、GPT-5-thinking-mini和GPT-5-thinking-nano采用了强化学习技术。这些模型在训练过程中被教导在回答问题之前先进行思考,先生成一个内部的思考链,然后再向用户做出回应。通过这种方式,模型能够学习到如何优化思考过程,尝试不同的策略,并识别自己的错误。

从今天开始,GPT-5开始向所有Plus、Pro、团队及免费用户推出,企业和教育用户将在一周后获得访问权限。Pro、Plus和团队用户还可通过ChatGPT登录,在Codex命令行界面(Codex CLI)中使用GPT-5进行编码。

与GPT-4o相同,免费用户与付费用户在GPT-5访问权限上的差异体现在使用量上。Pro订阅用户可无限使用GPT-5,并能访问GPT-5 Pro。

Plus用户可将其作为日常问题的默认模型放心使用,使用额度显著高于免费用户。团队、企业和教育客户也能将GPT-5作为日常工作的默认模型轻松使用,其宽松的使用限制让整个组织都能便捷地依赖GPT-5。

关于ChatGPT免费用户,完整的推理功能可能需要几天时间才能全面推出。一旦免费用户达到GPT-5的使用限额,系统将自动切换至GPT-5-mini版本,这是一个更小、更快且仍具备强大功能的模型。

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
  • 快手提出强化学习创新框架RLEP,突破大模型推理瓶颈
  • 海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?
  • 数字化深水区里,中国企业到底需要怎样的AI应用底座?
  • 重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合
  • Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工
  • 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
  • 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号