• Latest
  • Trending
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代

2025-08-29
专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

2025-08-28
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

2025-08-25
AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

2025-08-22

OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”

2025-08-21
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

突发!DeepSeek刚刚开源V3.1-Base

2025-08-20

Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek

2025-08-19
超58000星!精选AI Agent、MCP开源大合集,Github每日第一

超58000星!精选AI Agent、MCP开源大合集,Github每日第一

2025-08-19
微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

2025-08-14
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

2025-08-14
免费使用GPT-5!一手实测案例,代码能力强的离谱

免费使用GPT-5!一手实测案例,代码能力强的离谱

2025-08-12

美国程序员失业率创纪录:17万本科生难就业,AI抢饭碗!

2025-08-11
Retail
星期日, 8月 31, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代

数字金融网 by 数字金融网
2025-08-29
in 其它分类
A A
0
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

今天凌晨1点,OpenAI进行了技术直播发布了语音模型GPT-realtime。

GPT-realtime是一个专用于语音AIAgent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,非常适用于客服、教育、金融、医疗等领域打造语音智能体。

 

http://static-fintech.rpa-cn.com/2025/08/20250829054154752.mp3

GPT-realtime还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。

与传统纯语音模型不同的是,GPT-realtime还具备智力、推理和理解能力,例如,能够敏锐捕捉笑声等非语言信号,在句子中间自如地切换语言,并根据场景需求灵活调整语气。

根据评估数据显示,在多种语言环境下,GPT-realtime对字母数字序列的检测准确率大幅提升,在用于衡量推理能力的BigBenchAudio评估中,准确率高达82.8%成为目前最强智能语音模型。

http://static-fintech.rpa-cn.com/2025/08/20250829054101942.mp4

 

完整直播视

指令遵循能力的改进也是GPT-realtime的一大亮点。在构建语音应用时,开发者可对模型进行一系列指令自定义,包括如何说话、特定场景下该说什么、该做什么以及不该做什么等。

http://static-fintech.rpa-cn.com/2025/08/20250829054050367.mp4

GPT-realtime针对这一点进行了深度优化,即便是极为细微的指令,也能对其产生显著的引导效果。在衡量指令遵循准确率的MultiChallenge音频基准测试中,GPT-realtime的得分从旧模型的20.6%提升到30.5%,进步十分显著。

推荐可能喜欢的

专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

2025-08-28
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26

在函数调用能力方面,GPT – realtime从调用相关函数、把握调用时机以及选用合适的参数调用函数这三个关键维度进行了全方位优化。在ComplexFuncBench测试中,得分从旧模型的49.7%飙升至66.5%。

异步函数调用功能也得到了极大改进,长时间运行的函数调用不再会成为会话流程的绊脚石,模型在耐心等待结果的同时,依然能够丝滑进行对话,并且这一强大功能无需开发者更新代码,开箱即用。

支持图像输入是GPT–realtime特色功能之一,开发者可在Realtime API会话中,可以自由地将图像、照片、截图与音频或文本一并添加。模型由此具备了基于用户实际所见内容展开对话的能力,用户能够提出诸如“你看到了什么?”或“读取这张截图中的文字”等多样化问题。

值得一提的是,该系统并非将图像视为实时视频流,而是巧妙地将其类比为在对话中插入的一张图片,开发者可通过应用自主决定向模型分享哪些图像以及分享的时机,从而牢牢掌握模型看到的内容与响应时机,实现更加个性化、精准化的交互体验。

与GPT – realtime模型同步上线的,还有Realtime API的一系列全新功能。从今天开始,在Realtime API会话中,开发者只需在会话配置中轻松传入远程MCP服务器的URL,即可快速启用MCP支持。

连接建立后,API会自动承担起工具调用的重任,无需开发者再手动搭建繁琐的集成环境。这种配置方式为扩展智能体功能提供了极大的便利,开发者只需将会话指向不同的MCP服务器,相应的工具便能即刻投入使用,大大提高了开发效率。

此外,Realtime API还新增了多项功能,旨在进一步提升其集成便捷性与生产使用灵活性。其中,会话初始协议支持使得Realtime API能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他SIP终端建立连接,极大地拓展了应用的连接范围。

而可复用提示功能则允许开发者像在Responses API中一样,保存并在多个Realtime API会话中重复使用提示,这些提示涵盖了开发者消息、工具、变量以及用户/助理示例消息等丰富信息,为开发工作带来了极大的便利,有效减少了重复性劳动,提高了开发效率。

在安全与隐私保障方面,Realtime API内置了多层严密的防护与缓解措施,全力防止滥用情况的发生。通过采用主动分类器,在会话过程中实时监测对话内容,一旦检测到对话违反有害内容准则,会立即终止相关会话,从源头上保障了使用环境的安全与健康。

开发者还可借助Agents SDK轻松添加自定义安全防护措施,实现更加个性化、精细化的安全管理。在使用政策上,明确禁止将服务输出用于垃圾邮件、欺诈或其他有害用途,并要求开发者在上下文未明确表明的情况下,必须向终端用户清晰告知其正在与人工智能进行交互。此外,Realtime API采用预设语音,有效防止了恶意人员冒充他人的风险。

http://static-fintech.rpa-cn.com/2025/08/20250829054147681.mp4

在定价与可用性方面,自发布之日起,所有开发者均可自由使用正式开放的Realtime API与全新的GPT-realtime模型。与之前的gpt-4o-realtime-preview相比,GPT-realtime的价格降低了20%,具体为音频输入token单价32美元/百万个(缓存输入token单价0.40美元/百万个),音频输出token单价64美元/百万个。

此外,OpenAI还为对话上下文新增了精细控制功能,开发者可灵活设置智能token限制,一次性截断多轮对话内容,从而大幅降低长会话的成本。

API详情:https://platform.openai.com/docs/guides/realtime

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
  • 专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉
  • 当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?
  • 马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练
  • AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事
  • OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”
  • 突发!DeepSeek刚刚开源V3.1-Base
  • Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号