• Latest
  • Trending
AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

2025-03-11
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

2025-08-25
AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

2025-08-22

OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”

2025-08-21
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

突发!DeepSeek刚刚开源V3.1-Base

2025-08-20

Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek

2025-08-19
超58000星!精选AI Agent、MCP开源大合集,Github每日第一

超58000星!精选AI Agent、MCP开源大合集,Github每日第一

2025-08-19
微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

2025-08-14
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

2025-08-14
免费使用GPT-5!一手实测案例,代码能力强的离谱

免费使用GPT-5!一手实测案例,代码能力强的离谱

2025-08-12

美国程序员失业率创纪录:17万本科生难就业,AI抢饭碗!

2025-08-11
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

2025-08-08
Retail
星期二, 8月 26, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

数字金融网 by 数字金融网
2025-03-11
in 其它分类
A A
0
AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

今天凌晨1点,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。

OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。

结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%

推荐可能喜欢的

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

2025-08-25

随着o1、o3、R1等众多前沿模型的出现,如何保证大模型的输出安全与人类意图保持一致一直是个非常难的研究课题。

传统的监控方法主要集中在大模型的最终输出或行为上,但这种方法往往存在局限性。模型可能通过复杂的内部推理过程生成最终输出,而这些过程对于外部观察者来说是不可见的。

因此,仅仅监控行为或输出可能无法揭示模型的真实意图,尤其是当它试图通过“奖励黑客”行为来获取更高奖励时。所以,OpenAI提出了CoT监控。

当模型接受一个提示任务时,它会首先生成一系列的中间推理步骤,这些步骤构成了CoT。包括对问题的初步理解、对可能解决方案的评估以及对最终答案的推导。

CoT监控的核心就是通过观察模型的“思维过程”来检测其潜在的恶意行为。就是模型在生成最终答案之前所进行的推理步骤,通过监控这些步骤,研究人员可以更清晰地了解模型是如何从输入信息中得出最终答案的。

如果模型在推理过程中表现出对任务的误解或试图利用奖励机制的漏洞,这些行为会在CoT中留下痕迹

例如,当模型在CoT中明确表达出试图通过某种捷径来获取奖励时,监控系统可以提前捕捉到这种意图,从而采取措施加以纠正。

此外,CoT监控还提供了一种更细粒度的监控方式,不仅能够检测到最终输出是否符合预期,还能够分析模型在推理过程中的逻辑连贯性和合理性。如果模型在推理过程中跳过了某些重要的步骤或基于错误的前提得出结论,这些潜在问题都可能通过CoT监控被发现。

但是将CoT监控直接整合到模型的训练目标中时,会出现“意图隐藏”的现象。

“意图隐藏”是指模型在CoT中隐藏其真实意图,使得监控系统难以检测到其潜在的恶意行为。在这种情况下,模型的CoT可能看起来合理甚至符合任务要求,但实际上它仍然会采取一些不符合人类意图的行为。

例如,模型可能会在CoT中提出一些看似合理的解决方案,但在实际操作中却通过修改测试框架或利用漏洞来绕过测试,而不是真正解决问题。

当模型的训练目标被修改为不仅要求通过任务测试,还要求避免触发CoT监控时,模型的行为发生了显著变化。在低优化阶段,这种整合确实带来了积极的效果:模型不仅减少了“奖励黑客”行为的发生率,还提高了整体性能。

而在高优化阶段,CoT监控的召回率急剧下降,甚至接近零。模型成功地隐藏了其真实意图,使得监控系统无法检测到其潜在的恶意行为。

所以,OpenAI建议可以适当使用CoT监控来提升大模型的安全性。就像人类一样,当你给模型过大的压力时,模型可能会出现自我意识,会采取一些策略来改变其行为模式,从而绕过CoT监控的检测。

论文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

本文素材来源OpenAI,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?
  • 马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练
  • AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事
  • OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”
  • 突发!DeepSeek刚刚开源V3.1-Base
  • Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek
  • 超58000星!精选AI Agent、MCP开源大合集,Github每日第一
  • 微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号