• Latest
  • Trending
超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

2024-06-21
Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投

2025-07-18
头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

2025-07-17
刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

2025-07-16

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10

微软上线Deep Research:OpenAI同款智能体,o3+必应双王炸

2025-07-08
从「降本增效」到「智能中枢」:低代码在 AI 浪潮中的价值重估——专访金现代赵鹏程谈企业数字化转型新引擎

从「降本增效」到「智能中枢」:低代码在 AI 浪潮中的价值重估——专访金现代赵鹏程谈企业数字化转型新引擎

2025-07-03

突发!微软刚开源GitHub Copilot Chat,超强AI Agent自动化编程

2025-07-01
Retail
星期一, 7月 28, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

数字金融网 by 数字金融网
2024-06-21
in 其它分类
A A
0
超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

6月20日晚,著名大模型平台Anthropic在官网正式发布了Claude 3.5 Sonnet。

据悉,这是Sonnet是Claude 3.5系列中第一个,也是Anthropic目前最强的视觉模型。随后会发布Haiku和Opus版本。

其性能超过了上一代Claude 3旗舰模型Opus,同时也大幅度超过了OpenAI的GPT-4o,谷歌的Gemini1.5 Pro等知名模型。

尤其是代码生成能力以及新引入的可视化“Artifacts”功能,是目前代码生成领域最强的大模型之一。

推荐可能喜欢的

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23

虽然Claude 3.5的性能很强但成本却与上一代的Claude 3 Sonnet差不多,每100万Tokens输入为3美元,每100万tokens输出为15美元,支持20万tokens上下文窗口。

所以,不少网友对Claude 3.5的优化能力相当吃惊,要知道Anthropic的旗舰模型Claude 3 Opus才刚刚发布了3个月,相比之下Claude 3.5的成本却降低了80%,运行效率提升了2倍。

更恐怖的是Sonnet只是Claude 3.5系列中的低端型号,要是Opus正式发布那性能还能来一次大飞跃。

这不,压力又来到OpenAI这边,GPT-4o的语音功能还没发布呢,视觉理解和文本能力又被Claude 3.5超越了,得抓紧时间追赶啦。

尤其是既发即用,没有什么候补名单,接下来几周内可用,就这一点Anthropic获得了大批用户的喜爱。

所以,按照Anthropic这个产品发布节奏,到年底发布到4.0版本也是有可能的,将进一步给OpenAI施加压力。

超强代码生成和可视化能力

视觉理解是Claude 3.5一大特色功能,并新引入了一种可视化“Artifacts”的交互方式,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些组件会出现在对话旁边的专用窗口中。

这创建了一个动态工作空间,可以在其中实时查看、编辑和构建 Claude 的创作,同时可将AI生成的内容无缝集成到开发项目或工作流程中。简单来说,相当于是一个可视化IDE开发器非常方面

对于这项功能,有人认为,Claude 3.5的代码开发效率将是GPT-4o的10倍。

还有人用Claude 3.5+Maestro直接克隆了一个马里奥小游戏,最惊艳的是连动画图像都帮你直接生成好了,整个流程只花费了3分钟,这离AGI真的很近了。

用Claude 3.5去模仿网站也是没问题的,例如,你看好谁家网站设计的新颖、交互功能、UI不错,直接拷贝就完事了,甚至连开发细节都展示出来了。

相比之下,虽然GPT-4o也能生成代码,但是细节方面比Claude 3.5差很多。

让你开发一款功能齐全的Mancala应用需要多长时间?一天、三天?Claude 3.5只用了25秒!

你只需要向Claude 3.5提供一张游戏说明的图片,它就能完成从功能设计到代码开发的所有流程,是不是很疯狂~

开发一款原创小游戏,把你的功能需求,游戏规则告诉Claude 3.5即可,几分钟就能进行demo测试。

Claude 3.5 Sonnet架构和测试数据

目前,Anthropic还没有公开Claude 3.5的论文,只放出了模型报告,「AIGC开放社区」就为大家解读一下重要内容。

架构方面,Claude 3.5 Sonnet在Claude 3 Opus的基础上进行了大幅度优化,推理效率提升2倍,成本却只有其5分之一。

多模态能力得到增强,特别是在视觉处理方面取得了显著提升,能够更好地理解和分析图像、图表、文档等多种形式的视觉信息。使得模型在处理复杂的多模态任务时更高效,例如,视觉数学推理、图表问答、文档理解等。

代码能力是Claude 3.5 Sonnet本次的一大亮点,不仅能够生成高质量的代码,还能够理解和修改现有的代码库。在内部代理编码评估中的表现大幅提升,解决问题的能力从Claude 3 Opus的38%提高到了64%。

这意味着Claude 3.5 Sonnet能够更好地理解复杂的代码结构,实现更复杂的编程任务,例如,理解开源代码库并实现拉取请求等。

测试数据方面, Claude 3.5 Sonnet在GPQA、MMLU的零样本链式思考、五样本链式思考,均高于Claude 3 Opus、GPT-4o、GPT-4等知名模型。

在MathVista、Human、MGSM、DROP等测试中,Claude 3.5 Sonnet均以高测试评分领先其他模型。

在“大海捞针”测试中,要求模型在海量的上下文中进行精准信息检索,主要考研模型在庞大的数据中准确找到并回忆出特定的信息。

结果显示,Claude 3.5 Sonnet无论是在所有上下文长度的总体表现,还是在特定200k上下文长度的挑战中,都达到了99.7%的召回率,这是一个几乎完美的测试成绩,大幅度超过了之前的Claude 3Opus。

目前,Claude 3.5 Sonnet已全面开放,可以在Anthropic官网或者移动应用程序中免费使用。

本文素材来源Anthropic官网,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工
  • 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
  • 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
  • 特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投
  • 头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课
  • 刚刚,OpenAI发布CoT监控,增强AI Agent自主能力
  • 碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强
  • 英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号