• Latest
  • Trending
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

2025-09-15
估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

2025-09-03

2025-09-02

高效大规模创新3D重建模型iLRM

2025-09-01
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代

2025-08-29
专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

2025-08-28
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

2025-08-25
AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

2025-08-22

OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”

2025-08-21
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

突发!DeepSeek刚刚开源V3.1-Base

2025-08-20

Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek

2025-08-19
Retail
星期二, 9月 16, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

数字金融网 by 数字金融网
2025-07-22
in 其它分类
A A
0
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

今天凌晨1点,阿里巴巴开源了Qwen3系列新版本Qwen3-235B-A22B-2507。

比较意外的是,阿里已经停用了混合思考模型,新版Qwen3是一个非思维推理,又回到了指令微调模型,但性能非常强劲。

根据阿里公布的数据显示,新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeek开源的新版V3-0324模型。

例如,SimpleQA测试中,DeepSeekV3得27.2分,新版Qwen3为54.3分;CSimpleQA测试中,DeepSeekV3得71.1分,新版Qwen3为84.3分;

推荐可能喜欢的

2025-09-15
估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

2025-09-03

ZebraLogic测试中,DeepSeekV3 83.4分,新版Qwen3为95分;WritingBench测试,DeepSeekV3 74.5分,新版Qwen3为85.2分;TAU-Airline测试中,DeepSeekV3为32.0分,新版Qwen344.0分;PolyMATH测试,DeepSeekV3为32.2分,新版Qwen350.2分。

同样新版Qwen3也超过了月之暗面最新开源的kimi-k2。

开源地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

网友表示,我评估过的所有中型大语言模型,在严格遵循提示词这方面,没有一个能接近Qwen。不知道你们用了什么秘密配方,但接着保持这个水准继续干就好。

哇,这是不是意味着你们新的无思维模式模型,在所有这些基准测试中都击败了KimiK2?

令人印象深刻的优化改进。

太棒了伙计,干的不错。但什么时候能发布一个小模型呢?

已经击败了Kimi-K2了。

我刚刚对比了一下KimiK2的单次编码。提示是:在一个HTML文件中制作一个完整的POS系统,设计要很棒,适合手机使用。我对Qwen3的印象比KimiK2更深刻。

Qwen团队这次更新太赞了!新版Qwen3-235B-A22B-Instruct-2507采用指令模型与思维模型分开训练的模式,这一举措非常明智,有望提升模型性能与多功能性。期待看到这一创新成果不断发展!

说真的,我太爱你们团队了!继续加油干吧!超级期待视觉语言版本的推出!

新版Qwen3总共有2350亿个参数,其中220亿个是激活的。非嵌入参数数量为2340亿,共有94层,采用64个查询头和4个键值头的分组查询注意力机制。它有128个专家,其中8个是激活的。其上下文长度原生支持262144。

新版Qwen3是在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力进行了大量优化。还在多种语言的长尾知识覆盖方面取得了显著进步,并且在主观和开放性任务中与用户偏好的对齐度更高,能够生成更有帮助且质量更高的文本,同时增强了对256K长文本上下文的理解能力。

在性能方面,Qwen3-235B-A22B-Instruct-2507在多个基准测试中表现优异。例如,在知识类的MMLU-Pro测试中得分为83.0,在MMLU-Redux中得分为93.1,在GPQA中得分为77.5。在推理能力方面,它在AIME25测试中得分为70.3,在HMMT25中得分为55.4。

在编程能力方面,它在LiveCodeBenchv6测试中得分为51.8,在MultiPL-E中得分为87.9。在对齐能力方面,它在IFEval测试中得分为88.7,在Arena-Hardv2测试中得分为79.2。此外,它在多语言能力方面也有出色的表现,例如在MultiIF测试中得分为77.5,在MMLU-ProX测试中得分为79.4。

此外,Qwen3在工具调用能力方面表现出色,建议使用Qwen-Agent来充分发挥其智能体能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。可以通过MCP配置文件、Qwen-Agent的集成工具或自行集成其他工具来定义可用工具。

本文素材来源阿里巴巴,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • (无标题)
  • 估值超1800亿美元!大模型平台Anthropic完成130亿美元融资
  • (无标题)
  • 高效大规模创新3D重建模型iLRM
  • OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
  • 专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉
  • 当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?
  • 马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号