• Latest
  • Trending

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10

微软上线Deep Research:OpenAI同款智能体,o3+必应双王炸

2025-07-08
从「降本增效」到「智能中枢」:低代码在 AI 浪潮中的价值重估——专访金现代赵鹏程谈企业数字化转型新引擎

从「降本增效」到「智能中枢」:低代码在 AI 浪潮中的价值重估——专访金现代赵鹏程谈企业数字化转型新引擎

2025-07-03

突发!微软刚开源GitHub Copilot Chat,超强AI Agent自动化编程

2025-07-01

媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令

2025-06-30
AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-23

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28
Retail
星期一, 7月 14, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

数字金融网 by 数字金融网
2025-07-14
in 其它分类
A A
0

国内知名大模型平台月之暗面(MoonshotAI)开源了最新模型Kimi-K2。

Kimi-K2是一个混合专家模型,总参数1万亿,320亿参数处于激活状态,训练数据高达15.5Ttoken,有基础和微调两种模型。

除了常规的问答功能之外,Kimi-K2特意针对AIAgent进行了大幅度优化,非常擅长使用各种工具,能帮助开发者打造特定不同领域的智能体。

推荐可能喜欢的

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10

开源地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根据月之暗面公布的测试数据显示,Kimi-K2在SWE-bench的单次测试中达到了65.8分,碾压了DeepSeek最新开源的V3-0324模型38.8分,以及OpenAI闭源模型GPT-4.1的54.6分。

在多语言测试中,Kimi-K2同样以47.3的高分超过了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代码测试中,Kimi-K2以53.7分超过了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有开闭源模型。

在工具使用方面,Kimi-K2同样表现非常出色,以66.1的分数再次超过了V3-0324、GPT-4.1;数学能力方面,Kimi-K2取得了49.5分,超过了V3-0324的46.7和GPT-4.1的37。

使用Kimi-K2打造的智能体来自动分析一份超复杂的薪资。例如,利用2020–2025年的薪资数据,检验远程工作比例对薪资的影响,并确定这种影响在不同经验水平初级、中级、高级、专家之间是否存在显著差异。

也就是说,是否存在交互效应。用统计证据和丰富的可视化图表支撑你的分析。所有图表需使用统一、协调的调色板,例如,柔和色调、低饱和度色调。

或者用智能体规划一下酷玩乐队2025年演唱会的行程。

当然,Kimi-K2超强的代码能力,画一个球在六边形中弹跳还是相当轻松的。

在模型训练流程上,Kimi-K2进行了独特的技术创新。预训练是智能体智能的关键基础,由于人类数据有限,预训练期间的token效率成为AI缩放定律中的关键因素。

Kimi-K2采用了MuonClip优化器,这是在Muon优化器基础上改进而来的,通过qk-clip技术解决了训练中注意力logits爆炸的问题,确保了大规模LLM训练的稳定性,在15.5Ttoken上完成了预训练,且过程中没有出现训练峰值。

此外,增强智能体能力主要来自两个方面,一方面是大规模智能体数据合成,这一方式用于工具使用学习,借鉴ACEBench开发了全面的管道,能够模拟真实世界的工具使用场景,从而生成高质量的训练数据;

另一方面是通用强化学习,这解决了在具有可验证和不可验证奖励的任务上应用RL的挑战,模型通过自我判断机制为不可验证任务提供反馈,并利用可验证奖励不断更新评判标准。

为了教授模型复杂的工具使用能力,Kimi K2开发了一个全面的管道,灵感来源于ACEBench,能够大规模模拟真实世界的工具使用场景。该方法系统地演化了包含数千种工具的数百个领域,包括真实的MCP工具和合成工具,并生成了具有多样化工具集的数百个智能体。

所有任务都基于评分标准进行评估,智能体与模拟环境和用户智能体进行交互,创建出真实的多轮工具使用场景。一个LLM评委根据任务评分标准评估模拟结果,筛选出高质量的训练数据。这种可扩展的管道生成了多样化、高质量的数据,为大规模拒绝采样和强化学习铺平了道路。

通用强化学习,将强化学习应用于具有可验证和不可验证奖励的任务是一个关键挑战。典型的可验证任务包括数学和竞赛编程,而撰写研究报告通常被视为不可验证任务。Kimi K2的通用强化学习系统采用自评判机制,模型充当自己的批评者,为不可验证任务提供可扩展的、基于评分标准的反馈。

同时,使用具有可验证奖励的在线策略回放来持续更新批评者,使其能够不断提高对最新策略的评估准确性。这可以看作是利用可验证奖励来改进不可验证奖励估计的一种方式。

本文素材来源kimi,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强
  • 英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋
  • AI硬件新纪元!Jony Ive正式加入OpenAI
  • 微软上线Deep Research:OpenAI同款智能体,o3+必应双王炸
  • 从「降本增效」到「智能中枢」:低代码在 AI 浪潮中的价值重估——专访金现代赵鹏程谈企业数字化转型新引擎
  • 突发!微软刚开源GitHub Copilot Chat,超强AI Agent自动化编程
  • 媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令
  • AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号