• Latest
  • Trending
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

2025-07-29
Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投

2025-07-18
头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

2025-07-17
刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

2025-07-16

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10

微软上线Deep Research:OpenAI同款智能体,o3+必应双王炸

2025-07-08
Retail
星期五, 8月 1, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

数字金融网 by 数字金融网
2025-08-01
in 其它分类
A A
0
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

7月28日晚,智谱悄无声息的开源了新一代旗舰模型 GLM-4.5,发布仅10小时,便引发全球媒体高度聚焦。

CNBC、路透社、Bloomberg等海外重量级媒体第一时间跟进报道。CNBC在报道中指出:“中国企业正在研发的人工智能模型不仅智能化水平提升,使用成本也持续降低,这与深度求索(DeepSeek)当年震动市场的突破核心优势相呼应。”

目前,GLM-4.5模型已经登顶国际开源社区Hugging-Face榜单全球第一。

智谱此次发布GLM-4.5 系列(355B 以及 106B) 两个参数版本,源码和权重全部开源,采用极为宽松的MIT License协议。

GLM家族并非首次引发关注,之前的GLM-130B、ChatGLM3系列都因为是首个突破和首个开源,曾在开源圈掀起过波澜。这次模型亮点在于:

 

  • 首款原生融合模型:这是其最大亮点之一。GLM-4.5首次在单个模型中实现了将推理、编码和智能体能力原生融合。正如技术博客所阐释,大语言模型的终极目标是在广泛领域达到人类认知水平,但现有模型往往各有所长(编程、数学、推理),却难以成为真正的“全优生”。GLM-4.5 正是朝着统一各种能力这一目标迈进,力证大模型的下一个范式,必然是深度整合多维度能力于一体。
  • 更高的参数效率:GLM-4.5的参数量仅为一些主流模型的一半甚至三分之一,但在多项标准基准测试中表现更为出色。特别是在衡量模型代码能力的权威榜单 SWE-bench Verified 上,GLM-4.5 系列位于性能/参数比的帕累托前沿——这意味着在同等参数规模下,它实现了当前已知的最佳性能。

 

下面咱们就详细看下GLM-4.5模型在性能、代码能力、推理表现这些硬实力上的实测表现~

这次发布的两个版本的GLM-4.5模型:

 

  • GLM-4.5:总参数355B,激活参数32B
  • GLM-4.5-Air:总参数106B,激活参数12B

 

它们都采用了混合专家结构(MoE),这个架构说白了就是“每次推理只激活部分参数”,在保证多样能力的同时大大降低了计算消耗。

模型支持两种核心模式切换:

 

  • Non-thinking 模式:轻量任务用这个,效率高、响应快、节省开销。
  • Thinking 模式:推理、链式思考、代码补全、Agent执行链条,用这个火力全开。

52个Agent 轨迹:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

 

实测体验:模型原生融合ARC(Agentic/Reasoning/Coding)能力,分分钟手搓Agent

说实话,小编原本对这个模型的预期,还停留在“跑跑测试题”这种层面。

但当我真正上手试了之后,我必须承认,它确实不止是“跑得好”。

GLM-4.5其原生架构设计使其成为真正意义上的“Agent基座模型”:

 

  • 推理能力(Reasoning):覆盖数学、符号逻辑、多轮对话逻辑链条等多个评测维度;
  • 代码能力(Coding):广泛适用于数据处理、日志分析、工具开发、前端交互、算法原型等复杂场景;
  • Agentic能力:具备任务自主拆解 + 工具调用 + 多轮完成任务的原生能力,无需外挂流程控制器。

 

这意味着,GLM-4.5并非“能Agent”的模型,而是“为Agent而生”的模型。

这里官方也放出了一些关于Agentic任务的评测技术细节报告

GLM-4.5 是对 Agentic 任务专门优化的基础模型,支持 128k 的上下文长度和原生函数调用能力。在 -bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上对两款模型的 agentic 能力进行评估,GLM-4.5 的性能与 Claude-4-Sonnet 相当。

网页浏览是一种需要复杂推理和多轮工具使用的流行 Agentic 应用。技术团队在 BrowseComp 基准上评估了 GLM-4.5,在访问网页浏览工具的情况下,GLM-4.5 能够正确回答 26.4% 的问题,优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.0%)。

注:BrowseComp 是一个具有挑战性的网页浏览基准,包含需要简短回答的复杂问题。

下图显示了 GLM-4.5 在 BrowseComp 上的测试时扩展精度。

模型原生 Agent 场景跑通,从生成文本到生成产品

小编尝试了以下几种使用方式实测了多个「模型原生可落地Agent场景」,覆盖从文本工具、搜索型应用,到交互式网页与多人游戏,验证GLM-4.5的真实可部署性与连贯性,一口气构建了5个专业的应用,已经沉寂多年的开发能力突然以另一种形式觉醒,我又觉得我行了!

基于three.js构建的3D地球可视化模拟生成器

AI驱动的企业流程自动化工具(在线体验:https://k0nag61vkf50-deploy.space.z.ai/)

http://static-fintech.rpa-cn.com/2025/08/20250801050108323.mp4

多Agent协同的像素风格贪吃蛇游戏(在线体验:https://r0qat65a8yz1-deploy.space.z.ai/)

 

帮我生成一个游戏应用贪吃蛇,风格是像素风格,玩家可以驱动游戏内的小蛇,同时游戏内可随机出现不同其它的玩家,以及实物。并且右上角有当前对局的得分榜单。使用Agent帮我模拟其它的玩家。

 

http://static-fintech.rpa-cn.com/2025/08/20250801040011995.mp4

GLM-4.5模型原生生成PPT

推荐可能喜欢的

数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

2025-07-29

经常做PPT的小伙伴可能知道,做一套好看实用的PPT有多么麻烦,搜索信息、贴内容、正确配图,确保信息准确、审美在线、字体配色,最终代码生成PPT…

 

使用高大上的配色和奢侈品风格,生成一个关于爱马仕品牌介绍的PPT

 

http://static-fintech.rpa-cn.com/2025/08/20250801050146303.mp4

实测GLM-4.5生成PPT,总耗时4分26秒,嗯,很快,而且比我做的好看多了…

这些能力已不止于“文本生成”,而是完成了从自然语言 → 工具控制 → 应用部署的全流程闭环。突然想起昨天刚刚开源的Coze,此刻会不会也开始沉思,Agent工作流是否只是大模型过渡期的产物,可能尽头依然ALL IN CHAT!!

下方是官方的一些demo参考,小伙伴可以直接打开体验:

一个真的能搜的搜索引擎

 

提示词:做一个Google搜索网站。

http://static-fintech.rpa-cn.com/2025/07/20250801052852462.mp4

Z.ai版本“谷歌搜索”体验地址:https://n0x9f6733jm1-deploy.space.z.ai

一个真的能点赞的文字版抖音

 

提示词:做一个文字版抖音 , 允许上下切换, 需要支持发帖、 点赞、 评论的功能。

http://static-fintech.rpa-cn.com/2025/07/20250801052841449.mp4

 

Z.ai版本“文字抖音”体验地址:https://t0mau6dg2nv0-deploy.space.z.ai

GLM-4.5不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页,用户可以点击地点查看详情,并伴有平滑的缩放动画。

http://static-fintech.rpa-cn.com/2025/08/20250801053322453.mp4

提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I’ve visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.

 

推理之上,是智能体:GLM-4.5的Agent原生性值得重视

现在市面上的大部分LLM,其实还是以“增强问答系统”为核心思路,即便加了插件、记忆系统、函数调用,也还是“在模型外面堆功能”。

这包括但不限于:

  • 模型对话中长期记忆、目标一致性保持
  • 模型对于任务目标、动机、过程的自我规划能力
  • 模型原生支持多轮链式思考与动作执行能力

 

但GLM-4.5开始做的,是在模型训练过程中就让模型具备智能体行为的能力。GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿令牌的通用数据上进行了预训练。然后在代码、推理、智能体等领域的数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。

GLM-4.5可以理解是具备实战能力的“多步任务执行者”,在未来 AI 工作助手、多任务智能客服、财务分析等场景中具备天然优势。

这也是为什么它能在TAU-Bench、BrowseComp这种原本只适合专用Agent系统的任务中跑出好成绩——它是“原生具备智能体能力”的。

原生Agent觉醒时刻,一键上线不用复杂工作流

当看到GLM-4.5自动拆解这个需求时,不需要Manus,不需要Flowith,更不需要抢各种邀请码!小编知道智能体赛道要变天了:

为了测试模拟真实开发工作流,小编特意选了一个针对以往多Agent智能体协同开发才能实现的多任务的复杂开发需求,让它开发一个自动分析上市公司财报并支持财报分析、下载报告、甚至增加用户自然语言对话返回财报分析结果的复杂多功能的网站。

以下是一次完整的one-shot prompt:

 

  • 帮我开发一个自动分析上市公司财报的网站,以下是具体的流程:1、用户输入一个上市公司名称或者股票代码(支持中国的A股或者美股公司),2、可以选择什么时间段的财报,或者默认是最新的财报。3、根据用户的输入自动抓取这个公司的财报。4、调用大模型能力分析财报,5、生成财报分析报告,财务报告可在线浏览,也支持自动成图文并茂的ppt报告,可供用户下载。提供下载地址 6、用户可进行对话,大模型根据用户输入自动寻找财报内的内容,并输出对应的图表。

 

然后GLM-4.5开始了它的思考和动作,创建了一个基本的Next.js项目结构,并使用TodoWrite来规划整个项目的开发步骤:

 

  1. 创建项目基础结构和路由
  2. 设计并实现主页面UI(搜索框、时间选择等)
  3. 实现财报数据抓取API(支持A股和美股)
  4. 实现财报分析API(调用大模型)
  5. 创建财报分析报告展示页面
  6. 实现PPT报告生成功能
  7. 实现对话功能和图表生成
  8. 优化UI/UX和响应式设计

 

后续就是根据每一个细分的目标进行思考、拆分、执行。如果后边有对前边共用的文件有修改,它会自动找到对应的代码文件以及对应的位置更新。

最后完成整个代码构建后,它还会回顾并检查整体的代码质量,检查开发日志,并且做一些用户体验优化,代码开发这么细心负责,这让人类开发者情何以堪…

一次运行成功!输入阿里巴巴,直接把财报分析内容展示了出来!

最终整个项目完成之后,GLM-4.5会在服务器端命令行启动项目,整个窗口会分成左右两大窗口,左侧是与大模型交互以及动态输出日志交互信息,右侧就是实际运行起来的网站预览。如果对生成的功能或者UI不满意,或者运行过程有出现错误问题,可以随时在左侧交互框中告诉它,非常方便和易用!

它还会贴心的把整个项目的功能点、技术架构、使用指南都整理成文字信息告诉你,后续小编又让它增加了原始报告下载、投资建议功能,基本一次就可以完成功能更新。

以下是从输入到完成整个项目构建的视频,全程自动化构建,最终总耗时约5分17秒:

http://static-fintech.rpa-cn.com/2025/08/20250801051221302.mp4

后边在点击深度分析中的下载报告按钮会报错,小编直接左侧交互框告诉他错误信息:error proxying request: net/http: timeout awaiting response headers ,请修复。等待1分钟左右,功能顺利修复完成。

对于构建完成的项目,GLM-4.5支持在线部署和下载源码的功能。

现在,人人都可以是一个全栈开发者!就像左下角那个“全栈开发”按钮在告诉你的事情:不用再管什么瀑布流开发,不用再有产品经理、前端开发、后端开发、数据DBA…产品经理与开发也不用再天天吵架了,你只需要关注需求本身,有什么想法直接告诉GLM-4.5,一键上线不用复杂工作流,你只需要喝着咖啡等待!

随后,小编又顺手做了一个AI营销的网站,几分钟之后,我感觉明天可以汇报老板,公司可以再开设一条AI营销的业务线了…升职加薪指日可待!!

你现在就可以去 Z.AI 做一个专属的AI营销网站:

 

  • 帮我开发一个AI营销的网站,以下是具体的流程和功能描述:1、文案写作功能,根据指定的文案风格或者预制的一些文案风格进行生成文案。2、文案风格改写功能,输入给定的文案,选择不同风格进行改写。3、风格图片生成:根据用户输入的自动生成不同风格的图片。4、文案错字和修改建议功能。5、根据给定的文案,自动生成视频脚本

 

你可以理解为,它不是“加了Agent功能的大模型”,而是“为Agent而设计的大模型”。

模型免费,API超便宜,生成速度超级快

 

  • API调用价格:
  • 输入:0.8 元 / 百万Tokens
  • 输出:2 元 / 百万Tokens
  • 响应速度:
  • 高速版本实测超过 100 Tokens / 秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
  • Thinking 模式稍慢但更精准,适合高复杂任务

 

现在智谱仅需 50 元即可包月爽用 GLM-4.5,调用量上不封顶!这样的价格,性价比直接拉满!!小伙伴千万别错过这难得的薅羊毛机会~

从性能、参数、结构、生态,到开源方式、使用门槛、场景适配,GLM-4.5几乎把目前一个通用大模型应该具备的一切全拉满了。

更难得的是,它不是闭门造车,而是明确要“向开发者开放、向产业落地”的。

它是在思考、推理、规划、执行能力上,开始向下一代 AI 操作系统靠拢。

国产大模型的路,不能只是对齐,更要超越。

GLM-4.5,给了我们一个全新的起点。

下一篇文章,我们来聊聊:这个模型背后到底是怎么训练出来的?又或者——智谱到底在下哪盘大棋?

我们,下次见。

附录:你现在就可以体验 GLM-4.5

GitHub/Hugging Face/ ModelScope /API平台全面同步

 

  • Hugging Face(模型仓库):https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
  • ModelScope(模型仓库):https://modelscope.cn/collections/GLM-45-b8693e2a08984f
  • Github 仓库:https://github.com/zai-org/GLM-4.5
  • BigModel.cn (API接入,一键兼容Claude Code 框架):https://docs.bigmodel.cn/cn/guide/develop/claude
  • chatglm.cn (在线使用满血版):https://chatglm.cn
  • Z.ai (在线使用满血版):https://chat.z.ai/
  • Claude code集成:https://docs.z.ai/scenario-example/develop-tools/claude
  • 支持 Claude Code、Roo Code 等代码智能体中接入使用

注:MIT License开源协议

  • 允许自由使用:任何人可将遵循 MIT 协议的软件用于商业、非商业等任何场景,无需支付费用。
  • 修改与分发自由:允许修改软件源代码,也可将修改后的版本以开源或闭源形式分发。
  • 低约束:只需在软件副本或相关文档中保留原作者的版权声明和许可声明,无需公开修改后的源代码。
数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?
  • 数字化深水区里,中国企业到底需要怎样的AI应用底座?
  • 重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合
  • Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工
  • 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
  • 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
  • 特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投
  • 头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号