7月28日晚,智谱悄无声息的开源了新一代旗舰模型 GLM-4.5,发布仅10小时,便引发全球媒体高度聚焦。
CNBC、路透社、Bloomberg等海外重量级媒体第一时间跟进报道。CNBC在报道中指出:“中国企业正在研发的人工智能模型不仅智能化水平提升,使用成本也持续降低,这与深度求索(DeepSeek)当年震动市场的突破核心优势相呼应。”
目前,GLM-4.5模型已经登顶国际开源社区Hugging-Face榜单全球第一。
智谱此次发布GLM-4.5 系列(355B 以及 106B) 两个参数版本,源码和权重全部开源,采用极为宽松的MIT License协议。
GLM家族并非首次引发关注,之前的GLM-130B、ChatGLM3系列都因为是首个突破和首个开源,曾在开源圈掀起过波澜。这次模型亮点在于:
- 首款原生融合模型:这是其最大亮点之一。GLM-4.5首次在单个模型中实现了将推理、编码和智能体能力原生融合。正如技术博客所阐释,大语言模型的终极目标是在广泛领域达到人类认知水平,但现有模型往往各有所长(编程、数学、推理),却难以成为真正的“全优生”。GLM-4.5 正是朝着统一各种能力这一目标迈进,力证大模型的下一个范式,必然是深度整合多维度能力于一体。
- 更高的参数效率:GLM-4.5的参数量仅为一些主流模型的一半甚至三分之一,但在多项标准基准测试中表现更为出色。特别是在衡量模型代码能力的权威榜单 SWE-bench Verified 上,GLM-4.5 系列位于性能/参数比的帕累托前沿——这意味着在同等参数规模下,它实现了当前已知的最佳性能。
下面咱们就详细看下GLM-4.5模型在性能、代码能力、推理表现这些硬实力上的实测表现~
这次发布的两个版本的GLM-4.5模型:
- GLM-4.5:总参数355B,激活参数32B
- GLM-4.5-Air:总参数106B,激活参数12B
它们都采用了混合专家结构(MoE),这个架构说白了就是“每次推理只激活部分参数”,在保证多样能力的同时大大降低了计算消耗。
模型支持两种核心模式切换:
- Non-thinking 模式:轻量任务用这个,效率高、响应快、节省开销。
- Thinking 模式:推理、链式思考、代码补全、Agent执行链条,用这个火力全开。
52个Agent 轨迹:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
实测体验:模型原生融合ARC(Agentic/Reasoning/Coding)能力,分分钟手搓Agent
说实话,小编原本对这个模型的预期,还停留在“跑跑测试题”这种层面。
但当我真正上手试了之后,我必须承认,它确实不止是“跑得好”。
GLM-4.5其原生架构设计使其成为真正意义上的“Agent基座模型”:
- 推理能力(Reasoning):覆盖数学、符号逻辑、多轮对话逻辑链条等多个评测维度;
- 代码能力(Coding):广泛适用于数据处理、日志分析、工具开发、前端交互、算法原型等复杂场景;
- Agentic能力:具备任务自主拆解 + 工具调用 + 多轮完成任务的原生能力,无需外挂流程控制器。
这意味着,GLM-4.5并非“能Agent”的模型,而是“为Agent而生”的模型。
这里官方也放出了一些关于Agentic任务的评测技术细节报告
GLM-4.5 是对 Agentic 任务专门优化的基础模型,支持 128k 的上下文长度和原生函数调用能力。在 -bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上对两款模型的 agentic 能力进行评估,GLM-4.5 的性能与 Claude-4-Sonnet 相当。
网页浏览是一种需要复杂推理和多轮工具使用的流行 Agentic 应用。技术团队在 BrowseComp 基准上评估了 GLM-4.5,在访问网页浏览工具的情况下,GLM-4.5 能够正确回答 26.4% 的问题,优于 Claude-4-Opus(18.8%),接近 o4-mini-high(28.0%)。
注:BrowseComp 是一个具有挑战性的网页浏览基准,包含需要简短回答的复杂问题。
下图显示了 GLM-4.5 在 BrowseComp 上的测试时扩展精度。
模型原生 Agent 场景跑通,从生成文本到生成产品
小编尝试了以下几种使用方式实测了多个「模型原生可落地Agent场景」,覆盖从文本工具、搜索型应用,到交互式网页与多人游戏,验证GLM-4.5的真实可部署性与连贯性,一口气构建了5个专业的应用,已经沉寂多年的开发能力突然以另一种形式觉醒,我又觉得我行了!
基于three.js构建的3D地球可视化模拟生成器
AI驱动的企业流程自动化工具(在线体验:https://k0nag61vkf50-deploy.space.z.ai/)
多Agent协同的像素风格贪吃蛇游戏(在线体验:https://r0qat65a8yz1-deploy.space.z.ai/)
帮我生成一个游戏应用贪吃蛇,风格是像素风格,玩家可以驱动游戏内的小蛇,同时游戏内可随机出现不同其它的玩家,以及实物。并且右上角有当前对局的得分榜单。使用Agent帮我模拟其它的玩家。
GLM-4.5模型原生生成PPT
经常做PPT的小伙伴可能知道,做一套好看实用的PPT有多么麻烦,搜索信息、贴内容、正确配图,确保信息准确、审美在线、字体配色,最终代码生成PPT…
使用高大上的配色和奢侈品风格,生成一个关于爱马仕品牌介绍的PPT
实测GLM-4.5生成PPT,总耗时4分26秒,嗯,很快,而且比我做的好看多了…
这些能力已不止于“文本生成”,而是完成了从自然语言 → 工具控制 → 应用部署的全流程闭环。突然想起昨天刚刚开源的Coze,此刻会不会也开始沉思,Agent工作流是否只是大模型过渡期的产物,可能尽头依然ALL IN CHAT!!
下方是官方的一些demo参考,小伙伴可以直接打开体验:
一个真的能搜的搜索引擎
提示词:做一个Google搜索网站。
Z.ai版本“谷歌搜索”体验地址:https://n0x9f6733jm1-deploy.space.z.ai
一个真的能点赞的文字版抖音
提示词:做一个文字版抖音 , 允许上下切换, 需要支持发帖、 点赞、 评论的功能。
Z.ai版本“文字抖音”体验地址:https://t0mau6dg2nv0-deploy.space.z.ai
GLM-4.5不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是GLM-4.5制作的一个3D 交互式地球网页,用户可以点击地点查看详情,并伴有平滑的缩放动画。
提示词:Build a webpage using Three.js and JavaScript that creates a 3D world displaying places I’ve visited, based on an array. Clicking markers on the 3D globe will animate a zoom effect and open detailed trip information with photos.
推理之上,是智能体:GLM-4.5的Agent原生性值得重视
现在市面上的大部分LLM,其实还是以“增强问答系统”为核心思路,即便加了插件、记忆系统、函数调用,也还是“在模型外面堆功能”。
这包括但不限于:
- 模型对话中长期记忆、目标一致性保持
- 模型对于任务目标、动机、过程的自我规划能力
- 模型原生支持多轮链式思考与动作执行能力
但GLM-4.5开始做的,是在模型训练过程中就让模型具备智能体行为的能力。GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿令牌的通用数据上进行了预训练。然后在代码、推理、智能体等领域的数据上进行了针对性训练,最后通过强化学习进一步增强了模型的推理、代码与智能体能力。
GLM-4.5可以理解是具备实战能力的“多步任务执行者”,在未来 AI 工作助手、多任务智能客服、财务分析等场景中具备天然优势。
这也是为什么它能在TAU-Bench、BrowseComp这种原本只适合专用Agent系统的任务中跑出好成绩——它是“原生具备智能体能力”的。
原生Agent觉醒时刻,一键上线不用复杂工作流
当看到GLM-4.5自动拆解这个需求时,不需要Manus,不需要Flowith,更不需要抢各种邀请码!小编知道智能体赛道要变天了:
为了测试模拟真实开发工作流,小编特意选了一个针对以往多Agent智能体协同开发才能实现的多任务的复杂开发需求,让它开发一个自动分析上市公司财报并支持财报分析、下载报告、甚至增加用户自然语言对话返回财报分析结果的复杂多功能的网站。
以下是一次完整的one-shot prompt:
- 帮我开发一个自动分析上市公司财报的网站,以下是具体的流程:1、用户输入一个上市公司名称或者股票代码(支持中国的A股或者美股公司),2、可以选择什么时间段的财报,或者默认是最新的财报。3、根据用户的输入自动抓取这个公司的财报。4、调用大模型能力分析财报,5、生成财报分析报告,财务报告可在线浏览,也支持自动成图文并茂的ppt报告,可供用户下载。提供下载地址 6、用户可进行对话,大模型根据用户输入自动寻找财报内的内容,并输出对应的图表。
然后GLM-4.5开始了它的思考和动作,创建了一个基本的Next.js项目结构,并使用TodoWrite来规划整个项目的开发步骤:
- 创建项目基础结构和路由
- 设计并实现主页面UI(搜索框、时间选择等)
- 实现财报数据抓取API(支持A股和美股)
- 实现财报分析API(调用大模型)
- 创建财报分析报告展示页面
- 实现PPT报告生成功能
- 实现对话功能和图表生成
- 优化UI/UX和响应式设计
后续就是根据每一个细分的目标进行思考、拆分、执行。如果后边有对前边共用的文件有修改,它会自动找到对应的代码文件以及对应的位置更新。
最后完成整个代码构建后,它还会回顾并检查整体的代码质量,检查开发日志,并且做一些用户体验优化,代码开发这么细心负责,这让人类开发者情何以堪…
一次运行成功!输入阿里巴巴,直接把财报分析内容展示了出来!
最终整个项目完成之后,GLM-4.5会在服务器端命令行启动项目,整个窗口会分成左右两大窗口,左侧是与大模型交互以及动态输出日志交互信息,右侧就是实际运行起来的网站预览。如果对生成的功能或者UI不满意,或者运行过程有出现错误问题,可以随时在左侧交互框中告诉它,非常方便和易用!
它还会贴心的把整个项目的功能点、技术架构、使用指南都整理成文字信息告诉你,后续小编又让它增加了原始报告下载、投资建议功能,基本一次就可以完成功能更新。
以下是从输入到完成整个项目构建的视频,全程自动化构建,最终总耗时约5分17秒:
后边在点击深度分析中的下载报告按钮会报错,小编直接左侧交互框告诉他错误信息:error proxying request: net/http: timeout awaiting response headers ,请修复。等待1分钟左右,功能顺利修复完成。
对于构建完成的项目,GLM-4.5支持在线部署和下载源码的功能。
现在,人人都可以是一个全栈开发者!就像左下角那个“全栈开发”按钮在告诉你的事情:不用再管什么瀑布流开发,不用再有产品经理、前端开发、后端开发、数据DBA…产品经理与开发也不用再天天吵架了,你只需要关注需求本身,有什么想法直接告诉GLM-4.5,一键上线不用复杂工作流,你只需要喝着咖啡等待!
随后,小编又顺手做了一个AI营销的网站,几分钟之后,我感觉明天可以汇报老板,公司可以再开设一条AI营销的业务线了…升职加薪指日可待!!
你现在就可以去 Z.AI 做一个专属的AI营销网站:
- 帮我开发一个AI营销的网站,以下是具体的流程和功能描述:1、文案写作功能,根据指定的文案风格或者预制的一些文案风格进行生成文案。2、文案风格改写功能,输入给定的文案,选择不同风格进行改写。3、风格图片生成:根据用户输入的自动生成不同风格的图片。4、文案错字和修改建议功能。5、根据给定的文案,自动生成视频脚本
你可以理解为,它不是“加了Agent功能的大模型”,而是“为Agent而设计的大模型”。
模型免费,API超便宜,生成速度超级快
- API调用价格:
- 输入:0.8 元 / 百万Tokens
- 输出:2 元 / 百万Tokens
- 响应速度:
- 高速版本实测超过 100 Tokens / 秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
- Thinking 模式稍慢但更精准,适合高复杂任务
现在智谱仅需 50 元即可包月爽用 GLM-4.5,调用量上不封顶!这样的价格,性价比直接拉满!!小伙伴千万别错过这难得的薅羊毛机会~
从性能、参数、结构、生态,到开源方式、使用门槛、场景适配,GLM-4.5几乎把目前一个通用大模型应该具备的一切全拉满了。
更难得的是,它不是闭门造车,而是明确要“向开发者开放、向产业落地”的。
它是在思考、推理、规划、执行能力上,开始向下一代 AI 操作系统靠拢。
国产大模型的路,不能只是对齐,更要超越。
GLM-4.5,给了我们一个全新的起点。
下一篇文章,我们来聊聊:这个模型背后到底是怎么训练出来的?又或者——智谱到底在下哪盘大棋?
我们,下次见。
附录:你现在就可以体验 GLM-4.5
GitHub/Hugging Face/ ModelScope /API平台全面同步
- Hugging Face(模型仓库):https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
- ModelScope(模型仓库):https://modelscope.cn/collections/GLM-45-b8693e2a08984f
- Github 仓库:https://github.com/zai-org/GLM-4.5
- BigModel.cn (API接入,一键兼容Claude Code 框架):https://docs.bigmodel.cn/cn/guide/develop/claude
- chatglm.cn (在线使用满血版):https://chatglm.cn
- Z.ai (在线使用满血版):https://chat.z.ai/
- Claude code集成:https://docs.z.ai/scenario-example/develop-tools/claude
- 支持 Claude Code、Roo Code 等代码智能体中接入使用
注:MIT License开源协议
- 允许自由使用:任何人可将遵循 MIT 协议的软件用于商业、非商业等任何场景,无需支付费用。
- 修改与分发自由:允许修改软件源代码,也可将修改后的版本以开源或闭源形式分发。
- 低约束:只需在软件副本或相关文档中保留原作者的版权声明和许可声明,无需公开修改后的源代码。