• Latest
  • Trending
1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

2024-03-28
AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-23

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

2025-06-10

突发!特朗普准备取消AI芯片出口限制

2025-05-08
Retail
星期日, 6月 29, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

数字金融网 by 数字金融网
2024-03-28
in 其它分类
A A
0
1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

3月28日,著名数据和AI平台Databricks在官网正式开源大模型——DBRX。

DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。

根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示,不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。

基础模型:https://huggingface.co/databricks/dbrx-base

推荐可能喜欢的

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-23

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17

微调模型:https://huggingface.co/databricks/dbrx-instruct

Github:https://github.com/databricks/dbrx

在线demo:https://huggingface.co/spaces/databricks/dbrx-instruct

Databricks作为数据管理领域的超级独角兽,为了抓住生成式AI的风口,2023年6月26日曾以13亿美元的天价,收购了大模型开源平台MosaicML。

MosaicML曾在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B。(开源地址:https://huggingface.co/mosaicml/mpt-7b)该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。

MPT-7B只进行了大约10天的训练,零人工干预,训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。

截至目前,MPT-7B的下载量已超过300万次,而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。

DBRX简单介绍

DBRX是一款基于Transformer的MoE架构大模型,1320亿参数中的360亿参数处于长期激活状态。

这与其它开源的MoE类型模型如Mixtral、Grok-1相比,DBRX使用了数量更多的小专家模型。DBRX有16个专家并选择4个,而Mixtral和Grok-1有8个专家并选择了2个。

DBRX使用了12T的文本和代码数据(支持中文),支持 32k上下文窗口,并在3072 个 英伟达的 H100 上进行了3个月的预训练。

DBRX除了与开源模型进行了对比之外,还与OpenAI的GPT系列、谷歌的Gemini以及Anthropic最新发布的Claude 3系列进行了同台竞技。

MMLU、HellaSwag、WinoGrande、HumanEval等综合测试结果显示,DBRX推理、数学解答、语言理解、代码等能力超过了GPT-3.5,性能与谷歌的Gemini 1.0 Pro 性能差不多。

什么是专家混合模型

MoE模型全称为Mixture of Experts,其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。

这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块

门控机制:这是MoE模型的核心模块,负责决定每个输入应该由哪个或哪几个专家处理。

门控机制会根据输入数据的特征分配权重给不同的专家,这个过程是动态的,意味着不同的输入会根据其内容被分配给最合适的专家处理。例如,Grok-1模型中只有大约25%的参数被实际使用或“激活”。

专家网络:这些是模型中的子网络,每个都有自己特定的参数配置。在传统的MoE模型中,这些专家网络可以是结构相同但参数不同的多个神经网络。每个网络都专注于模型任务的一个方面或输入数据的一个子集。

聚合器:一旦各个专家给出了自己对于输入的处理结果,聚合器则负责将这些结果综合起来,形成最终的输出。聚合的方式可以是简单的加权和、投票机制或者更复杂的融合策略。

MoE是开发、训练超过千亿参数大模型常用的架构,例如,GPT-4、Palm 2等著名大模型使用的都是该架构。

关于Databricks

Databricks创立于2013年,总部位于美国旧金山,在全球多个国家、地区设有办事处。其企业客户超过10000家,包括众多财富500强企业。

Databricks主要提数据智能分析服务,帮助企业、个人用户快速挖掘数据的商业价值。

本文素材来源Databricks官网,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!
  • 本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
  • 火山引擎发布豆包大模型1.6,加速Agent大规模应用
  • Meta正与Scale AI洽谈100亿美元投资
  • 微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?
  • 80亿美元押注Agent!全球第一CRM收购Informatica
  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号