• Latest
  • Trending

中信建投:大模型研究笔记

2023-06-01

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07

OpenAI大变革!继续与微软等,以非营利模式冲击AGI

2025-05-06
官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

2025-04-21
刚刚,o4-mini发布!OpenAI史上最强、最智能模型

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

2025-04-17
67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

2025-04-15
对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

2025-04-14

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

2025-04-10
AI岗位超8成,阿里国际启动大规模校招

AI岗位超8成,阿里国际启动大规模校招

2025-04-07
1000万上下文!新开源多模态大模型,单个GPU就能运行

1000万上下文!新开源多模态大模型,单个GPU就能运行

2025-04-07
刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

2025-04-03
1小时暴涨100万用户!GPT-4o新功能彻底杀疯了,免费使用

1小时暴涨100万用户!GPT-4o新功能彻底杀疯了,免费使用

2025-04-02
Retail
星期五, 5月 9, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

中信建投:大模型研究笔记

数字金融网 by 数字金融网
2023-06-01
in 其它分类
A A
0

推荐可能喜欢的

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07

5月30日,北京市人民政府印发《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》。其中提出,构建高效协同的大模型技术产业生态。建设大模型算法及工具开源开放平台,构建完整大模型技术创新体系,积极争取成为国家人工智能开放生态技术创新中心。中信建投证券海外团队推出大模型研究笔记系列研究:

01

百度(BIDU):大模型研究笔记(一)
大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如数据清洗、初始化策略、大批量训练等。另一方面,模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术,有望打开未来to C市场的想象空间。
大模型研究笔记(一)
现有的市场研究主要聚焦下游应用,即大语言模型能够实现什么功能,满足什么市场需求,而将大语言模型本身视为黑匣子,缺乏对语言模型本身机制的研究。本篇报告主要是对学界在LLM模型架构、预训练各环节、下游调优等领域的探索进行系统梳理,旨在增进市场对LLM技术原理的理解。需要指出的是,由于相关文献较多,本报告可能存在遗漏,并引致风险。
模型结构方面,现有的主流模型均基于Transformer架构。行业发展的关键节点在于:
1)下游任务逐渐被统一;
2)研究总结出Scaling Law,从而催生规模竞赛;
3)Google团队提出CoT研究,大模型+CoT prompt效果显著提升。因此,此前行业主流范式是训练更大的模型,通过引入代码数据等方式激活模型的潜在能力。但一些最新研究表明规模效应带来的涌现可能是度量选择的结果,规模带来的性能提升可能没有此前的研究所表明的那么显著,因而引发一些对进一步推动规模扩展的谨慎观点。
预训练仍存在非常充分的优化空间。
1)训练数据集上,当前参数规模相比数据集过度扩张明显,训练数据集一定程度上制约了性能的提升。另一方面,数据集扩大可能带来重复数据的问题,而研究表明训练中的重复数据会显著影响模型的性能提升,因此对数据的清洗可能是业界实践中比较重要的环节;
2)知识图谱方面,一些团队如百度ERNIE将知识图谱引入LLM训练,实现性能提升,但研究表明,由于知识图谱数据库搭建的高成本,且也不适用于所有类别/场景的数据,规模化难度较高。此外,知识图谱的性能提升是以推理速度的下降为代价的;
3)参数规模方面,OpenAI提出的Scaling Law引发此前行业的规模竞赛,但斯坦福大学团队近期研究质疑了这一规律,并通过实验表明规模提升带来的效果突变是测试函数表达形式的结果,剔除影响后模型性能随规模变化更接近线性曲线。考虑到其他环节的优化空间,规模进一步大幅扩张可能不是厂商们的首要考虑目标;
4)训练策略方面,Google提出了Fixup、Skipint等初始化策略,其中后者在Transformer模型小Batch size训练下性能优于基准;稀疏训练和过参数方面的研究指出过参数有益于训练,但对推理部署成本有负面影响,UCB团队研究指出先训练大模型,再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面,Google团队提出LAMB优化器,实现32K Batch size下无损训练(1K=1024)。
ChatGPT的火爆很大程度上是得益于“智能化”,或者说与人类交互的自然感,而这种用户体验主要是来自下游调试,例如Fine-tune、RLHF、Alignment等环节。GPT-4技术报告指出,调试环节并不会提升模型的性能,而是强化模型与人类的交互能力,符合人类的价值观等,甚至存在Alignment tax,即调优环节是在不同维度间调整模型的能力,优化一方面的能力会牺牲另一方面的能力。现有的研究表明,通过扩大Reward Model的规模能够优化RLHF环节模型的提升。Alignment方面,此前AI超越人类智能的相关研究不多,这方面仍需要进一步观察和跟踪。
总体而言,通过梳理现有研究,我们认为:
1)模型数据集、训练量的优化(包括对数据去重、数据集规模扩充)是重要方向;
2)初始化策略、加速优化器能够在小批量训练集中优化模型性能,大批量训练目前研究的上限是32K,这与训练速度存在权衡取舍;
3)模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术。近期陈天奇即相关团队MLC LLM项目热度较高,其将大模型部署至手机,这将大幅降低大模型产品的推广和部署门槛,打开to C产品的想象空间;
4)参数规模、知识图谱可能不是短期研究主要推进的方向。
风险提示:新业务发展不及预期:AIGC及相关新技术领域仍处于快速发展阶段,技术距离成熟存在较大差距,当前发展预期可能存在过度乐观的情况,业务实际发展仍存在较大不确定性。宏观或行业环境变化:由于公司部分业务处于探索期或成长期,业务模式尚未成熟,同时宏观、行业环境可能发展变化,因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化,公司业务受到的影响可能超出我们的预期范围。竞争加剧风险:公司部分业务如搜索广告等面临短视频、应用内搜索的分流,以及搜狗、360、bing等竞争者的威胁。

02

百度(BIDU):大模型研究笔记(二)
大模型规模竞赛强度有望下降,精益优化可能成为主要方向,如数据清洗、初始化策略、大批量训练等。另一方面,模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术,有望打开未来to C市场的想象空间。我们认为中长期AI领域具备广阔前景,看好百度在AIGC领域的布局和先发优势。
模型结构方面,Context Window拓展下游应用场景。技术路线上,引入局部注意力机制能一定程度上延长context window,但难以实现量级的拓展。斯坦福大学和纽约州立大学团队于2022年5月提出的FlashAttention结合前述研究,并基于CUDA对底层内存读取做出优化,实现context window的大幅拓展。斯坦福大学和蒙特利尔大学的研究团队于2023年2月进一步提出Hyena架构,较此前FlashAttention进一步实现性能优化。
预训练环节存在广阔优化空间:
1)并行化环节,主要思路是结合模型并行与数据并行,并引入分片策略,核心差异在于分片应用环节不同,以及不同并行策略应用顺序的差异。从公开研究所披露的效果看,英伟达>谷歌>微软;
2)大规模计算集群方面,阿里巴巴在大规模计算集群的通信优化方面较为领先,同时在确定性网络、准确测量两条路径上均有重要工作,基本处于国内领先地位,与谷歌、思科等国际大厂仍存在一定差距;
3)内存置换与checkpoint优化方面,该领域偏向训练过程的工程技巧,法国国家信息与自动化研究所将offload与checkpoint结合,实现在训练环节降低训练损耗。此前,Google团队在Palm论文也提到对checkpoint做出的其他优化,提升模型训练的稳定性。
下游调试方面,比较重要的研究来自微软和CMU研究团队于2021年6月提出LoRA,核心思想是通过秩分解矩阵来间接训练神经网络中的一些密集层,同时冻结预训练模型权重,降低存储占用,同时提升训练速度。LoRA降低了模型二次调优的门槛,并成为简单应用开发的重要技术。后续斯坦福大学研究团队基于LLaMA模型,收集ChatGPT回答并应用LoRA调优,实现低成本、高效率的小模型开发(参数规模在7~13B,远小于ChatGPT),并实现简单任务上的性能匹配。此外,Anthorpic与OpenAI引入基于AI反馈的强化学习(RLAIF),并实现无害性优化。
总体而言,基于《大模型研究笔记(一)》与本篇报告,我们认为:
1)模型数据集、训练量的优化(包括对数据去重、数据集规模扩充)是重要方向;
2)初始化策略、加速优化器能够在小批量训练集中优化模型性能,大批量训练目前研究的上限是32K,这与训练速度存在权衡取舍;
3)模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术。近期陈天奇及相关团队MLC LLM项目热度较高,其将大模型部署至手机,这将大幅降低大模型产品的推广和部署门槛,打开to C产品的想象空间;
4)部分模型能力如Context Window来自底层硬件约束,未来软硬一体可能是关键壁垒,对LLM厂商的全栈实力提出较高要求。
另一方面,对于全栈布局不足的厂商,开源大模型构建繁荣开发者生态也是一条可选路径,海外的开源社区迭代较快,能够推动LLaMA拉近与GPT-4的差距。
风险提示:新业务发展不及预期:AIGC及相关新技术领域仍处于快速发展阶段,技术距离成熟存在较大差距,当前发展预期可能存在过度乐观的情况,业务实际发展仍存在较大不确定性。宏观或行业环境变化:由于公司部分业务处于探索期或成长期,业务模式尚未成熟,同时宏观、行业环境可能发展变化,因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化,公司业务受到的影响可能超出我们的预期范围。竞争加剧风险:公司部分业务如搜索广告等面临短视频、应用内搜索的分流,以及搜狗、360等竞争威胁。
本文转载自中信建投证券研究,如有侵权,请联系删除。

END

行业知识交流分享,结识扩展人脉圈层
公众号后台回复【数字金融】
可受邀加入【金融数字化交流群】

本篇文章来源于微信公众号: 数字金融网

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 突发!特朗普准备取消AI芯片出口限制
  • 微软将大量AI功能、智能体集成在Windows11,全民AI时代来了
  • OpenAI大变革!继续与微软等,以非营利模式冲击AGI
  • 官方出品!OpenAI教你用Agent SDK,10分钟开发智能体
  • 刚刚,o4-mini发布!OpenAI史上最强、最智能模型
  • 67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人
  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星
  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号