
AIGC(AI Generated Content,人工智能生产内容)是下一代互联网的核心生产力之一。AIGC与元宇宙、数字人等技术结合,将引发营销、直播、咨询等的变革,将为相关产业带来巨大想象空间。AIGC背后是生成式AI的发展与逐渐可用,更具体而言是受益于近两年来预训练大模型、Transformer、RLHF等技术的飞速发展。2022年底OpenAI发布的ChatGPT,就是一种预训练的大语言模型,它从海量公开数据和语言中学习知识,在人机交流中表现出强大的文本生成能力,引起全世界高度关注,仅用两个月便斩获1亿用户,被认为是有史以来获取用户速度最快的消费者应用。虽然ChatGPT等AIGC产品仍远不够完善,但已足以让人们见证下一代交互范式的魔力。
ChatGPT打破了原有认知智能的天花板,激活了大模型的强大推理能力,展示出显著的思维链(CoT)特征。它成功通过谷歌的面试,拿到年薪18万美元的L3工程师offer;还通过了美国执业医师资格考试(USMLE),在考试中表现出高度的一致性和洞察力。
ChatGPT是基于GPT-3.5开发而成。GPT模型是一种自然语言处理模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。从GPT-1 到 GPT-3.5,智能化程度不断提升;随后,ChatGPT的底层模型很快升级为GPT-4,AIGC在某些细分领域的知识咨询和文字输出型服务上表现出了与人类相当的水平。
ChatGPT的模型训练主要分为预训练、监督学习和强化学习三个阶段。预训练阶段可类比为学习文字接龙,在无标注的海量语料上进行。监督学习阶段可类比为人类老师在引导文字接龙方向,通过指令训练对模型进行微调,同时也是对齐模型“价值观”的过程。强化学习阶段主要采用RLHF技术,可类比为模仿老师偏好,自动批改作业。强化学习阶段,又包括两个主要步骤:第一步是模仿老师三观,生成能自动批改作业的教师模型(即训练出强化学习需要的奖励模型);第二步是使用教师模型自动批改学生作业,即运用前面生成的奖励模型进行强化学习的阶段。
ChatGPT的训练是较为典型的“大力出奇迹”高投入模式,并非一般企业能承担,也超出了银行的能力所及。从数据上看,ChatGPT用了超过40TB的文本数据量,近万亿个单词(超过1000万本牛津词典)。虽然在预训练阶段无须传统深度学习中的高强度“标注”工作,但指令学习的监督训练阶段,仍然使用了上千名标注人员,并且其中本科学历53%,研究生占37%,表明对标注人员有更高的教育背景要求。从算力上看,仅仅GPT3的训练算力就需要上万张V100 GPU,每年云服务费用需要7000万美元;ChatGPT的规模更大、相应算力消耗更甚。从时间和资金上看,是上百亿美元的支持和长达6年无商业KPI的研发投入。
生成式AI在银行的应用前景
生成式AI通过从数据中学习要素,进而生成全新的、原创的内容或产品,不仅能够实现传统AI的分析、判断、决策功能,还能够实现传统AI力所不及的创造性功能,本质是对生产力的大幅度提升和创造。
银行应用的生成式AI技术属于企业生成式AI范畴,主要包括生成式对抗网络(GAN)和自然语言生成(NLG)等,如可在欺诈监测、风险因素建模等场景中为银行提供测试用例生成支持,有助于解决银行机构缺乏数据样本或数据样例多样性不够而难以更深入开展AI学习等问题。商业银行领域,因其有大量的非公开数据,与公开数据相结合,将更有机会基于大模型训练出高质量、高效率的智能应用。目前,国内已经有百信银行等开始在产品和服务中接入生成式AI(百度的“文心一言”)。
生成式AI迅速发展,对银行最直接的影响是带来金融服务机器人、智能客服的技术升级,变得更加拟人化,甚至比客户经理更懂客户,更广闻博见;系统用户交互模式将从菜单网页逐步过渡到语音直接交互,基于对人类意图理解推出系统功能和数据资源;对于业务决策场景,机器将可在理解业务需求后直接在后台组织和发起智能处理任务,自动提供决策依据和建议;低代码开发技术将进一步升级为面向意图理解编程,业务人员也将和技术人员一样,都成为软件生产线的员工。生成式AI将使得银行在财富管理业务中更易实现元宇宙场景,个性化和高度拟人化的数字机器人可能率先成为新一代财富新贵的专属客户经理;随着VR/AR设备的进化和可穿戴皮肤技术不断成熟,银行将逐步过渡到为各年龄段高端客户也提供随时随地的财富顾问服务。
生成式AI还可从推荐、客服等多个方面提升手机银行用户留存;可提升银行非金融服务App平台上的推荐模型效果,提升用户推荐体验;可提升银行抽取模型效果、单据审核准确率,提升银行审单智能化水平;在远程银行方面,可提升银行对话系统性能,提升银行业务效率等。
据预计,生成式AI在银行业率先得以落地的典型应用场景将包括智能客服、辅助写作、智能抽取、辅助研发、智能助手等。
一智能客服。生成式AI能通过自然语言处理技术和人工智能技术,对客户的问题进行识别和理解,能较好地承接上下文,提供准确、及时的回答;亦可用于对客户意图或兴趣点画像的分析。与传统的智能客服相比,生成式AI更有希望获得更高的准确性和更快的回复速度,具有更佳聊天交流体验,能帮助银行提高客户满意度和客户忠诚度。同时,生成式的技术仍然有一定的不确定性与风险,若要在银行客服中直接承接回复,需要银行谨慎选择场景。
二辅助写作。生成式AI可为写作提供必要支持,可完成会议通知、产品介绍、宣传文案、各类报告、文档摘要、文档提纲等的撰写,甚至能够写书、翻译著作。
三智能抽取。基于生成式AI的智能抽取是指从海量自然语言语料库中,抽取出特定的事件或事实信息,并对文档中的内容实现自动分类、重要信息提取、生成摘要信息和重构文本结构等。如可利用生成式AI为一段客服对话生成一份客服工单,工单上能包括客服的工号、客户的身份、客户的需求、客户的不满意程度等信息。又如生成式AI能接收银行员工以自然语言表述的指令,从合同文本中完成对合同关键信息的提取(如合同的甲方、乙方、价格、货物信息等),并能按要求的格式予以输出。
四辅助研发及示例。生成式AI可在IT研发过程中,自动生成程序或注释、判断程序是否有问题、查找代码bug,可用来辅助研发,提升开发效率。五智能助手。生成式AI还可以在产品创意、内容创作、路线规划、数字劳动力、语言翻译甚至面试等方面充当智能助手,大幅提升相关人员的工作效率。
银行需完善AI研发的闭环迭代体系,推动生产力的AI化
ChatGPT等生成式AI所展示出的惊人能力,正在重新定义金融业、银行业生产力;银行应该尽快梳理清楚相应的AI生产力进化思路框架,建立AI生产力持续迭代升级的闭环体系,以尽快推动生产力的AI化,并适应AI技术的持续突飞猛进。
关于未来AI应用模式,OpenAI CEO Sam Altman在接受记者采访时表示:“未来,企业基于自身(私域)数据,在基础大模型之上,为每个垂直领域训练模型,将获得巨大成功和差异化。”以当下生成式AI最受推崇的预训练大模型为例,银行在AI应用模式和生产力的AI化方面,可关注以下几点:
首先是大模型从0到1的基础设施建设阶段。最终成果是形成通用的AI大模型。由于该阶段的模型训练需要掌握尽量丰富的全域数据、世界知识,需要超级算力作为支撑,因此比较适合由AI领域的科技巨头来主导、负责。比如由OpenAI训练出的GPT系列模型(包括ChatGPT)以及由Deep Mind所训练的Gopher模型等,在国内则有由百度推出的文心大模型等。对于国内的商业银行而言,虽然目前暂时还不具备足够条件独立完成具有领先水准的通用AI大模型的训练,但仍可积极考虑参与到通用大模型基础设施建设之中,一方面发挥自身在金融领域的数据量、科技能力优势为夯实国内AI能力基础贡献力量;另一方面也能够尽早在通用大模型建设初期就引入金融级的安全机制,以及尽早做好监管合规准备。
其次,在大模型从1到10的专业化训练阶段,则需要由具备银行领域知识的专业化部队推进。这要求商业银行建设起能够支撑大模型持续迭代的AI技术基座和工程化体系,以及与之相匹配的数据运营模式,从而在上一阶段所提供的基础大模型之上,利用自身所掌握的私域数据,对基础大模型完成Fine-Tune,形成银行自己的领域模型,作为下一步开展场景应用的基础支撑。当前,商业银行在此阶段所面临的最大障碍是相关人才非常稀缺。领域模型的Fine-Tune,需要相关核心人才不但精通大模型技术,还要有足够AI工程化经验,更要对银行专业领域有深刻理解。
再次,在大模型的推广应用阶段,即从10到100的阶段,则可由银行负责应用开发的通用技术部队来完成。在这一阶段,最重要的工作是完成上述已经具备专业领域能力的大模型对场景应用的嵌入和赋能。该阶段对相应技术团队的要求是,除了应对大模型及AI技术有足够了解之外,更为重要的是要能精准把握场景需求。银行自身及银行服务所涉及的场景类型众多,需要相应的技术团队像毛细血管一样,浸入场景、深耕场景。此外,各种场景应用中的数据需要建立起回流机制,反哺大模型的完善。
上述三个阶段可以视为银行利用AI大模型以及生成式AI等进化银行生产力的整体思路框架。更具体的实践层面,银行还需要重点打造并持续优化AI生产力平台,建立AI模型的闭环迭代能力,以数据中台为基础,依次健全AI生产力平台关键环节的能力和流程,包括:
1)提升针对AI模型研发的数据处理能力,如数据集的准备、数据标注等;并要持续改进数据处理模式;
2)健全模型研发能力,如建设算法库、模型库等,完善模型训练、模型评估等工具箱;
3)优化工程研发体系,如模型的封装、模型的更新、模型接口的开发、模型接口的测试等;
4)建立起AI模型运营与监控的支撑体系,如运营设置、指标管理、租户管理、权限管理等。
银行尤其需要注意,随着AI技术的快速发展,上述各个环节对能力和工作流程、工作模式的要求也可能随之改变。比如,随着预训练大模型技术的兴起,业界对AI模型训练数据集的定义和要求相比早几年的传统深度学习有了显著变化,预训练大模型在数据集准备以及模型研发环节之中正在越来越多地运用无监督模式,因此,银行应在相应工作流程、工具箱组件以及人才准备等方面做出调整。
当然,就目前情况看,AI生产力平台闭环迭代体系的整体结构以及其中的几大关键环节,即数据处理、模型研发、工程研发、模型运营监控等,将在AI技术的不断更新换代中长期存在,并将保持相对稳定。例如,国内某银行在前几年建立起了与上述体系相似的AI生产力平台。当时因为大模型尚未受到业界关注,因此该行在建设AI生产力平台工程体系的过程中,也并未特意面向大模型进行专门的设计。近期,随着大模型成为AI研发的热点,该AI生产力平台仍然很好地支撑了该行在大模型训练、迭代方面的探索。该行以此AI生产力平台为支撑,高效调度十亿级私域金融文本数据、大模型算法专家、海量存储能力、AI平台专家、各种研发工具等资源,成功推出具有百亿级别参数规模的基础大模型。
除了AIGC及生成式AI外,还有很多智能技术趋势值得关注。比如自主系统将在赋予下一代互联网内生的自驱动性方面发挥重要作用。自主系统是对Auto ML的进一步扩展。自主系统不限于机器学习,比Auto ML具有更强的综合型,能够在系统执行过程中,无需人工干预便可主动吸收新的数据进行学习,并自主改进或调整自身算法,自主地适应新场景、满足新需求。一些银行服务网点正在试点推出人形机器人,若进一步建立起足够的自主学习能力,就有望打造出比较典型的自主系统,实现根据客户身份及与客户沟通情况的变化自主识别客户需求是贷款还是理财或其他,并自主调整服务模式。
对于智能技术趋势,更值得银行重视的是,ChapGPT的出现,显示AI技术乃至数字科技整体正在进入新一轮快速发展期,后续出现更多突破性进展的可能性大幅增加,亟须银行基于自身现实条件,选择恰当的算力基础设施进化路线,构筑算力生态、数据生态,尽快优化完善持续跟进、积极探索、敏捷整合、充分运用先进技术的机制和模式。
银行推进生产力AI化亦需审慎
在AI技术持续快速提升的同时,围绕AI的可解释性、隐私安全、伦理公平以及深度造假等问题依然是需要银行继续探索解决方案的挑战。国家网信办已敏捷发布《生成式人工智能服务管理办法(征求意见稿)》,商业银行发展AI生产力应始终以“合规、安全”为前提。
相比企业级场景,消费级应用场景可允许更多“娱乐性”、具备更高容错空间,因而生成式AI等最新智能技术可能更容易更早地直接融入消费级产品和服务之中。而在前述这些问题得到比较有效的解决之前,生成式AI等最新智能技术的企业级应用价值可能将更多体现在充当生产力辅助工具,武装企业人员,增强其能力,助力其提升工作效率,而非替代。这意味着,对于银行而言,当下可先着眼于如何开展好银行人员(如营销、客服、理财顾问等人员)与生成式AI等前沿智能技术之间的人机协同。比如某银行利用ChatGPT生成信用卡产品的营销文案,渤海银行利用ChatGPT对个人碳账户产品的宣传文案进行优化,都是将ChatGPT的输出作为参考,实际采纳与否、如何采纳仍然坚持由银行人员来把控。
前已提及,在ChatGPT大火之前,已有国内商业银行在着手大模型和生成式AI类技术的相关研究,譬如对面向特定领域规模相对中等的大模型的研究,对金融领域的增量学习、基于混合云架构的协同计算模式的研究,以及对底层的贝叶斯分析、因果推理链、强化学习技术等的研究。与相关合作伙伴也已在共同探索场景应用。同时,尽管类似ChatGPT框架的生成式AI有颠覆传统AI技术细分领域的能力,有向通用AI演进的里程碑式成果,但短期内国内商业银行还是要以传统AI技术为主,逐步向最新技术理性过渡,既不能简单的成为平台企业的技术输出战场,也不固步自封落为被降维打击的对象,整个团队知识体系和技术能力换代提速是近年面临的重要课题。
生成式AI等新一代生产力技术的飞跃式发展,不但将改变人们存储、获取、运用信息及知识的方式,还将加快“元宇宙”等愿景的实现。2023年2月热映的《流浪地球2》预示着,在不远的未来,用一个比较大的模型来完成多种功能,这是人工智能的一个主流的发展趋势。这部电影也在预告,在更遥远的未来,人类的生命不再以肉体生命为标志,随着科技的发展,人类的意识与记忆也可以上传到元宇宙中,最终实现数字世界与现实世界的二元融合,人类可以在元宇宙中获得数字化永生。同时,虚拟人物也可以拥有自主意识。
本篇文章来源于微信公众号: 数字金融网