• Latest
  • Trending

兴业银行新专利:以深度学习模型驱动数字人肢体动作生成

2023-04-12

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07

OpenAI大变革!继续与微软等,以非营利模式冲击AGI

2025-05-06
官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

官方出品!OpenAI教你用Agent SDK,10分钟开发智能体

2025-04-21
刚刚,o4-mini发布!OpenAI史上最强、最智能模型

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

2025-04-17
67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

2025-04-15
对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

2025-04-14

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

2025-04-10
AI岗位超8成,阿里国际启动大规模校招

AI岗位超8成,阿里国际启动大规模校招

2025-04-07
1000万上下文!新开源多模态大模型,单个GPU就能运行

1000万上下文!新开源多模态大模型,单个GPU就能运行

2025-04-07
Retail
星期五, 5月 16, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

兴业银行新专利:以深度学习模型驱动数字人肢体动作生成

数字金融网 by 数字金融网
2023-04-12
in 其它分类
A A
0

推荐可能喜欢的

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
4月7日,兴业银行和兴业数金于2022年9月30日申请的一项名为“基于深度学习模型驱动数字人肢体动作生成方法及系统”的专利公布,其涉及人工智能技术领域。
摘要显示,(步骤S1)获取深度学习信息和音视频数据;(步骤S2)将音视频数据分离处理,并根据深度学习信息得到肢体动作分类数据和文本数据;(步骤S3)将肢体动作分类数据和文本数据一一匹配,并建立文本和肢体动作对应的肢体动作标签相关联的二元组存入数据库中;(步骤S4)数字人播报时,判断是否能在数据库中查询到文本对应的肢体动作标签,若是,则用该肢体动作标签驱动数字人展示对应的肢体动作;(步骤S5)若否,则根据语义相似性将文本与二元组中对应的肢体动作标签关联,驱动数字人展示对应的肢体动作,并更新数据库。
更具体的,深度学习信息包括深度学习模型,深度学习模型是通过卷积神经网络,建立多层级的卷积神经网络模型并训练卷积神经网络模型得到的。多层级的卷积神经网络模型具有多个卷积层和池化层;深度学习模型可进行肢体动作分类。
其中,步骤S1包括:
1、获取真人播报图片数据,并对含有肢体动作的真人播报图片标注对应的肢体动作数据; 
2、构建卷积神经网络模型,并初步设置模型中各个层级之间预训练的模型参数的权重; 
3、根据标注的肢体动作数据训练卷积神经网络模型,其中,以含有肢体动作的真人播报图片作为卷积神经网络模型的输入,以肢体动作数据作为卷积神经网络模型的输出; 
4、将训练好的卷积神经网络模型在样本数据上进行模型的验证后确定具有良好分类效果的模型参数,从而得到深度学习模型。 
步骤S2包括:
1、获取播报视频并分离出音频,从视频中进行抽帧得到关键帧图片; 
2、通过语音识别从音频中识别出文本数据; 
3、通过深度学习信息中训练后的深度学习信息模型对抽帧得到的关键帧图片进行肢体动作分类,得到肢体动作分类数据。 
步骤S5包括: 
1、使用词向量计算未查询到的文本与在数据库中已有关联关系的文本的相似度; 
2、将未查询到的文本与计算相似度得到的文本对应的肢体动作标签关联,得到更新后的二元组; 
3、肢体动作标签驱动数字人展示相应的肢体动作,同时将更新后的二元组存储到数据库中。 
该发明的背景为,目前的数字人技术可根据预先配置好的话术生成语音播报和相应的数字人形象展现。但是,缺少根据播报文本自动生成与之相对应的肢体动作的能力,增加与播报内容相匹配的肢体动作可极大增强语言的表达能力。目前大多数的解决方案是在数字人播报时采用随机的肢体动作序列或在配置的播报话术固定位置插入预先约定好的肢体动作标记,此种方案需要人工预先配置,而播报的话术文本和对应的肢体动作没有明确的对应关系,配置人员只能根据自己的感觉进行肢体动作的配置,不同的配置人员可能会有不同配置效果。并且当面对需要实时播报的话术时则无法预先设置相应的肢体动作标记。 
与现有技术相比,该发明的有益效果在于: 
一是训练了一个可进行肢体动作分类的深度学习模型,在数字人播报时,通过文本和肢体动作的关联关系,可自适应地指导数字人肢体动作生成,并对识别效果进行自动完善,提高数字人肢体动作的多样性和感官性。 
二是为数字人引入符合播报文本的肢体动作手段,增加多模态数字人的表达能力,使数字人更拟人化,同时增加人机交互友好性。 
三是根据公开的视频数据自动建立文本和肢体动作标签的对应关系,解决以往需要大量的人工标注的问题,降低成本的同时提高质量并增强最终呈现的效果。
来源:银行科技研究社

精彩推荐



END

行业知识交流分享,结识扩展人脉圈层
公众号后台回复【金融科技】
可受邀加入【数字金融交流群】

本篇文章来源于微信公众号: 数字金融网

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能
  • 解密NVIDIA团队的代理式AI技术实践
  • 突发!特朗普准备取消AI芯片出口限制
  • 微软将大量AI功能、智能体集成在Windows11,全民AI时代来了
  • OpenAI大变革!继续与微软等,以非营利模式冲击AGI
  • 官方出品!OpenAI教你用Agent SDK,10分钟开发智能体
  • 刚刚,o4-mini发布!OpenAI史上最强、最智能模型
  • 67% Lazada商家称AI显著促进增长,Lazada成东南亚电商AI领军人

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号