• Latest
  • Trending

兴业银行新专利:以深度学习模型驱动数字人肢体动作生成

2023-04-12
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

2025-07-29
Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投

2025-07-18
头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

2025-07-17
刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

2025-07-16

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10
Retail
星期日, 8月 3, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

兴业银行新专利:以深度学习模型驱动数字人肢体动作生成

数字金融网 by 数字金融网
2023-04-12
in 其它分类
A A
0

推荐可能喜欢的

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
4月7日,兴业银行和兴业数金于2022年9月30日申请的一项名为“基于深度学习模型驱动数字人肢体动作生成方法及系统”的专利公布,其涉及人工智能技术领域。
摘要显示,(步骤S1)获取深度学习信息和音视频数据;(步骤S2)将音视频数据分离处理,并根据深度学习信息得到肢体动作分类数据和文本数据;(步骤S3)将肢体动作分类数据和文本数据一一匹配,并建立文本和肢体动作对应的肢体动作标签相关联的二元组存入数据库中;(步骤S4)数字人播报时,判断是否能在数据库中查询到文本对应的肢体动作标签,若是,则用该肢体动作标签驱动数字人展示对应的肢体动作;(步骤S5)若否,则根据语义相似性将文本与二元组中对应的肢体动作标签关联,驱动数字人展示对应的肢体动作,并更新数据库。
更具体的,深度学习信息包括深度学习模型,深度学习模型是通过卷积神经网络,建立多层级的卷积神经网络模型并训练卷积神经网络模型得到的。多层级的卷积神经网络模型具有多个卷积层和池化层;深度学习模型可进行肢体动作分类。
其中,步骤S1包括:
1、获取真人播报图片数据,并对含有肢体动作的真人播报图片标注对应的肢体动作数据; 
2、构建卷积神经网络模型,并初步设置模型中各个层级之间预训练的模型参数的权重; 
3、根据标注的肢体动作数据训练卷积神经网络模型,其中,以含有肢体动作的真人播报图片作为卷积神经网络模型的输入,以肢体动作数据作为卷积神经网络模型的输出; 
4、将训练好的卷积神经网络模型在样本数据上进行模型的验证后确定具有良好分类效果的模型参数,从而得到深度学习模型。 
步骤S2包括:
1、获取播报视频并分离出音频,从视频中进行抽帧得到关键帧图片; 
2、通过语音识别从音频中识别出文本数据; 
3、通过深度学习信息中训练后的深度学习信息模型对抽帧得到的关键帧图片进行肢体动作分类,得到肢体动作分类数据。 
步骤S5包括: 
1、使用词向量计算未查询到的文本与在数据库中已有关联关系的文本的相似度; 
2、将未查询到的文本与计算相似度得到的文本对应的肢体动作标签关联,得到更新后的二元组; 
3、肢体动作标签驱动数字人展示相应的肢体动作,同时将更新后的二元组存储到数据库中。 
该发明的背景为,目前的数字人技术可根据预先配置好的话术生成语音播报和相应的数字人形象展现。但是,缺少根据播报文本自动生成与之相对应的肢体动作的能力,增加与播报内容相匹配的肢体动作可极大增强语言的表达能力。目前大多数的解决方案是在数字人播报时采用随机的肢体动作序列或在配置的播报话术固定位置插入预先约定好的肢体动作标记,此种方案需要人工预先配置,而播报的话术文本和对应的肢体动作没有明确的对应关系,配置人员只能根据自己的感觉进行肢体动作的配置,不同的配置人员可能会有不同配置效果。并且当面对需要实时播报的话术时则无法预先设置相应的肢体动作标记。 
与现有技术相比,该发明的有益效果在于: 
一是训练了一个可进行肢体动作分类的深度学习模型,在数字人播报时,通过文本和肢体动作的关联关系,可自适应地指导数字人肢体动作生成,并对识别效果进行自动完善,提高数字人肢体动作的多样性和感官性。 
二是为数字人引入符合播报文本的肢体动作手段,增加多模态数字人的表达能力,使数字人更拟人化,同时增加人机交互友好性。 
三是根据公开的视频数据自动建立文本和肢体动作标签的对应关系,解决以往需要大量的人工标注的问题,降低成本的同时提高质量并增强最终呈现的效果。
来源:银行科技研究社

精彩推荐



END

行业知识交流分享,结识扩展人脉圈层
公众号后台回复【金融科技】
可受邀加入【数字金融交流群】

本篇文章来源于微信公众号: 数字金融网

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?
  • 数字化深水区里,中国企业到底需要怎样的AI应用底座?
  • 重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合
  • Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工
  • 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
  • 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
  • 特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投
  • 头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号