兴业银行新专利：以深度学习模型驱动数字人肢体动作生成

海外炸场的开源狠角色，MoE + 原生智能体，国产最强实锤？

2025-08-01

数字化深水区里，中国企业到底需要怎样的AI应用底座？

2025-07-29

4月7日，兴业银行和兴业数金于2022年9月30日申请的一项名为“基于深度学习模型驱动数字人肢体动作生成方法及系统”的专利公布，其涉及人工智能技术领域。

摘要显示，（步骤S1）获取深度学习信息和音视频数据；（步骤S2）将音视频数据分离处理，并根据深度学习信息得到肢体动作分类数据和文本数据；（步骤S3）将肢体动作分类数据和文本数据一一匹配，并建立文本和肢体动作对应的肢体动作标签相关联的二元组存入数据库中；（步骤S4）数字人播报时，判断是否能在数据库中查询到文本对应的肢体动作标签，若是，则用该肢体动作标签驱动数字人展示对应的肢体动作；（步骤S5）若否，则根据语义相似性将文本与二元组中对应的肢体动作标签关联，驱动数字人展示对应的肢体动作，并更新数据库。

更具体的，深度学习信息包括深度学习模型，深度学习模型是通过卷积神经网络，建立多层级的卷积神经网络模型并训练卷积神经网络模型得到的。多层级的卷积神经网络模型具有多个卷积层和池化层；深度学习模型可进行肢体动作分类。

其中，步骤S1包括：

1、获取真人播报图片数据，并对含有肢体动作的真人播报图片标注对应的肢体动作数据；

2、构建卷积神经网络模型，并初步设置模型中各个层级之间预训练的模型参数的权重；

3、根据标注的肢体动作数据训练卷积神经网络模型，其中，以含有肢体动作的真人播报图片作为卷积神经网络模型的输入，以肢体动作数据作为卷积神经网络模型的输出；

4、将训练好的卷积神经网络模型在样本数据上进行模型的验证后确定具有良好分类效果的模型参数，从而得到深度学习模型。

步骤S2包括：

1、获取播报视频并分离出音频，从视频中进行抽帧得到关键帧图片；

2、通过语音识别从音频中识别出文本数据；

3、通过深度学习信息中训练后的深度学习信息模型对抽帧得到的关键帧图片进行肢体动作分类，得到肢体动作分类数据。

步骤S5包括：

1、使用词向量计算未查询到的文本与在数据库中已有关联关系的文本的相似度；

2、将未查询到的文本与计算相似度得到的文本对应的肢体动作标签关联，得到更新后的二元组；

3、肢体动作标签驱动数字人展示相应的肢体动作，同时将更新后的二元组存储到数据库中。

该发明的背景为，目前的数字人技术可根据预先配置好的话术生成语音播报和相应的数字人形象展现。但是，缺少根据播报文本自动生成与之相对应的肢体动作的能力，增加与播报内容相匹配的肢体动作可极大增强语言的表达能力。目前大多数的解决方案是在数字人播报时采用随机的肢体动作序列或在配置的播报话术固定位置插入预先约定好的肢体动作标记，此种方案需要人工预先配置，而播报的话术文本和对应的肢体动作没有明确的对应关系，配置人员只能根据自己的感觉进行肢体动作的配置，不同的配置人员可能会有不同配置效果。并且当面对需要实时播报的话术时则无法预先设置相应的肢体动作标记。

与现有技术相比，该发明的有益效果在于：

一是训练了一个可进行肢体动作分类的深度学习模型，在数字人播报时，通过文本和肢体动作的关联关系，可自适应地指导数字人肢体动作生成，并对识别效果进行自动完善，提高数字人肢体动作的多样性和感官性。

二是为数字人引入符合播报文本的肢体动作手段，增加多模态数字人的表达能力，使数字人更拟人化，同时增加人机交互友好性。

三是根据公开的视频数据自动建立文本和肢体动作标签的对应关系，解决以往需要大量的人工标注的问题，降低成本的同时提高质量并增强最终呈现的效果。

来源：银行科技研究社

精彩推荐

END

行业知识交流分享，结识扩展人脉圈层

公众号后台回复【金融科技】

可受邀加入【数字金融交流群】

本篇文章来源于微信公众号: 数字金融网