工商银行声纹识别专利公布，可对多语种进行有效识别

海外炸场的开源狠角色，MoE + 原生智能体，国产最强实锤？

2025-08-01

数字化深水区里，中国企业到底需要怎样的AI应用底座？

2025-07-29

4月21日，工商银行一项名为“声纹识别方法及装置、电子设备、存储介质”的专利公布，其申请于2022年11月29日。

摘要显示，采集用户对象的声音，得到待识别语音；（步骤D，下有详述）将待识别语音输入至目标声纹识别模型，输出声纹识别结果，其中，目标声纹识别模型的训练集包含有多语种的训练样本；基于声纹识别结果，分析待识别语音的语音特征，其中，语音特征至少包括：声纹所属语种和语音匹配度，语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库；在待识别语音属于指定声纹库的情况下，确定用户对象属于目标机构的员工。

更具体的，采集多语种的N个初始训练样本，其中，N为大于等于2的正整数，每个初始训练样本对应有样本权重，初始训练样本之间所包含的样本数不相同；（步骤A，下有详述）根据样本权重，对N个初始训练样本进行重采样处理，得到训练样本集；（步骤B，下有详述）采用训练样本集分别训练得到目标声纹识别模型，其中，目标声纹识别模型的类型包括：文本相关声纹识别模型和文本无关声纹识别模型。

（步骤A）具体包括：对N个初始训练样本的样本权重进行累加，得到目标数组；采用二分查找策略，对目标数组进行区间划分，并调整指定语种的初始训练样本分布，得到训练样本集。

（步骤B）具体包括：在对训练样本集中的音频数据进行预处理后，（步骤C，下有详述）提取音频数据的梅尔滤波器组能量特征；将梅尔滤波器组能量特征输入至第一类神经网络模型，得到文本相关声纹识别模型；将梅尔滤波器组能量特征输入至第二类神经网络模型，得到文本无关声纹识别模型。

（步骤C）具体包括：采用预设高通滤波器对将训练样本集中的音频数据进行预加重处理；基于预设分帧帧长和预设分帧步长，对预加重处理后的音频数据进行分帧处理和加窗处理；将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换，得到对应于每帧音频数据的频谱；将频谱输入至M个梅尔尺度的三角形滤波器，得到梅尔滤波器组能量特征，其中，M为大于等于2的正整数。

而上述第一类神经网络模型和第二类神经网络模型至少包括：多个长短期记忆网络层、线性变换层，每个长短期记忆网络层至少包括：记忆单元和投影层，其中，第一类神经网络模型的记忆单元数量和线性变换层的的数量都少于第二类神经网络。

（步骤D）具体包括：分析待识别语音对应的音频数据是否为与文本相关的音频数据；在待识别语音对应的音频数据是与文本相关的音频数据的情况下，分析文本相关声纹识别模型作为目标声纹识别模型的可信度；在可信度大于预设可信度阈值的情况下，采用文本相关声纹识别模型识别待识别语音，输出声纹识别结果；在可信度小于等于预设可信度阈值的情况下，采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

另外，在待识别语音对应的音频数据是与文本无关的音频数据的情况下，也采用文本无关声纹识别模型识别待识别语音，输出声纹识别结果。

该发明的背景为，声纹特征识别以其唯一性和稳定性等特点广泛应用于证券、金融等领域。近年来随着人工智能和大数据的快速发展，声纹识别系统主要利用深度学习算法建模进行特征提取和特征比对。

但相关技术中的声纹识别系统仍存在一些弊端：

一是仅仅使用单一类语言训练模型，对于许多跨国企业而言，许多技术和产品的开发都需要考虑国际化应用，例如，许多大型金融机构在全球多国都设有分行，在应用声纹识别技术时都需要为当地的语言、乃至方言开发专门的声纹识别模型，然而，若对于每种语言分别训练一个模型，会耗费大量的人力和物力，包括研发人员的精力，以及模型训练所需要的硬件计算设备、电力消耗等。

二是数据集的大小也是影响模型性能的重要因素，对于一些小语种类的语言，数据获取较难，训练数据少导致声纹识别模型/系统的性能较差。

该发明至少解决相关技术中，声纹识别系统仅仅采用单一类语言训练模型进行声纹识别，而不能对多语种进行有效识别的技术问题。

精彩推荐

END

行业知识交流分享，结识扩展人脉圈层

公众号后台回复【数字金融】

可受邀加入【数字金融交流群】

本篇文章来源于微信公众号: 数字金融网