• Latest
  • Trending

工商银行声纹识别专利公布,可对多语种进行有效识别

2023-04-24
海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合

2025-07-29
Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工

2025-07-25
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建

2025-07-23
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一

2025-07-22

特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投

2025-07-18
头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

2025-07-17
刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

刚刚,OpenAI发布CoT监控,增强AI Agent自主能力

2025-07-16

碾压DeepSeek V3!开源AI Agent专属模型,1万亿参数、工具使用能力超强

2025-07-14

英伟达市值突破4万亿美元!特朗普将在白宫接见黄仁勋

2025-07-11
AI硬件新纪元!Jony Ive正式加入OpenAI

AI硬件新纪元!Jony Ive正式加入OpenAI

2025-07-10
Retail
星期六, 8月 2, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

工商银行声纹识别专利公布,可对多语种进行有效识别

数字金融网 by 数字金融网
2023-04-24
in 其它分类
A A
0

推荐可能喜欢的

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?

2025-08-01
数字化深水区里,中国企业到底需要怎样的AI应用底座?

数字化深水区里,中国企业到底需要怎样的AI应用底座?

2025-07-29
4月21日,工商银行一项名为“声纹识别方法及装置、电子设备、存储介质”的专利公布,其申请于2022年11月29日。
摘要显示,采集用户对象的声音,得到待识别语音;(步骤D,下有详述)将待识别语音输入至目标声纹识别模型,输出声纹识别结果,其中,目标声纹识别模型的训练集包含有多语种的训练样本;基于声纹识别结果,分析待识别语音的语音特征,其中,语音特征至少包括:声纹所属语种和语音匹配度,语音匹配度用于指示语音特征所对应的待识别语音是否属于指定声纹库;在待识别语音属于指定声纹库的情况下,确定用户对象属于目标机构的员工。
更具体的,采集多语种的N个初始训练样本,其中,N为大于等于2的正整数,每个初始训练样本对应有样本权重,初始训练样本之间所包含的样本数不相同;(步骤A,下有详述)根据样本权重,对N个初始训练样本进行重采样处理,得到训练样本集;(步骤B,下有详述)采用训练样本集分别训练得到目标声纹识别模型,其中,目标声纹识别模型的类型包括:文本相关声纹识别模型和文本无关声纹识别模型。
(步骤A)具体包括:对N个初始训练样本的样本权重进行累加,得到目标数组;采用二分查找策略,对目标数组进行区间划分,并调整指定语种的初始训练样本分布,得到训练样本集。
(步骤B)具体包括:在对训练样本集中的音频数据进行预处理后,(步骤C,下有详述)提取音频数据的梅尔滤波器组能量特征;将梅尔滤波器组能量特征输入至第一类神经网络模型,得到文本相关声纹识别模型;将梅尔滤波器组能量特征输入至第二类神经网络模型,得到文本无关声纹识别模型。
(步骤C)具体包括:采用预设高通滤波器对将训练样本集中的音频数据进行预加重处理;基于预设分帧帧长和预设分帧步长,对预加重处理后的音频数据进行分帧处理和加窗处理;将分帧处理和加窗处理后的各帧音频数据进行傅里叶变换,得到对应于每帧音频数据的频谱;将频谱输入至M个梅尔尺度的三角形滤波器,得到梅尔滤波器组能量特征,其中,M为大于等于2的正整数。
而上述第一类神经网络模型和第二类神经网络模型至少包括:多个长短期记忆网络层、线性变换层,每个长短期记忆网络层至少包括:记忆单元和投影层,其中,第一类神经网络模型的记忆单元数量和线性变换层的的数量都少于第二类神经网络。
(步骤D)具体包括:分析待识别语音对应的音频数据是否为与文本相关的音频数据;在待识别语音对应的音频数据是与文本相关的音频数据的情况下,分析文本相关声纹识别模型作为目标声纹识别模型的可信度;在可信度大于预设可信度阈值的情况下,采用文本相关声纹识别模型识别待识别语音,输出声纹识别结果;在可信度小于等于预设可信度阈值的情况下,采用文本无关声纹识别模型识别待识别语音,输出声纹识别结果。
另外,在待识别语音对应的音频数据是与文本无关的音频数据的情况下,也采用文本无关声纹识别模型识别待识别语音,输出声纹识别结果。
该发明的背景为,声纹特征识别以其唯一性和稳定性等特点广泛应用于证券、金融等领域。近年来随着人工智能和大数据的快速发展,声纹识别系统主要利用深度学习算法建模进行特征提取和特征比对。
但相关技术中的声纹识别系统仍存在一些弊端:
一是仅仅使用单一类语言训练模型,对于许多跨国企业而言,许多技术和产品的开发都需要考虑国际化应用,例如,许多大型金融机构在全球多国都设有分行,在应用声纹识别技术时都需要为当地的语言、乃至方言开发专门的声纹识别模型,然而,若对于每种语言分别训练一个模型,会耗费大量的人力和物力,包括研发人员的精力,以及模型训练所需要的硬件计算设备、电力消耗等。
二是数据集的大小也是影响模型性能的重要因素,对于一些小语种类的语言,数据获取较难,训练数据少导致声纹识别模型/系统的性能较差。
该发明至少解决相关技术中,声纹识别系统仅仅采用单一类语言训练模型进行声纹识别,而不能对多语种进行有效识别的技术问题。

精彩推荐



END

行业知识交流分享,结识扩展人脉圈层
公众号后台回复【数字金融】
可受邀加入【数字金融交流群】

本篇文章来源于微信公众号: 数字金融网

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 海外炸场的开源狠角色,MoE + 原生智能体,国产最强实锤?
  • 数字化深水区里,中国企业到底需要怎样的AI应用底座?
  • 重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合
  • Resume Builder报告:多数经理使用AI来决定,晋升或解雇员工
  • 200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
  • 碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
  • 特朗普宣布900亿美元建设AI中心,谷歌、黑石集团等领投
  • 头部企业都在学!7月30日上海线下,零基础也能上手的 AI 工具实战课

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号