中科信利声纹识别 首页 > 技术产品 > 中科信利声纹识别

中科信利说话人识别基本原理

语音是由发声器官运动产生的。发声器官包括喉、声道和嘴。气流通过喉中的声门,引起声带的周期性振动,形成周期性的脉冲串并进入声道,周期性脉冲的周期称为基音周期。气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,其间的传输通道称为声道。声道是具有某种谐振特性的腔体,当气流通过时,输出的气流频率特性,即声门脉冲串的特性,取决于声道的特性。嘴的作用是完成气流的向外辐射,嘴张开时的形状对语音频谱有影响,但较声道次之。

发声的器官和过程确定了语音中特定说话人信息的形式,其中声道的形状是最重要的生理因素。另外,发声的习惯,包括发声速度、韵律和口音构成了语音中特定说话人信息的后天行为因素。语音中的特定说话人信息构成了说话人识别的基本要素。

说话人识别的基本原理是通过分析人的发声和听觉,为每个人构造一个独一无二的数学模型,由计算机对模型和实际输入的语音进行精确匹配,根据匹配结果辨认出说话人是谁。 ""的生物特性既存在于声谱表面(声道特性),也存在于声音的来源或数个不连续的声音片断。从人的这些特性中提取出有效的音频特征,进行数学建模,并将与之相关的特征数据存进数据库。说话人识别服务器根据输入的音频特征在数据库里进行检索,从而进行精确匹配。

基本工作原理

 


如图1所示中科信利说话人识别引擎的基本原理图。

    预处理

去噪

对输入的模拟语音信号进行量化和采样,获得数字化的语音信号;再将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,提升语音信号的高频部分。

端点检测

采用语音信号的短时能量和短时过零率进行端点检测。语音信号的采样频率为8kHz,每帧数据为20ms,共计160个采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。

特征提取

在语音信号预处理后,接着是特征参数的提取。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征。

说话人识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的说话人识别系统主要依靠较低层次的声学特征进行识别。
 

说话人特征

谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为说话人识别特征。

基音轮廓、共振峰频率带宽及其轨迹 这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。

线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。

反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。

此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。

模式匹配

模式匹配的任务是对训练和识别时的特征模式做相似性匹配。目前针对各种特征而提出的模式匹配方法方法大体可归为下述几类:


概率统计方法

语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别。


动态时间规整方法

说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW


矢量量化方法

矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于说话人识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的RosenbergSoongVQ进行了孤立数字文本的说话人识别研究。这种方法的识别精度较高,且判断速度快。


隐马尔可夫模型方法

隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMUIBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量,目前被广泛应用在文本相关的说话人识别系统上。


人工神经网络方法

人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。

  中科信利把以上分类方法与不同特征进行有机组合显著提高说话人识别的性能,在特征提取的模块中,我们使用MFCCLPCC算法,在模式识别的模块中,我们采用了改进的GMMSVM模型结合的算法。并且根据大量的用户数据,我们采用了PCA分析,将特征向量的线性相关性降到最低,以达到更好的识别效果。

对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关,而说话人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。


中科信利说话人识别引擎体系结构

中科信利说话人识别引擎提供两种应用模式

一种是在PC机及手持式设备上,需要进行用户身份的识别,从而允许或拒绝用户登陆电脑或者使用某些资源,或者进入特定用户的使用界面。同样采用传统的用户名加密码的保护机制,存在着用户名和密码泄密、被窃取、容易遗忘等问题。

说话人识别技术应用到PC以及手持式设备上面,可以无须记忆密码,保护个人信息安全,大大提高系统的安全性,方便用户使用。例如在Mac OS 9操作系统中就增加了说话人识别的功能。用户不需要通过键盘输入用户名和密码,只需要对着电脑说一句话就可以进行登陆。

另一种是通过中科信利分布式说话人识别技术处理客户端接口,通过该接口来访问中科信利分布式说话人识别处理环境。这种模式适用于希望直接使用的分布式说话人识别处理能力以同时支持大规模的应用。


图 2:分布式说话人识别系统架构


大容量级别应用中,可以将说话人识别引擎作为一个服务放在电信网络中。在使用说话人识别客户端接口来访问中科信利分布式说话人识别处理环境时,需要相关的支持,如上图2所示。说话人识别引擎包含如下部分:

许可服务器LicSvr:许可服务器可以对中科信利的软件所需要的许可进行集中管理。

资源管理器RmSvr:资源管理器可以对说话人识别资源进行动态管理,实现负载均衡。

说话人识别服务器MeldRecSvr:进行说话人识别处理。

我们称上图2所示的分布式处理系统为一个说话人识别处理集群:在同一段网络中,可以有一个或若干个集群。在大规模的应用中,由于网络带宽有限,可能需要划分若干个集群用网络交换机隔离不同集群的网络负荷。

用户可根据应用需求选择合适的应用系统架构。系统所要同时支持的用户数是最重要的因素。在中大规模的应用中,为了系统管理方便和达到性能要求,必须采用分布式说话人识别处理方案。

 

中科信利说话人识别引擎的功能

中科信利说话人识别引擎的特点

对说话人识别与所说的文本和语言无关性。用户训练系统和系统对用户的声音进行鉴别和确认,可以是完全不同的文本,完全不同的语言。

对语音长度有一定的要求。训练语音的有效长度不小于60秒,使用时的测试语音有效长度不小于3秒,并可不断累积调整声音波形模型精度;用户训练系统,让其记住其声音波形,只需要几秒种的声音;而在识别时,系统只要获得被测试人几秒的声音,就可以进行说话人识别。

识别率。参考指标:美国国家技术标准局NIST说话人识别评测, 2006年电话语音 “1side1side”测试任务上,等错率指标为4%。其中:电话信道包括(固话,GSMCDMA实网数据);信噪比大于10db;支持夸语种。

识别速度快,能确保实时识别。说话人识别引擎每次一对一比对,在普通PC上具有0.001倍以上的实时率,并且支持多路并发识别。

操作点调整方便:可按不同的应用需求调整操作点阈值,可以调整虚警率和漏警率,使最终准确率达到最高或使错误率降到最低。

说话人识别的模型存储空间小:每个人的声音波形模型存储空间小于100KB

高安全性,不担心他人的录音顶替使用:如果别人用各类录音设备(比如录音机、MP3、录音电话、窃听器、高精度的专业录音系统等)事先录下您的声音,即使录音设备先进、录音效果非常好,在把录音回放尝试进行声音波形的身份认证时,声音信号经过模拟到数字、再从数字到模拟的两次信号转换过程,声音的频谱就会有明显的衰减和失真,这种失真很容易被声音波形加密锁的认证程序分辩出来。所以依靠录音去尝试登录,不能通过说话人识别认证。

 

性能指标

项目

指标

说话人识别

说话人识别准确率

95%

 

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X