中科信利语种识别 首页 > 技术产品 > 中科信利语种识别

中科信利语种识别引擎基本原理


对于语种的识别来说,由于一般人来说平时接触的语种有限,本身对于语种的分辨能力就不是很强,所以从人的辨识机理去引申出指导机器进行自动语种识别的线索不太多。通常来说,分辨语种是通过由低到高几层特征来进行的:

声学特征:通常都是频率域和倒谱域的特征参数。例如:美尔标度频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)、移动差分倒谱系数(Shifted Delta CepstralSDC)等。

声韵学特征:通常指的是声音超音段韵律特征,主要包括:音高(基音,Pitch)、音强和音长(Duration),可以利用这些特征以及它们的动态变化进行语种识别。

音位配列学特征:这些特征依据一些语言之间的音节和音素不完全相同,虽然一些语言之间也有一些相同的部分,但是各个语言之间的音节和音素出现的频率各不相同,此外在各个语言中音素和音节出现的前后关系也各不相同。

词法特征:各个语言拥有不同的词根和词表,每种语言都有自己的词表和各自的构词法,因此可以对词或词对,来构建N元文法。

句法特征:句法格式各不相同。在一些欧洲语言中,可能相互之间比较接近,甚至有相同的单词,但是他们的句法是不同的,例如在英语和德语中都有bin这个单词,但是这个单词前后能够接的词是各不相同的。

对于自动的语种识别技术来说,词法和句法特征是语言中更为高层的信息,它们的提取需要目标语种的语音识别器,因此比较难推广到多个语种而且系统复杂度也很大;声韵学特征比较容易受其它因素的影响,如环境噪声会造成韵律特征的提取出现较大的误差,从而影响系统性能。

中科信利的语种识别技术将从声学层特征和音子序列特征的提取,分别采用了声学建模和语法建模的方法,来描述这些特征的空间分布情况,并且以此来构建高层的得分向量空间,通过分类器对得分向量进行划分,以达到自动分类判决的目的,以使得语种识别技术能满足实际的应用需求。

工作原理


1:中科信利语种识别引擎工作原理

如图1所示中科信利语种识别引擎的基本原理图。



预处理


语音分段

       识别引擎的前端分段是采用了贝叶斯信息判据(Bayesian information Criterion, BIC)将语音分段。目标是尽可能的保证每段语音只包含同一个说话人或者同一类非语音,比如:传真音、震铃、音乐。此外,也要保证检测出的说话人或者同一类非语音的虚转折点少。在贝叶斯信息判据的语音分段算法中,我们采用了巴氏(Bhattachayya)距离测度作为相邻平滑窗间距离尺度。在这里,我们假设了相邻窗的语音分布满足独立的高斯分布。然后按一定的步长移动这两个相邻的连续窗口,再计算两窗数据间的距离,从而得到一条距离测度曲线。最后按照一定的门限设置规则找出曲线上可能的声学变化点。


噪声检测

噪声检测模块是针对电话语音数据中包含的传真音、震铃、音乐彩铃等非有效说话人语音。我们采用基于规则的方法来检测传真音和震铃,这些类型的垃圾语音没有明显的协波结构。此外,我们采用了基于统计的方法来检测音乐彩铃噪声,选择32个混合高斯来描述音乐采铃,同时对有效语音也做了建模。经过分类可以较有效的找出彩铃噪声。


特征提取

在语种识别技术中,选取能够表征语种类别特征的有效而可靠的特征参量,是保证识别性能的重要因素之一。语音信号的长时差分频谱特征,包含了语音信号中的语义信息、说话人信息、语种信息。分析语音信号的频谱特性可以用来确认各个目标语种。目前常用的基本频谱特征参数大多数采用的是低层声学特征,例如线性预测倒谱系数(Linear Predictive Cepstrum CoefficientLPCC)、Mel 频率倒谱系数(Mel-Frequency Cepstrum CoefficientMFCC)和感知线性预测系数(Perceptual Linear PredictivePLP)等等。中科信利的语种识别系统采用了频谱特征MFCC,并通过长时的移动差分变换来进行处理。


模式匹配

这里所说的模式匹配,指的是通过建立统计模型,将低层声学特征转换为高层的得分向量特征。前文的介绍中也提到了,可以采用高斯混合模型、支持向量机等建模技术直接对底层的语音特征进行描述;也可以采用音子解码器进行解码,对解码的音子串进行N元语法建模,以此来描述语法层的语种特征。因此我们按照非线性映射的方法不同,将语种识别系统划分为两类:基于声学建模的语种识别系统和基于语法建模的语种识别系统。

针对基于语法建模的语种识别系统,因为引入了音子识别器,所以对音子声学模型的描述显得尤为重要。声学模型是语音识别系统中最关键的部分,声学建模的目标是计算语音特征向量序列和每个发音模板之间的概率。声学模型的设计就是找到最小的识别单元并为之建立HMM模型,它与语言的发音特点密切相关,识别单元的大小对语音训练数据量的大小、识别率和灵活性有较大影响。同时在对识别出的音子建立语法模型时,我们采用了三元文法的语言模型建模方法,并引入了反模型技术以增加各个语种的区分度。

中科信利的语种识别系统中,目标是对各个待识语种建立可靠模型,保证语种识别系统的性能。从建模角度出发,在当前的技术架构中我们采用了基于区分性分类器的支持向量机方法(Support Vector Machine, SVM)。基于支持向量机方法对目标语种与非目标语种之间的分类平面进行建模。支持向量机通常基于最大边界理论,将目标语种与非目标语种在最大边界条件下分开。


判决规则

语种识别系统的输出一般都是对各个目标语种有个打分,这些得分都是通过将测试语音同模型库进行似然概率计算或者进行距离度量所得到。与关键词系统中置信度的概念相同,这些得分正是判决的依据。同说话人识别系统类似,语种识别系统的判决模块采用的是基于假设检验的思想,系统的性能通过门限来调节。在此过程中,语种识别系统可能发生两类错误:一是识别目标语种被错误拒绝;二是非目标语种被错误接受。

中科信利语种识别引擎体系结构

 

中科信利语种识别引擎提供两种应用模式

一种是在PC机调用单机版的应用程序接口,来实现语种识别功能。这种应用模式通常是在离线、并且待处理的语音数据相对较少的情况。通常,这种应用模式比较方便的使用批处理方式,对客户已经保存的数据进行语种检测和分类。

另一种是通过中科信利分布式说话人识别技术处理客户端接口,通过该接口来访问中科信利分布式说话人识别处理环境。这种模式适用于希望直接使用的分布式说话人识别处理能力以同时支持大规模的应用。

{C}{C}



图2:分布式语种识别系统架构

大容量级别应用中,可以将语种识别引擎作为一个服务放在电信网络中。在使用语种识别客户端接口来访问中科信利分布式语种识别处理环境时,需要相关的支持,如上图2所示。语种识别引擎包含如下部分:

许可服务器LicSvr:许可服务器可以对中科信利的软件所需要的许可进行集中管理。

资源管理器RmSvr:资源管理器可以对语种识别资源进行动态管理,实现负载均衡。

语种识别服务器MeldRecSvr:开启任务,识别输入语音的语种信息。

我们称上图2所示的分布式处理系统为一个语种识别处理集群:在同一段网络中,可以有一个或若干个集群。在大规模的应用中,由于网络带宽有限,可能需要划分若干个集群用网络交换机隔离不同集群的网络负荷。

用户可根据应用需求选择合适的应用系统架构。系统所要同时支持的用户数是最重要的因素。在中大规模的应用中,为了系统管理方便和达到性能要求,必须采用分布式语种识别处理方案。

语种识别引擎功能

中科信利语种识别引擎的特点

与发音人无关,与传输信道无关。系统对用户的输入声音进行鉴别和确认,可以来源不同的信道,比如:移动电话中的GSM信道和CDMA信道,以及固话PSTN信道等等。

对语音长度有一定的要求。待识别的测试语音有效长度不小于3秒。

识别率。参考指标:美国国家技术标准局NIST说话人识别评测, 200530秒电话语音测试任务上,等错率指标为1%。其中:电话信道包括(固话,GSMCDMA实网数据,PSTN固话录音);信噪比大于10db

识别速度快,能确保实时识别。说话人识别引擎每次一对一比对,在普通PC上具有0.01倍以上的实时率,并且支持多路并发识别。

操作点调整方便:可按不同的应用需求调整操作点阈值,可以调整虚警率和漏警率,使最终准确率达到最高或使错误率降到最低。

支持自动添加新语种的训练,满足用户扩充。

性能指标

项目

指标

语种识别

语种识别准确率

95%

 

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X