中科信利关键词检测 首页 > 技术产品 > 中科信利关键词检测

中科信利关键词检测引擎的基本原理

在关键词检测的很多实际应用中,输入的信号是各种信道的自然对话语音数据。一般来说,由于声学模型和语音数据的不匹配,关键词检测的性能会急剧地下降。为了解决这个问题,中科信利研发的关键词检测系统采用了一种基于混淆网络的搜索策略。与以往不同的是,解码是在整个声学空间上进行的,而不仅仅是关键词所构成的声学空间,解码器输出不仅是首选结果,而是一种混淆网络的数据结构。通过统计训练数据中的发音变异情况,我们得到音素间的混淆度。利用这种音素间的混淆度和关键词列表,我们就可以从解码器输出的混淆网络中搜索获取最有可能出现的关键词。这种方法大大提高了关键词的识别率,但同时也引入了一定的虚警。最后,我们采用了可靠的置信度策略来有效地降低了虚警。

 

2:中科信利关键词检测引擎的整体框架

2给出了中科信利关键词(语音)检测引擎的整体框架。它由语音识别、索引和检索三个模块组成。下面分别说明。

1.1 语音识别模块

首先,输入的实时语音流或语音文档,经过语音分段模块处理后,产生分段信息和语音片断;其次,各语音片断经连续语音识别引擎进行识别产生网格结构;最后,网格结构经分解对齐后产生音节混淆网络。

识别模块是整个系统中计算量最大的部分。具体又分为如下步骤:

1.1.1 在线语音流的获取

在线方式要求一边获取用户的语音,一边提交识别引擎进行识别。系统每间隔一定的时间将用户的语音提交识别器进行识别。该方式要求配置语音采集的硬件,如电话语音卡。这些硬件不仅要有很高的处理能力,而且需要有很好的回声消除功能。否则提示语音和用户的语音混在一起将导致识别率严重下降。

在获取语音流的同时,进行端点检测:以30帧为一个窗口,取开始的30帧作为背景噪音,判断输入某个窗口内的语音能量和开始的背景噪音之比大于某个域值,其能量总和大于某个域值,并且有总计m帧语音大于某个最小的语音域值。

1.1.2 前端处理和特征提取

前端预处理器用来对输入的音频数据做预处理,例如编码格式(包括采样率)转换、音频分段、特征提取等。本系统采用12维MF-PLP特征参数及其一阶差分、二阶差分,再加上归一化能量及其一阶二阶差分,共39维特征。每一语音帧长度25毫秒,帧移10毫秒,并采用均值、方差规整技术作通道补偿。

1.1.3 解码器

解码器的一个核心部分就是搜索空间的构建。以往的关键词检测系统,通常是由输入的关键词表以及废料模型生成用作识别的搜索空间。本文采用图结构、以状态音素作为图节点,构造了一个基于全部汉语音节词的搜索空间。由于不同的三音子(Triphone)可共享某一相同状态音素,系统采用一种前向、后向归并算法,在以Triphone为单元的音素上下文描述中提取这种共享模式,并利用图结构有效表示这种共享结构,从而生成了紧致的可精细描述声学上下文的搜索空间。在特征流送入解码器后,采用基于Viterbi算法和令牌传播的搜索策略以及预测剪枝、层次相关的剪枝算法等,产生最优的候选音节网格,然后通过混淆网络产生算法,生成相应的混淆网络。

1.2 索引模块

分段信息和音节混淆网络通过前向索引产生前向索引文件。前向索引文件再经逆向索引产生逆向索引文件。采用逆向索引的数据结构,是为了方便和减速后续的搜索过程。

1.3 检索模块

给定的关键词首先通过字音转换产生音节序列,再通过应用音节混淆矩阵,采用中科信利在国际上首次提出的基于混淆网络和模糊动态规划的关键词检索策略, 在逆向索引文件中进行快速模糊匹配,产生候选关键词列表。

1.3.1 关键词置信度计算

置信度计算器用来拒识前面模块中产生的错误的关键词。根据可能关键词的置信度量,判决是否为关键词,若是则接受,否则拒绝。在此过程中,检索引擎可能发生两类错误:一是识别正确的关键词被错误拒绝;二是识别错误的关键词被错误接受。


中科信利关键词检测引擎的功能

2.1 关键词检测引擎的特点和性能

关键词检测引擎与说话人无关。

支持电话信道、广播电视信道、互联网信道等各类信道数据。

支持自然对话语音(如:电话聊天,广播电视访谈等)。

关键词列表可由用户自主定义和修改。

检测结果不但包含关键词在语音流或音频文件中出现的位置,还包括相应的置信度得分。

操作点调整方便,可按不同的应用需求调整操作点阈值,使系统性能根据应用需求达到最优。

核心算法支持海量并行处理。

引擎准确率性能:

ü 对于朗读类型语音(如:用户普通话语音、广播电视新闻等),等错率在10%左右。

ü 对于通用的自然对话类型语音(如: 电话自然交谈应用),等错率在25%~30%左右。

ü 对于客服类语音,等错率在15%~20%左右。

注:等错率:虚警率和漏警率相等的情况。

引擎速度性能:

ü 引擎处理速度快,适应于大规模数据流的自动监测。

ü 单台服务器(Intel Xeon55** cpu, cpu四核),可并发支持30路语音流的处理(相当于每小时离线处理30小时的语音数据)

引擎函数接口简单,用户可以方便灵活地应用开发。

在实际应用的时候,用户可以采用如下两种运行模式:

ü 第一种,实时的关键词检测:即对实时语音流,直接进行前面介绍的全部关键词检索步骤,得到检索结果。

ü 第二种,首先对大量语音数据(实时语音流或语音文件)进行语音识别和索引,得到索引文件。当上述数据处理完后,再在索引文件上进行检索。这种运行模式的特点是:关键词可以多次任意设置; 识别过程可以离线进行,例如可以在晚上等非工作时间; 检索速度可以非常快,可达到1毫秒每关键词每小时数据。

中科信利的开发工具包,同时支持上述两种开发模式。

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X