中科信利语音识别 首页 > 技术产品 > 中科信利语音识别

中科信利连续语音识别引擎基本原理

2.1概述

面对狭小的手机键盘,如何快速地输入文字,如何方便地进行信息搜索;面对海量的音频数据,如何进行快速的检索,从中找到自己想要的信息;面对繁忙的客服业务,是否有可能采用语音机器人来代替人工进行服务。。。。。所有类似这些应用,目前都逐一成为了现实,其背后就是语音识别技术。

中科信利连续语音识别引擎(又称为听写机引擎),针对在线音频流(即来自说话人直接录入的语音,或者电信、广播电视台或其他领域的实时音频信号)或者历史音频数据进行识别,将音频信息自动转化成文字。可覆盖汉语中绝大多数词语,适用于说普通话的任何人群。输出的结果都是汉字,兼容数字、英文字母。

通过将用户的在线语音流实时转化成文本,人们可以方便地在手机上输入文字;或者说一句话(“例如请帮我查下今天的天气”),就可以便捷地通过手机/电视等进行信息查询;通过将历史语音数据资料统统转化成文本,可给用户的媒体档案库查询提供最大便利,无论何时用户想要调出所需的记录,只要通过查找相应文字并简单点击,相关的语音片断就找到了。


语音识别的基本原理介绍

在输入的声音中,首先需要检测出可靠的语音断,排除噪声、音乐等,然后实时或离线送入语音识别解码器进行识别。识别引擎把音频中提取出的语音分成25毫秒一帧,提取有用特征,然后识别出一些类似拼音的结果(声学模型),再根据汉语字词句之间的搭配概率(语言模型),综合判断,得到汉字文本的输出结果。当然,对于候选范围考虑的越多(beam路径越大),识别准确率相对提高,同时消耗的时间也增加了。所以我们有优化加速策略,及时排除不可能的结果,避免系统过慢。用户可以通过调节这些参数来平衡识别识别率和速度,以满足实际应用的需要。最后返回的识别结果,以基本词语为单位给出了多种可能(1到五种)的结果以及可能性大小供用户参考选择。

需要说明的是,对识别正确率以及识别速度来说,输入语音的质量是很重要的。声音采集时应尽可能的排除噪声和音乐、适当增大音量,识别效果就会更好,因此建议用户在录音的时候选用质量较好的采集设备(例如麦克风,或者录音系统等等)。

 

2.2引擎架构和基本流程

下图给出了连续语音识别引擎的基本架构图:

               
1. 语音识别引擎架构图

 

系统流程

语音识别引擎包括音频过滤、语音分段、特征提取、解码、声学模型、语言模型、重估等模块。

引擎基本流程如图1所示,首先对输入的音频数据进行自动分类,过滤掉彩铃、振铃、传真、音乐以及其他噪音,保留有效用户语音数据,然后进行自动分段和端点检测,获取逐句的有效语音数据,然后将其送入特征提取和处理模块提取声学特征,接着对于提取的声学特征进行解码,解码过程利用发音字典、声学模型、语言模型等信息构建WFST搜索空间,在搜索空间内寻找匹配概率最大的最优路径,得到识别结果文本。后续可采用重估模块,增加其他知识源,进一步提升语音识别引擎的准确率。

总之,音频过滤、语音检测、识别、自适应等模块合在一起,最后根据需要格式得到结果,构成了最终的听写机引擎系统。

 

中科信利连续语音识别引擎的技术优势、功能和性能

技术优势

中科信利语音识别核心引擎采用中科信利具有自主知识产权的国际领先的大词汇量连续语音识别技术。主要技术优势包括:


技术评测第一

中科信利连续语音识别引擎,在国内语音技术评测中多次获得第一名,包括国家863评测,中央网信办评测,工信部评测,国家相关部委评测,等等。


识别准确率高

采用PLP/CMN /HLDA/ VTLN等特征提取和处理技术;

采用业界领先的双向长短时记忆(BLSTM)深度神经网络(DNN)声学建模技术;

采用基于序列化的鉴别性模型训练算法;

采用高阶文法和深度神经网络的统计语言模型技术;

采用大量实网语音的训练数据库,适应用户自然口语发音特点和地方口音特点。

积累了大量的分类文本语料,使得语言模型能够较好地覆盖各个领域。


抗噪性好

在噪声环境能够达到较好的识别性能。

采用两遍的维纳滤波技术消除背景噪声;采用混合高斯建模的方法去除垃圾语音(铃声、笑声、咳嗽声等非自然人语音);采用谐波检测技术有效检测语音起始点。

从人的听觉感知及发音机理等现有基础研究成果出发,分析提取具备抗噪性、鉴别性、互补性的特征参数。

在训练数据和声学建模等方面也都充分考虑了自然环境噪声的干扰,并且采用多条件的训练策略,能够显著提高对于噪声的稳健性。


识别速度快

采用基于WFSTCross-word静态搜索空间构建方法,有效地单遍集成各种知识源,将声学模型、声学上下文、发音词典、语言模型等知识源静态编译成状态网络;

通过充分的前向后向归并算法优化网络,大幅度精简了搜索网络空间;

在识别率相当的情况下,比WFST开源工具包解码速度快4倍以上。


适应能力强

采用模型自学习技术,适应多种地区的用户口音。

采用基于最小化句子错误率的鉴别性训练准则进行声学模型自适应,可针对特定地区的实网用户口音数据进行自适应训练优化,以适应不同地区的用户口音。

采用语言模型自适应优化技术,基于实网业务文本数据进行语言模型自适应优化训练,可以适应不同业务领域的语音识别任务。


支持语种多

核心算法与语种无关,即系统支持语种可移植,目前已支持汉语普通话、英语、韩语和粤语等语言的识别。

 

引擎的功能特点和性能

能够自动将连续语音的内容转成文字,支持在线语音流实时识别或离线语音数据识别。

可以实时对语音分段,可自动分辨和过滤背景音乐、噪声等非表义音频段。

识别结果除了文字外,还可同时给出时间索引信息(精确到每个词),有利于进行多媒体信息检索;多候选信息为人工校对提供方便。

引擎支持多线程,支持针对海量数据的并行处理。

引擎提供标准C接口,可供C/C++及各种语言的开发者直接调用。

语音识别平台支持TCP/HTTP/MRCP/等网络协议。

能够提供方便灵活的开发接口,多项参数可调,使用户可以方便灵活地进行应用开发。

语音识别引擎准确率性能如下:

对于朗读类型语音(如:手机语音输入类语音、广播电视新闻语音等),识别准确率在90%以上,经过模型优化训练以后能达到95%

对于自然对话类型语音(如:电话自然交谈语音、电视访谈语音),识别准确率为80%,经过模型优化训练以后能够达到85%

语音识别引擎的速度性能:

在普通台式机上可以达到1倍实时。

并发性:针对普通服务器(Intel Xeon E5 cpu, cpu 八核),可支持32路语音数据流的实时识别(或相当于服务器1小时能够处理32小时的语音数据)

 

引擎应用和配置

4.1 引擎应用模式

中科信利连续语音识别引擎API提供两种应用模式:

一种是在线实时录音,实时检测语音并进行识别。这种方法适合用于需要实时获得说话内容的场合。例如:智能语音导航系统、手机语音助手、会议语音识别系统等应用。

另一种是离线读入录音文件进行识别,可以充分的利用聚类、实时自适应等技术,把语音的内容充分分析,进一步提高识别准确度。这种模式适用于希望取得精确文本内容,而对实时性要求不高的应用。例如:智能语音分析系统,广电语音识别系统,等等。

4.2 引擎资源配置

硬件环境

PC/服务器

CPU: 性能相当于Intel I5 2.2GHZ以上或兼容(推荐Intel E5 cpu),双核

内存:8GB以上(建议为16GB以上),200GB以上硬盘

软件环境

PC/工作站/服务器:WIN XP/Win7/Win Server2008等操作系统,

                  Linux Redhat\CentOS\Suse等操作系统

引擎应用领域

在手机语音输入、智能语音导航、智能语音分析、多媒体信息检索和会议记录系统等领域具有非常广泛的用途。

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X