中科信利语音合成 首页 > 技术产品 > 中科信利语音合成

中科信利语音合成系统是自主研发的中英文混读语音合成系统。该系统以先进的大语料语音合成技术为基础,能够实时、准确的将文本信息转换为自然、流畅的语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,符合信息时代海量数据、动态更新和个性化查询的需求。

TTS引擎系统架构

中科信利TTS多语种语音合成平台采用开放式架构设计方法,对外提供一套统一的编程接口,对内通过多语种引擎管理模块,完成多语种引擎的自动挂接与语音合成工作,而且可以很方便地添加其他语种的引擎。

TTS技术指标

项目 指标
支持操作系统 Windows XP/Win7/Win8/WinServer2008,Linux
支持字符集 支持 GB2312, GBK, GB18030,Big5,Shift-JIS, ISO 8859-1, Unicode,, Unicode Big Endian, UTF-8
支持的音库 XiaoNan、XiaoKun 等 9 种音库
支持的文本类型 普通的文本文件
支持的文本控制语言 支持 SSML 和 S3ML 标记语言
支持的音频格式 支持 PCM、Wave、aLaw/uLaw、Mp3,Dialogic ADPAM
支持音量调节 支持,默认 0-9
支持语速调节 支持,默认 0-9
支持基频调节 支持,默认 0-9(这个调节音色)
支持中英文混读 支持
数字读法 支持电报方式和数目方式
英文读法 支持英文方式,字母方式,字母和录音单词方式
标记识别 支持
推荐服务器配置 Xeon 2.4G*2, 1G Ram, SCSI 18G,, 100M 交换网
合成效率(在上述服务器配置下) 单线达到 663字/秒,10 线达到 1780 字/秒,30 线达到 1768 字/秒,60 线达到 1735 字/秒

中科信利语音合成引擎的功能和特点

 

2.1 语音合成引擎的关键技术

1.高度智能的文本处理能力

中科信利语音合成引擎基于先进的统计学习和数据挖掘的方法,建立统计模型对文本进行节奏预测和对多音字、数字和符号进行处理,使其在统计意义上达到最优。


 

2、高自然度的节奏和韵律预测

节奏和韵律是合成语音是否具有高自然度的关键所在。中科信利语音合成采用世界领先的统计学习方法对输入文本进行节奏预测和韵律分析预测,其中包括韵律词、韵律短语边界划分,词重音的分布,各个语音单元的基频、时长等。合成语音节奏感清晰明朗,韵律极为自然,接近真人发音的自然度。

3、多语种、多发音人

中科信利语音合成提供了多语种的合成引擎,每个语种又提供多风格和音色的发音人,以满足各种不同的应用需求。


 

4、灵活的播放调节功能和多种特殊效果

中科信利语音合成支持对合成语音进行灵活的调节,如语速,音调。另外,还支持多特殊的音效,如低沉音,机器音和沙哑音等。极大的丰富了语音播报的娱乐性和趣味性。



5、韵律标注

在有些应用场合下,用户希望可以不用 中科信利语音合成自动分析和预测的结果,而自己设置朗读的方式,如一些字的发音,整句语音的节奏分布等。为了满足这一类用户的个性化定制朗读方式的需求,中科信利语音合成提供一套标注方法。通过这套方法对文本进行标注后,就可以灵活控制合成语音的朗读方式,实现定制的需求。?

6、多种代码页的支持

中科信利语音合成支持常见的文本编码格式,如UTF-8,GB2312,GBK,BIG5等,多编码格式的支持正在不断扩充之中。语音库覆盖了国标一、二级所有汉字以及所有英文单词。同时能对文本的编码格式进行自动判断和处理。面对各种来源的文本,中科信利语音合成都能轻松应对。?

7、高品质的语音合成效果

该平台基于最新的任意文本语音合成研究成果,集成了智能的文本分析算法,有针对特定文本领域进行优化的定制合成引擎。?

8、灵活的系统架构

该平台采用了面向对象以及模块化设计的思想,具有非常灵活的系统架构。在统一的系统架构下,可挂接多种的语音合成处理引擎;完全实现了代码和资源的分离,可更好的适应某些硬件应用场合;允许在运行态动态插入自定义的处理模块,使得用户可以方便的增加新的处理算法模块,有良好的扩展性。?

高度可裁减性和定制能力:该平台实现了算法可裁减,有多种不同复杂度的语音算法可以选择;功能可裁减,有多种语音算法引擎和声音处理模块可以选择;尺寸可裁减,支持多种可配置的语音合成算法和语音编解码算法,根据效果不同,尺寸可以进行变化;可自定义词典、预录音、针对特定文本领域的语音合成引擎等。?

2.2 语音合成引擎的功能

支持多语种,支持多领域的设置:目前支持中文、英文、粤语、日文等语种,支持金融证券、天气预报、体育赛事、公交信息、旅游餐饮、汽运、排队叫号、名家金曲、保险、航空、税务和电力等领域。?
持音色的查找、访问、加载:主导个性化语音服务新潮流,提供丰富、风格多样化的音色选择,如浑厚醇正的男声,成熟稳重、轻快活泼、或温柔甜美的女声,标准地道的英语女声,甚至童声
少男、少女,老年人等等。用户可根据不同应用业务需要,选择最适合应用场景的语音风格,并支持实时动态的音色切换。
提供统一配置和管理工具,能够完成全局参数配置、用户词典、用户规则、定制资源包管理等功能。
支持SSML(语音合成标记语言,Speech Synthesis Markup language),可以对多种特性进行灵活标注与控制。 
可以直接播放文本文件,使得合成操作更加方便快捷。
支持GB包括GB2312,GBK,GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、UnicodeBig Endian、UTF8 等各种字符集,自动识别具有 BOM 标记的 Unicode 文本。 
支持同步、异步合成一个 Session,通过被动的回调函数方式给用户传递数据。在原有版本的主动获取语音数据的基础上又多了一个选择。 
支持背景音乐,这样的话就可以在合成语音的时候播放轻松欢快的音乐。
可以外挂语音格式转换程序和文本抽取程序。
支持 Java 编程语言。

2.3 语音合成引擎的特色

   多语种,适应不断发展的业务需求

支持普通话标准语种及粤语、英语等多语种,包含业界创新的普通话与英语同音混读,适应不同语音应用业务的需求。多引擎管理接口可不同语种的系统提供一致化的访问界面,应用层可以灵活透明的选择所需的语音合成语种,并支持实时语种切换。 

   多音色,满足不同 环境的个性化应用

主导个性化语音服务新潮流,提供丰富、风格多样化的音色选择,如浑厚醇正的男声,成熟稳重、轻快活泼、或温柔甜美的女声,标准地道的英语女声,甚至童声,少男、少女,老年人等等。用户可供根据不同应用业务需要,选择最适合应用场景的语音风格,并支持实时动态的音色切换。 

   多领域支持 

中文引擎提供了多个领域的优化资源包。例如,在天气预报领域提供了利用模板拼接技术的特定领域音库,在大金融、旅游餐饮、体育赛事等领域提供了特定领域词库、预选音音库等。通过这些针对不同专业领域的优化资源包,可以大大提高特定领域文本的合成效果。

   智能文本预处理和分析的改进 

中文引擎在预处理部分的提升: 
采用了基于分词和词性标注一体化的前端分析算法以及基于统计的韵律词分析算法,提供了更好的韵律分析结果,阅读更为自然流畅。 
多音字处理算法的改进,使得多音字的误读率大为下降。 
改进数字符号读法的分析算法,数字符号的读法的阅读准确率更高。同时支持数字、符号读法的外部规则使用,提供给用户自行定义数字符号读法的方法。

   支持背景音混合 

中科院声学所TTS 5.0拥有对背景音混合的支持,管理员可以通过系统提供的“平台资源管理工具”添加多种背景音乐,用户在使用时可以通过参数进行指定,使背景音乐与语音合成同步输出。
 

应用场景

   多语种,适应不断发展的业务需求

支持普通话标准语种及粤语、英语等多语种,包含业界创新的普通话与英语同音混读,适应不同语音应用业务的需求。多引擎管理接口可不同语种的系统提供一致化的访问界面,应用层可以灵活
透明的选择所需的语音合成语种,并支持实时语种切换。 

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X