中科信利固定音频检索 首页 > 技术产品 > 中科信利固定音频检索

    原音搜索的基本原理

来源相同的音频经过不同的编码方式和信道传输以后,在人耳听觉感知上基本上是相同的。中科信利原音搜索引擎提供了一种快速地找到来源相同音频的软件引擎。该搜索引擎的整体框架如图1所示。对于输入的一段音频信号,先进行音频前端处理,然后计算该段音频信号的特征。将该音频特征在音频特征库中进行搜索匹配,找到相似度在某个阈值范围之内所有音频。

原音检索引擎又称固定音频检索引擎,或音频DNA引擎。

中科信利原音搜索引擎是为电话平台、广电平台以及网络平台开发的能够提供原音搜索的软件引擎,其应用程序开发接口(API)为用户提供了方便的开发界面。原音搜索为系统集成商和ISP服务提供商开发音频应用提供了强大的工具。

中科信利原音搜索工作原理

:原音搜索基本原理图

如图1所示中科信利原音搜索的基本原理图。对于输入的音频信号,提取音频特征,然后在音频库中进行快速搜索,相似度满足一定条件的音频作为候选输出。

在特征提取部分,对输入的固定音频做一些前端处理,如降采样率等,之后采用某种算法,提取输入的固定音频的特征。

音频特征库是要被搜索的音频文件的特征集合,一般来说这些特征可以事先计算好,或者这些音频特征在搜索之前只需要计算一遍就可以了。

在搜索部分,将固定音频的特征与音频特征库中的特征进行匹配,可以是线性搜索或者查表式搜索,根据匹配的程度给出最终的检索结果。


处理流程

前端处理

对于输入的音频进行降采样率等前端处理。

计算音频特征

将音频信号分帧加汉明窗,计算信号帧的快速傅里叶变换,根据信号频带之间的关系计算音频信号的特征。

快速搜索

在音频特征库中快速找到音频特征可能出现的位置。

特征匹配

在输入音频可能出现的位置,计算两段音频的相似性。相似度满足一定条件的音频被作为候选音频输出。

中科信利原音搜索体系结构

中科信利原音搜索引擎TSRE提供两种应用模式:

一种是通过原音搜索引擎TERS API直接访问中科信利原音搜索引擎。这种方法适合用于需要应用程序和原音搜索引擎紧密结合或者是要在已有软件平台中直接使用原音搜索引擎的场合。目前可以在PC和嵌入式设备上进行开发使用。

另一种是通过中科信利分布式原音搜索处理客户端接口TERS RecClient,通过该接口来访问中科信利分布式原音搜索处理环境TERS DE。这种模式适用于希望直接使用TERS DE的分布式原音搜索处理能力以同时支持大规模的应用。

 

中科信利平台运行环境和功能特点

硬件环境

Intel 酷睿 2.0G以上的PC、服务器、工作站;

内存2G以上(建议为4G或更高),80GB以上硬盘。

软件环境

WinXP/Win7/WinServer2008/Linux等操作系统。

特点和性能

每小时的音频生成1.2M大小的音频特征

音频搜索需要的内存与音频库的大小成正比,每小时音频需要3.6M的内存

需要搜索的音频只需要3秒到5秒左右

检索正确率可达99%

处理能力

单台服务器 (Intel Xeon CPU E7- 4820 2.0GHz4CPU*8(32)),可支持2500路并发。

检索库大小:100000条音频文件,共计6900小时时长;

建库时长: 针对6900小时数据的库,总用时9760s2.7小时);

检索速度:在上述6900小时的库上,检索一条音频用时1.6秒。

 系统的最大承载能力:在256G服务器内存条件下,音频总时长不得超过6万小时。

  • 如何称呼您?
  • 如何联系您?
  • 留言给我们

北京中科信利技术有限公司

电 话:010-82547559 传 真:010-82547553 公司地址:北京市海淀区北四环西路21号DSP大楼三层

扫一扫关注我们

Copyright©2017 北京中科信利技术有限公司 版权所有  技术支持:中万网络
X
X