摘要:根据汉语语音的发音特征, 通过对多门限过零率前端检测理论的研究, 提出了参数自优化方法。而且采用凌阳公司的 16 位微处理器SPEC061A 实现了自优化算法的功能, 为进一步对语音信号处理奠定了基础。 关键词:多门限过零率前端检测 语音增强 SPEC061A A Parameter Self -opt im izeM ethod of M ut il-ga te Zero Cross Ra t io Startpo in tDetect ion Feng Gang Duan Q ichang Zhang Congli (Colleg e of A u tom ation, Chong qing U niversity , Chong qing 400044, Ch ina) Abstract It defines a self2op t im ize of parameter method after studying Ch inese speech features and mut il2gate zero cro ss rat io startpo int detect ion theo ry. The self2op t im ize algo rithm is realized by using 16 bit s m icrop ro2 cesso r SPEC061A of Sunp lus Techno logy Co. , L td, wh ich is based fo r further study of speech signal p rocess. Key words M ut il2gate zero cro ss rat io startpo int detect ion Speech enhancement SPEC061A 1 引 言 人们在语音通信过程中不可避免地会受到各种各样的干扰, 这些干扰最终将使接收者接收到的语声已非纯净的原始语音信号, 而是受噪声污染的带噪语音信号。因此, 有必要进行语音增强。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语 音。 在噪声语音信号处理中, 噪声语音信号中的语音和非语音段的判定, 即噪声语音信号的语音端点检测, 是语音处理系统中非常重要的工作, 也是极其关键的一步工作。因为, 在语音分析、语音滤波和增强中, 语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段(语音段或噪声段) 来计算确定。因此, 只有准确地判定语音信号的端点, 才能正确地进行语音处理。传统的对含噪语音信号进行语音端点检测的方法有: 多门限过零率前端检测法、短时能量, 以及零能积(即过零率与短时能量的乘积) 等。 2 参数优化和语音增强方法研究 2.1 多门限过零率前端检测原理 采用减谱法去处宽带噪声需要估计噪声的频谱。因为噪声是局部平稳的, 故可以认为发语音前的噪声与发语音期间的噪声功率谱相同, 因而可以利用发语音前(或后) 的“寂静帧”来估计噪声。因此需要对语音端点进行判断。过零率可用于判别有话与无话, 但过零率容易受低频干扰, 修改为过正负门限, 采用多门限过零率前端检测算法。多门限过零率前端检测法是设多个高低不同的门限, 例如三门限: T1< T2< T3, 对每一帧(例如宽度为10m s 输入信号) 用式(1) 分别求相应于T1, T2, T3 的三种门限过零率Z1, Z2 和Z3。 然后用加权和来表示总的过零率: z= w 1z1+ w 2z2+ w 3z3 (2) 其中: w 1, w 2, w 3 为过零率权值; Z 为过零率加权和, 以下简称加权和。只要门限值T1, T2, T3 和权值w 1,w 2,w 3 选择合适, 语音开始后的信号加权和Z 值将明显大于无话时的加权和Z 值。Z0 定义为加权和分界值, 以下简称为分界值。 当Z> Z0 时, 判为有话帧; 当Z< Z0 时, 判为无话帧。 这样就可以准确而实时地找到语音的起点。多门限过零率前端检测算法中需要通过实验摸索一个分界值Z0。这里对权值向量W 和分界值Z0 的确定提出了一种参数自优化法, 通过训练的方式获得合适的权值w 1,w 2,w 3 和分界值Z0。 2.2 参数自优化算法研究 这里设置了三个高低不同的门限(T1< T2< T3 ) ,通常背景噪声的过零率Z 将明显低于语音开始后的Z值。由此在训练语句采样中遍历Z 值的变化, 将所有采样帧分为两个集合, 一个集合Z高代表语音, 一个集合Z低代表背景噪声。因为两个集合的过零率值在理论上存在明显的差别。通过改变权值W 进一步加大两个集合的界限, 直到两个集合中的元素基本不变化(需确定一个条件判断集合稳定, 条件定义为5 个元素以下的变化视为稳定状态) , 确定权值W。对一个训练语句采样样本的权值确定后, 再用另一个样本用同样的算法考查权值, 直到权值稳定了规定的样本个数后, 确定下权值向量W 和分界值Z0。算法如下: (1) 初始化权向量W = {w 1,w 2,w 3}= {1, 1, 1} (2) 重复下列过程, 直到训练完成。 (a) 采集一段语音, 并进行分帧和离散化处理; (b) 计算每一帧的加权和Z, 然后根据得到的过零率集合将集合分为两类(Z低和Z高) ; (c) 循环次数为3N + 1 时,w = w + [ 0, 0, x ]。循环次数为3N + 2 时, w = w + [ 0, x, 0 ]。循环次数为3N + 3时: w = w + [x, 0, 0 ] (d) 重新计算每一帧的加权和Z, 然后根据得到的过零率集合将集合分为两类(Z低和Z高) , 比较两次的分类情况。若有分类不同, 重复b 的步骤, 直到分类相同为止; 若分类相同, 则重复步骤(1) ; (e) 若对于n 次采样上述过程中过零率集合分类一次也不变化。则可以确定权向量W , 分界值: 其中: n 为权值稳定的样本个数, z′n 为权值稳定的每个样本的分界值, Z0 的取值为集合Z低的一个中间值和集合Z高的一个中间值的加权平均值。 求得权值向量W 和分界值Z0 后就可以用减谱法滤除宽带噪声了。 2.3 语音增强方法研究 准确找到语音起止点后, 就能估计噪声功率谱的值了。因为: 下面两个波形图可以比较通过带自优化参数方法的语音增强的语音信号。本实验在16 位单片SPEC061A实验箱进行的, 图2 中的语音信号为“你好”, 语音波形通过M ediastudio P ro 6. 0 A udio Edito r 采集显示。图1 代表含噪语音波形, 图2 代表增强后的语音波形。 图1 含噪语音波形
图2 增强后的语音波形
3 硬件系统 实验利用改进的语音增强技术录制话音并播放,在SPCE061A 实验箱上完成。SPCE061A 是继L’nSPTM 系列产品SPCE500A 等之后凌阳科技推出的又一个16 位结构的具有语音处理功能的嵌入式微控制器。该芯片较高的处理速度使L’nSPTM 能够非常容易地、快速地处理复杂的数字信号。因此, 以L’nSPTM 为核心的SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。SPCE061A 实验箱具有音频电路, 音频电路由麦克风电路以及音频输出电路组成, 所以不需要外搭建硬件电路就可以在实验箱上做一些语音实验。凌阳公司还提供了各种音频编码、语音压缩ö解码的应用程序接口, 大大方便了用户开发语音程序。 图3 程序流程图 4 软件设计 实验中, 需要将IOA 0 口接上一个开关键。每个样本为2s 话音采样, 帧长取10m s, 每帧采样个数为150。当开关键断开时, IOA 0 口检测到低电平, 系统开始训练, 说话者不断地发声“语音”, 系统不断地采集语音数据, 直至自优化获得一个权值, 训练结束后, 指示灯亮表明训练完成, 系统可以转入录音播放程序。当开关键接通时, 系统转入录音播放程序, 每次采样5s 后播放录音。程序流程框图如图3。 5 结束语 研究的多门限过零率前端检测理论的参数优化方法简单、有效, 可应用于具有语音处理功能的嵌入式微控制器。 实验表明, 采用基于多门限过零率前端检测理论的参数优化方法增强语音信号, 减少了背景噪声, 明显改善了语音质量。
|