当使用谱减法时,如果带噪语音的幅度谱与估计出来的噪声谱相减出现负值时,说明对噪声的估计出现了过估计问题。对这种现象最简单的处理就是将负值重调为0。以保证非负的幅度谱。但是,这种对负值的非线性处理,会导致信号帧频谱的随机位置上出现小的、独立的峰值。转换到时域后,这些峰值听起来就像帧与帧之间频率随机变化的多频音,这种现象在清音段会更加明显。这种由于半波整流引起的“噪声”被称为“音乐噪声”。
谱减法的另一个较小的缺点是使用带噪信号相位,因此可能产生比较粗糙的语音质量。由于要估计纯净语音语音的相位很困难,并将极大地增加算法的复杂度。与幅度谱噪声相比,相位噪声带来的语音失真并不是很大,尤其是在高信噪比条件下。因此,使用带噪语音相位被认为是一个可以接受的方案。 解决音乐噪声问题比寻找纯净信号相位的问题更为迫切。因此,有必要对导致音乐噪声的因素做一些介绍:
1.对谱减中的负数部分进行了非线性处理
2.对噪声谱的估计不准
3.抑制函数(增益函数)具有较大可变性
减小音乐噪声的方法是对谱减的负值设置一个下限,而不是将它们设为0。该下限的取值根据相邻帧的最小谱值确定。因为对噪声的估计需要确定无语音段(或低能量段),需要用到后续帧的语音谱,因此不可能满足实时应用。
Berouti等人提出了一种不需要未来信息的方法。该方法减去噪声谱的过估计,其技术具有如下形式:
|X|^2 = |Y|^2 - alpha*|D|^2 (当|Y|^2 > (alpha + beta)*|D|^2时)
|X|^2 = beta*|D|^2
其中alpha为过减因子(大于等于1),beta(大于0小于等于1)是谱下限参数。
使用过减因子与谱下限的动机在于:当从带噪语音谱中减去噪声谱估计的时候,频谱中会残留一些隆起的部分或谱峰,有些谱峰是宽带的,有些谱峰很窄,看起来像是频谱上的一个脉冲。通过对噪声谱的过减处理,我们可以减小宽带谱峰的幅度,有时还可以将其完全消除。
但是仅仅这样还不够,因为谱峰周围可能还存在较深的谱谷。因此需要使用谱下限来“填充”这些谱谷。因此,参数beta可以控制残留噪声的多少以及音乐噪声的大小。