语音加强

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model)，而在实际应用上，测试则不像训练一样是在一个理想的环境进行，因此造成与训练出来的模型无法吻合的很好，导致辨识准确度下降。
也因为上述原因，在进行辨识前进行语音加强则成为一个很重要的步骤，也就是希望能够在辨识前，尽量减少环境杂讯对语音信号的影响，进而提升辨识率。

应用

提升语音辨识率

语音信号转成文字

提升语者辨识系统辨识率

辨识讲话的人是谁，或者是否与模型吻合

语音加强演算法

依据通道的多寡可分为两类：单通道语音加强演算法、多通道语音加强演算法

单通道语音加强演算法

语音讯号的取得由一个通道而来，例如家用电话、手机、录音档，属于这类的演算法有

Spectral Subtraction Process
Spectral Subtraction With Oversubtraction Model
Non-Linear Spectral Subtraction

Spectral Subtraction Process

使用这个方法的一些假设:

把杂讯当作与原讯号不相干(uncorrelated)
把原讯号与杂讯当作stationary，这部分可借由在短时间上进行而达到

这个方法的概念就是以下的式子，X为欲得到的加强语音，Y为收到包含杂讯的语音讯号，R为杂讯
$\left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}$
在实做上R可借由估计未讲话时的讯号取得,但由于 ${\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}$ 的条件，使得所有 ${\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}$ 的估计都被设为0，这显然是不合理的，因此造成加强的语音讯号听起来会在一些时候有些不舒服，这个问题称为musical noise

Spectral Subtraction With Oversubtraction Model

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题，作法是将模型修正为
$\left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}$

Non-Linear Spectral Subtraction

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除杂讯的过程是非线性的，在高SNR的时候扣除的较多，而低SNR的时候则扣除较少。

多通道语音加强演算法

语音讯号的取得由两个或以上通道而来，由于讯号的取得较多元，提供更多语音加强的可能性，属于这类的演算法有

Adaptive Noise Cancellation
Multisensor beamforming

Adaptive Noise Cancellation

需要有两个输入讯号
(i)被杂讯污染的主要讯号
(ii)跟主要讯号中杂讯有关(correlated)
这个方法是把参考杂讯经过一个滤波器(希望滤波出来的结果接近主要讯号中的杂讯)，再把这个讯号从主要讯号中扣除，来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的杂讯与参考讯号杂讯的关系，因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的杂讯，进而达到语音加强的效果。

Multisensor beamforming

使用麦克风阵列(多个感测器)来达到这个效果，由于各个麦克风所接收到的讯号方向不尽相同，导致每个接收讯号相位差不同，可借由对准项位的方法(phase alignment)加强语音讯号。

参考资料

OVERVIEW OF SPEECH ENHANCEMENT TECHNIQUES FOR AUTOMATIC SPEAKER RECOGNITION Javier Ortega-García and Joaquín González-Rodríguez
SINGLE CHANNEL ENHANCEMENT OF NOISY SPEECH Kotta Manohar
S. F. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. ASSP 27(2):113-120, April 1979.
Adaptive Noise Cancellation Aarti Singh 1/ECE/97 Dept. of Electronics & Communication Netaji Subhas Institute of Technology