跳至內容

語音活性檢測

維基百科,自由的百科全書

語音活性檢測 (Voice activity detection,VAD), 也稱為 speech activity detection or speech detection, 是一項用於語音處理的技術,目的是檢測語音信號是否存在。[1] VAD技術主要用於語音編碼語音識別。它可以簡化語音處理,也可用於在音頻會話期間去除非語音片段:可以在IP電話應用中避免對靜音數據包的編碼和傳輸,節省計算時間和帶寬

VAD技術使得一些列基於語音的應用程式成為現實。因此,有一系列的VAD算法,具有不同的特性和延遲時間、靈敏度、精度和計算成本。有些VAD算法也提供了進一步的分析,例如講話是否濁音、清音或持續。語音活動檢測通常是與語言無關的。

VAD技術首先被用於時分語言內插法(time-assignment speech interpolation/TASI)系統.[來源請求]

算法概述

VAD算法的經典設計如下:[1]

  1. 首先是一個降噪過程,如通過spectral subtraction.
  2. 然後對輸入信號的一個區塊提取特徵。
  3. 最後使用一個分類器對這個區塊進行分類,確定是或不是語音信號。通常這個分類過程是將計算的值與一個閾值進行比較。

在上面這個過程中通常會有一些反饋過程,這樣可以使用VAD系統的決策來更好的估計和去除噪聲,或者適應性的調整閾值。這些反饋操作可以提升VAD系統對非穩態噪聲的性能,比如噪聲的差異很大時。[1]

一些方法在幀的基礎上使用瞬時特徵計算語音與非語言信號的距離,包括光譜斜率(Spectral_slope)、相關係數(correlation coefficients)、對數似然比(log likelihood ratio)、倒譜係數(cepstral)、加權倒譜系(weighted cepstral)和修改後的距離函數。

對於任何一個VAD算法,都要在將語音檢測為噪聲或將噪聲檢測為語音(假陽性和假陰性)之間尋求妥協。行動電話中的VAD系統必須能夠在不同類型的聲學噪聲的環境下檢測出語音。在這些比較困難的環境下,VAD算法應該在不確定是否為語音的時輸出是語音,以避免丟失真正的語音信號。這樣的環境中VAD的難點在於遇到的非常低的信噪比。當部分語音信號被噪聲淹沒時,使用一些簡單的方法可能就無法處理。

應用

  • VAD是許多語音通信系統的不可或缺的部分,如音頻會議、回聲消除語音識別語音編碼和免提電話;
  • 在多媒體應用領域,VAD允許系統同時進行音頻和數據應用;
  • 通用移動通訊系統(UMTS)中,它可以控制降低平均比特率,並提高整體的語音編碼質量;
  • 在蜂窩式無線電系統(如GSM或CDMA)的基礎上的不連續傳輸(DTX)模式,VAD可以通過降低同信道干擾和功率消耗來提高偏斜式數字設備的系統容量。

在許多例如數字移動廣播、DSVD或語音存儲中,都需要一種不連續傳輸的語音編碼參數。這樣可以降低平均功耗,提升並發傳輸的平均比特率並提升存儲晶片存儲能力;當然,這樣的改進主要取決於語音間停頓的百分比和VAD檢測的可靠性;一方面,這有利於降低信號傳輸的比例;另一方面,應該最大限度的保持語音質量;這是在重噪聲條件下VAD算法的冠軍問題。

性能評測

實現

參考文獻

  1. ^ 1.0 1.1 1.2 Ramírez, J.; J. M. Górriz, J. C. Segura. Voice Activity Detection. Fundamentals and Speech Recognition System Robustness (PDF). M. Grimm and K. Kroschel (編). Robust Speech Recognition and Understanding. 2007: 1–22 [2013-04-12]. ISBN 978-3-902613-08-0. (原始內容存檔 (PDF)於2015-05-20).