日韩不卡一区,米奇影视777

聲頻采集的風(fēng)噪問題及其抑制技術(shù)

更新：2022-1-18 9:08:24　稿件：21dB聲學(xué)人　調(diào)整大小:【大中小】

風(fēng)噪的特性和影響

風(fēng)噪聲，專業(yè)名稱為空氣動力噪聲，是由流場中運(yùn)動的物體與物體之間的作用產(chǎn)生，或者是由流體自身的湍流運(yùn)動導(dǎo)致的流體之間的相互作用產(chǎn)生[1]。不同的場景下風(fēng)噪聲的產(chǎn)生機(jī)理是不同的。日常生活中主要有兩個場景受風(fēng)噪聲影響嚴(yán)重，一是戶外聲頻采集，二是高速行駛的汽車車廂內(nèi)，此外超高速飛行器和風(fēng)洞設(shè)備也會受到風(fēng)噪聲的影響。由于篇幅限制本文著重關(guān)注聲頻采集尤其是語音采集中的風(fēng)噪問題及其抑制技術(shù)。

圖1 風(fēng)噪形成原理示意圖[2]

聲頻采集場景中的風(fēng)噪聲主要由傳聲器膜附近的湍流氣流引起，使傳聲器產(chǎn)生相對較高的信號電平。風(fēng)噪聲主要發(fā)生在低頻0~500Hz范圍內(nèi)，向高頻迅速衰減[3]。突發(fā)的陣風(fēng)常常引起持續(xù)時間為幾到幾百毫秒的風(fēng)噪。并且由于陣風(fēng)的突發(fā)性，風(fēng)噪聲可能會產(chǎn)生超過標(biāo)稱語音振幅的高幅值[4]，因此風(fēng)噪聲具有顯著的非平穩(wěn)特性。

圖2 典型風(fēng)噪聲的聲譜圖和波形[2]

風(fēng)噪聲會對聲頻信號造成嚴(yán)重的破壞。如表1所示，無論是手持姿勢（HHP）還是免提姿勢（HFP），風(fēng)噪聲均會顯著降低語音信號的信噪比，信噪比最差低于-20dB。同時風(fēng)噪聲的出現(xiàn)也會明顯降低語音的質(zhì)量（PESQ）和可懂度（STOI），因此要提高聲頻采集質(zhì)量必須對風(fēng)噪進(jìn)行抑制。

表1 不同強(qiáng)度的風(fēng)噪聲對語音信號質(zhì)量的影響[4]

風(fēng)噪抑制技術(shù)

聲學(xué)方法

防風(fēng)罩常見于手持式傳聲器以及專業(yè)槍式傳聲器。有海綿、人造毛皮、鐵網(wǎng)等多種材料。原理主要是降低傳聲器振膜附近的空氣流速，打散氣流減小湍流的產(chǎn)生，作用等效于聲學(xué)低通濾波器。

圖3 不同種類的防風(fēng)罩（圖片來自網(wǎng)絡(luò)）

在TWS耳機(jī)上，也應(yīng)用防風(fēng)罩來抑制風(fēng)噪聲。其最大的優(yōu)勢在于簡單和可靠性高，不足之處在于防風(fēng)罩需要增大尺寸來提升降噪量，而像手機(jī)、TWS耳機(jī)等小型設(shè)備，防風(fēng)罩的效果非常有限。

圖4 TWS耳機(jī)上的防風(fēng)罩（圖片來自網(wǎng)絡(luò)）

抗風(fēng)噪導(dǎo)管華為FreeBuds Pro采用了一種獨(dú)特的抗風(fēng)噪導(dǎo)管設(shè)計，傳聲器的外側(cè)由一條縫隙前后聯(lián)通，聲音將從這里進(jìn)入耳機(jī)抵達(dá)傳聲器。從側(cè)面吹來的風(fēng)會被外壁阻擋，而前后吹來的風(fēng)并不會被阻擋，也會從縫隙進(jìn)入，但是由于氣體的康達(dá)效應(yīng)，大部分的氣流不會流向傳聲器，而是沿著縫隙的內(nèi)壁移動。這種“以疏代堵”的方法，為風(fēng)噪抑制提供了新的思路。

圖5 抗風(fēng)噪導(dǎo)管剖面圖（圖片來自網(wǎng)絡(luò)）

加速度計拾音聲音本質(zhì)是振動，因此可以通過加速度計采集在固體中傳播的聲音。為語音拾音設(shè)計的骨導(dǎo)傳感器VPU（Voice Pick Up），本質(zhì)也是一種高性能加速度計，可通過采集人下頜骨的振動信號來拾取語音。由于風(fēng)噪只存在于氣導(dǎo)聲中，骨導(dǎo)聲不受影響，因此在拾取語音時骨導(dǎo)傳感器可以直接規(guī)避風(fēng)噪問題。目前已有多款TWS耳機(jī)搭載骨導(dǎo)傳感器，與MEMS傳聲器配合使用。

圖6 骨導(dǎo)和氣導(dǎo)聲傳播示意圖（圖片來自網(wǎng)絡(luò)）

信號處理方法

只應(yīng)用聲學(xué)方法通常不能很好地解決風(fēng)噪問題，因此人們也嘗試通過信號處理方法抑制風(fēng)噪。信號處理中傳統(tǒng)的降噪方法主要有維納濾波[6]和譜減法[7]，但是這兩種方法建立在噪聲平穩(wěn)或準(zhǔn)平穩(wěn)假設(shè)之上，無法很好的抑制風(fēng)噪聲。信號處理風(fēng)噪抑制框架如下圖所示。

圖7 信號處理風(fēng)噪抑制框架[2]

從框圖中可以看出，風(fēng)噪抑制算法的研究可以從風(fēng)噪估計/信噪比估計、增益估計、多通道方法和語音合成四個方面展開。下文中使用λ表示時間窗，μ表示頻率。

風(fēng)噪聲估計

要想有效抑制風(fēng)噪這種強(qiáng)非平穩(wěn)性的噪聲，關(guān)鍵在于準(zhǔn)確估計噪聲的短時功率譜（STPS）[2]。因此第一步通常是對輸入的帶噪信號做STFT變換，將信號轉(zhuǎn)換到STFT域X(λ,μ)。然后進(jìn)行進(jìn)一步的處理。

形態(tài)學(xué)方法形態(tài)學(xué)方法[8]將帶噪信號的聲譜圖看成圖像，其中語音成分通常有明顯的諧波結(jié)構(gòu)，而風(fēng)噪的影響可以看作語音諧波結(jié) 構(gòu)中的連接部分。形態(tài)學(xué)方法的目標(biāo)就是估計出聲譜圖中的風(fēng)噪掩膜。

算法首先根據(jù)設(shè)定的閾值篩選出聲譜圖中的高能量部分并計算其關(guān)于時間的偏導(dǎo) ，

然后計算聲譜圖的上升沿，

再計算起點(diǎn) ，

最后根據(jù)經(jīng)驗選擇的閾值通過比較中的信號能量確定完整的風(fēng)噪掩膜。這一方法的缺點(diǎn)是低頻的語音信號可能會包含進(jìn)風(fēng)噪掩膜中被濾除。

圖8 形態(tài)學(xué)方法估計風(fēng)噪掩膜步驟[2]

噪聲模板方法該方法的基本思想是將風(fēng)噪的聲譜圖分解為譜包絡(luò)和精細(xì)結(jié)構(gòu)，倒譜分析可以實(shí)現(xiàn)這個目的。首先計算帶噪信號的倒譜系數(shù)。

保留帶噪信號倒譜的高階系數(shù)，處理低階系數(shù)。將低階系數(shù)變換回STFT域生成譜包絡(luò)。

將譜包絡(luò)與預(yù)先訓(xùn)練好的風(fēng)噪聲參考譜包絡(luò)模板進(jìn)行比較，取平方和誤差最小的模板計算低階倒譜系數(shù)來替換帶噪信號的低階倒譜系數(shù)，并與帶噪信號的高階倒譜系數(shù)組合，經(jīng)逆倒譜運(yùn)算即可得到風(fēng)噪短時功率譜的估計。

圖9 噪聲模板方法[2]

譜質(zhì)心方法譜質(zhì)心是信號能量關(guān)于頻率的一階矩，可以反映信號主要能量的頻率分布。譜質(zhì)心方法的核心思想是通過譜質(zhì)心和其他信號特征分析帶噪信號的組成成分，先對信號進(jìn)行分類，然后進(jìn)一步?jīng)Q定風(fēng)噪STPS的估計策略。

計算譜質(zhì)心可以將帶噪信號分為三類[10]：純風(fēng)噪（ <200Hz）、風(fēng)噪語音混合信號（200Hz< <550Hz）、純語音（ >550Hz）。

圖10 不同信噪比下譜質(zhì)心的差異[2]

通過譜質(zhì)心和短時平均等特征對輸入帶噪信號進(jìn)行三分類。第一步判斷是否為純語音，若為純語音則該時頻窗風(fēng)噪的STPS為零。第二步判斷是否為純風(fēng)噪，若為純風(fēng)噪則風(fēng)噪的STPS就等于輸入信號的STPS。若信號被判斷為語音和風(fēng)噪的混合信號，則進(jìn)行進(jìn)一步的風(fēng)噪估計，方法包括最小擬合估計法[10]和自適應(yīng)音高估計法[11]等。

圖11 譜質(zhì)心方法流程圖[2]

深度學(xué)習(xí)方法風(fēng)噪聲可以通過深度神經(jīng)網(wǎng)絡(luò)來估計，[12]提出通過前向深度神經(jīng)網(wǎng)絡(luò)（FNN）來估計風(fēng)噪聲的幅度譜。方法是先估計語音信號和風(fēng)噪聲的理想幅值掩膜（IAM）和，然后從帶噪信號中分離出語音成分和風(fēng)噪成分。

使用兩個FNN分別估計和，如下式所示，和表示網(wǎng)絡(luò)參數(shù)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用[13]中方法使估計的信號和風(fēng)噪聲幅度譜與目標(biāo)幅度譜的均方誤差最小。

圖12 深度學(xué)習(xí)方法流程圖[12]

增益估計

如圖7所示，基于頻譜濾波的風(fēng)噪抑制方法重點(diǎn)是求解增益。傳統(tǒng)方法如維納濾波法和譜減法不能取得很好的效果，下面總結(jié)幾種增益的求解算法。

決策導(dǎo)向信噪比估計該方法[14]在維納濾波的框架下提出了一種更新先驗信噪比的方法求解增益。

風(fēng)噪抑制系統(tǒng)的后驗信噪比估計可由下式得到。該方法可以提升被增強(qiáng)語音的主觀質(zhì)量，尤其是減少“musical tones”。

遞歸增益的譜減法該方法[8]的目的是為了避免單個離群值對增益計算造成的影響。因此引入一種使用前一時頻塊增益的回歸運(yùn)算來計算當(dāng)前時頻塊的增益。

軟可聽噪聲掩膜法該方法[15]的基本想法是根據(jù)心理聲學(xué)模型在噪聲抑制和引入失真之間尋找平衡，即令下式最小。

其中是根據(jù)心理聲學(xué)模型計算得到的掩膜閾值。由上式推導(dǎo)可得增益估計值如下，參數(shù)α可設(shè)經(jīng)驗值1。

多傳聲器風(fēng)噪抑制技術(shù)

當(dāng)前最新的智能手機(jī)和TWS耳機(jī)配備有2個或更多的傳聲器。因此可以考慮基于雙傳聲器的風(fēng)噪抑制方法。

相關(guān)加權(quán)方法該方法[16]的思想就是利用語音和風(fēng)噪的相關(guān)性差異，使用幅度平方相關(guān)（MSC）來計算增益，

差分陣列方法該方法[17]利用了傳聲器陣列對于不相關(guān)噪聲（如風(fēng)噪聲）比較敏感的特點(diǎn)來降風(fēng)噪，引入功率比的概念，

其中和定義如下，

功率比可以有效分離語音和風(fēng)噪，如下圖所示。從圖中可以看出，當(dāng)傳聲器間距較小時（）功率比可以較好的分離風(fēng)噪聲和語音。增益函數(shù)通過計算純凈語音功率比和帶噪信號功率比的比值確定。

圖13 風(fēng)噪聲和語音功率比[2]

復(fù)相關(guān)風(fēng)噪估計方法根據(jù)[18]，假設(shè)傳聲器x和y處的風(fēng)噪不相關(guān)且能量相當(dāng)，傳遞函數(shù)也相似，則可以得到如下關(guān)系，

于是風(fēng)噪聲的功率譜密度可以用下式來估計，

在信號DOA已知的情況下引入復(fù)相關(guān)的相位信息 [19]，

對于相關(guān)的語音信號，；而對于不相關(guān)的風(fēng)噪聲，呈現(xiàn)均勻分布。

圖14 語音與風(fēng)噪聲復(fù)相關(guān)的相位信息分布[2]

風(fēng)噪聲的STPS估計由下式給出。

部分語音合成

實(shí)現(xiàn)風(fēng)噪場景下的語音增強(qiáng)，除了通過抑制風(fēng)噪，還可以通過部分語音合成的方式。稱其為部分語音合成是因為算法保留了原始帶噪信號中的不受風(fēng)噪影響的高頻語音（主要為清音），只合成受風(fēng)噪聲影響嚴(yán)重的低頻語音（主要為濁音）。實(shí)現(xiàn)方法如下圖所示，系統(tǒng)可以在抑制風(fēng)噪的同時合成語音，二者結(jié)合生成對語音信號的估計。

圖15 結(jié)合語音生成的風(fēng)噪抑制框架[2]

基于重建的部分語音合成該方法[20]的基本思想是關(guān)注被風(fēng)噪破壞的低頻語音部分，將問題轉(zhuǎn)化為帶限語音的增強(qiáng)問題。語音生成部分采用線性預(yù)測編碼（LPC）實(shí)現(xiàn)。帶噪語音信號通過截止頻率的高通濾波器保留未被風(fēng)噪影響的高頻部分，濾波器截至頻率由下式給出。

純風(fēng)噪上限頻率和語音重構(gòu)上限頻率可根據(jù)經(jīng)驗取值（100Hz和1500Hz）。原始信號中包含風(fēng)噪聲的低頻部分由人工合成的語音替代。

圖16 基于重建的部分語音合成框圖[2]

基于語料庫的部分語音合成與基于重建的部分語音合成相比，該方法的主要區(qū)別是引入了預(yù)先訓(xùn)練好的語音信息，方法的流程圖如下圖所示。方法的主體部分由三部分構(gòu)成，一是語音合成，不同點(diǎn)在于該方法的激勵信號通過音高模板循環(huán)（TPC）生成，聲道濾波器系數(shù)通過比較特征向量的相似程度在預(yù)先訓(xùn)練好的字典中尋找合適的系數(shù)。二是計算用于結(jié)合風(fēng)噪估計和語音合成的二值掩膜，三是使用傳統(tǒng)噪聲抑制手段抑制殘留噪聲，具體實(shí)現(xiàn)方案參見[21]。

圖17 基于語料庫的部分語音合成框圖[2]

展望

到目前為止，人們從多個角度出發(fā)，想出了多種抑制風(fēng)噪的方案并取得了巨大的進(jìn)展，但距離完全解決聲頻采集中的風(fēng)噪問題仍有很長的路要走。例如在大風(fēng)噪情況（SNR<-10dB）時語音增強(qiáng)算法失效問題，實(shí)時風(fēng)噪抑制問題等還沒有得到很好的解決。作為聲學(xué)領(lǐng)域最具挑戰(zhàn)的課題之一，風(fēng)噪問題還需要更多能人志士投身其中，繼續(xù)研究。

參考文獻(xiàn)
[1] 戈爾茨坦. 氣動聲學(xué)[M]. 國防工業(yè)出版社, 2014.
[2] Nelke C M. Wind Noise Reduction: Signal Processing Concepts[D].2016.
[3] Fisol U M M, Ripin Z M, Ismail N A, et al. Wind noise analysis of atwo-way radio[C]. 2013 IEEE International Conference on Smart Instrumentation,Measurement and Applications (ICSIMA). 1–5.
[4] Nemer E, Leblanc W. Single-microphone wind noise reduction byadaptive postfiltering[C]. 2009 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics. : 177–180.
[5] Nelke C M, Vary P. Measurement, analysis and simulation of windnoise signals for mobile communication devices[C]. 2014 14th InternationalWorkshop on Acoustic Signal Enhancement (IWAENC). 327–331.
[6] LIM J S,OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE, 1979, 67(12): 1586–1604.
[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J]. IEEETransactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113–120.
[8] Hofmann C,Wolff T, Buck M, et al. A Morphological Approach to Single-Channel Wind-NoiseSuppression[C]. IWAENC 2012; International Workshop on Acoustic SignalEnhancement. 1–4.
[9] Kuroiwa S, Mori Y, Tsuge S, et al. Wind noise reduction method forspeech recording using multiple noise templates and observed spectrum finestructure[C]. 2006 International Conference on Communication Technology. 1–5.
[10] Nelke CM, Chatlani N, Beaugeant C, et al. Single microphone wind noise PSD estimationusing signal centroids[C]. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 7063–7067.
[11] Nelke CM, Vary P. Wind noise short term power spectrum estimation using pitch adaptiveinverse binary masks[C]. 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 5068–5072.
[12] Bai H, GeF, Yan Y. DNN-based speech enhancement using soft audible noise masking forwind noise reduction[J]. China Communications, 2018, 15(9): 235–243.
[13] Wang Y,Narayanan A, Wang D. On Training Targets for Supervised Speech Separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849–1858.
[14] Ephraim Y, Malah D. Speech enhancement using a minimum-mean squareerror short-time spectral amplitude estimator[J]. IEEE Transactions onAcoustics, Speech, and Signal Processing, 1984, 32(6): 1109–1121.
[15] Yu R. Speech enhancement based on soft audible noise masking andnoise power estimation[J]. Speech Communication, 2013, 55(10): 964–974.
[16] Franz S,Bitzer J. Multi-channel algorithms for wind noise reduction and signalcompensation in binaural hearing aids[C]. IWAENC 2010; International Workshopon Acoustic Echo and Noise Control. Tel Aviv, Israel.
[17] ELKO G W.Reducing Noise in Audio Systems: USA, US7171008 B2[P]. 2007-01-30.
[18] Dörbecker M, Ernst S. Combination ofTwo-Channel Spectral Subtraction and Adaptive Wiener Post-Filtering for NoiseReduction and Dereverberation[C]. European Signal Processing Conference(EUSIPCO). Trieste, Italy.
[19] Nelke CM, Vary P. Dual Microphone Wind Noise Reduction by Exploiting the ComplexCoherence[C]. Speech Communication; 11. ITG Symposium. Erlangen, Germany.
[20] Nelke CM, Nawroth N, Jeub M, et al. Single microphone wind noise reduction usingtechniques of artificial bandwidth extension[C]. 2012 Proceedings of the 20thEuropean Signal Processing Conference (EUSIPCO). Bucharest, Romania: IEEE.
[21] Nelke CM, Naylor P A, Vary P. Corpus based reconstruction of speech degraded by windnoise[C]. 2015 23rd European Signal Processing Conference (EUSIPCO). Nice:IEEE: 864–868.

<< 去中國視聽網(wǎng)首頁

免責(zé)聲明：本文來源于21dB聲學(xué)人,本文僅代表作者個人觀點(diǎn)，與中國視聽網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。如涉及到侵權(quán)，請聯(lián)系我們及時刪除。

　網(wǎng)友評論