Nureva的Microphone Mist™技術通過數(shù)以千計的虛擬麥克風均勻填充滿整個空間,保證出色的拾音和聽音效果。這項技術是保證Nureva音頻系統(tǒng)非凡性能的關鍵。那么究竟什么是虛擬麥克風?它們又會對日常遠程會議產生何種影響?
數(shù)以千計的虛擬麥克風不僅僅在房間內增加了額外的拾音點,還是對現(xiàn)有的實體麥克風和beamformer系統(tǒng)的概念性顛覆。它們改變了我們對會議空間中聲音拾取的基本理解。
使用專注于離散三維位置而不依賴廣泛覆蓋區(qū)域的方法,我們可以提供優(yōu)化的分析和解決方案,從而使音頻會議系統(tǒng)拾音更加精確、功能更加強大。換句話說,如果我們不再對所需聲源方向進行廣泛覆蓋,而是分析房間內數(shù)以千計個空間點(點位)的聲音,就會有不一樣的效果。虛擬麥克風組成了這些三維空間點,使陣列可以專注于這些點位的拾音。
通過從三維角度分析房間聲學的新方法,可以確定房間內數(shù)千個點位中每個點位的音頻特性。然后,這些豐富的聲音信息可以被獨立地評估可用性和質量,并相應地對系統(tǒng)進行自動調整。
音頻會議系統(tǒng)現(xiàn)狀
目前有兩種常見的音頻會議麥克風拾音方法。
第一種方法是配置一支或多支獨立麥克風(如圖1)。采用這種方法構建的系統(tǒng)可能很簡單,如在房間內的講話者身上佩戴領夾式麥克風;也可能很復雜,如在桌子上配置一系列分布式鵝頸麥克風或在天花板上安裝懸吊式麥克風。
這種方法能夠在小型目標區(qū)域內實現(xiàn)特定覆蓋,或在由麥克風指向性模式定義的大型區(qū)域內實現(xiàn)廣泛覆蓋。雖然當講話者靠近麥克風時音頻拾取性能可以很好,但當講話者遠離麥克風或改變講話方向時,拾音性能會顯著降低。移動講話者的聲音尤其難以被拾取,因為當他們邊走邊說時,很可能會離開桌面麥克風的覆蓋區(qū)域,講話者就被限制在麥克風系統(tǒng)有限的覆蓋范圍內。因此,這種麥克風拾音方法不適合需要講話者變換位置(如使用演示設備闡述觀點)的動態(tài)型會議場景。
如果多個聲源集中在某一麥克風的覆蓋區(qū)域內,系統(tǒng)就無法進行區(qū)分。如果所有這些聲源都是有用的,就不是問題,但如果其中一個或多個聲源是不需要的噪聲(如供熱通風與空氣調節(jié)系統(tǒng)噪聲、鍵盤敲擊聲或紙張移動聲),那么就會比較麻煩——麥克風會拾取該覆蓋內所有的聲音,需要額外進行后處理來消除不需要的噪聲。
圖1 桌面麥克風覆蓋示例
另一種常見的音頻會議麥克風拾音方法是采用beamforming陣列。這些由實體麥克風組成的beamforming陣列基于預期房間用途被預先配置了覆蓋區(qū)域(如圖2)。這種陣列旨在增大目標區(qū)域內的聲音,使其增益高于獨立麥克風系統(tǒng)的標準增益,并衰減目標區(qū)域外的聲音,從而顯著降低混響和不需要的噪聲。這種拾音系統(tǒng)被稱為beamformer,因為每個區(qū)域都是從麥克風陣列的位置開始并向外延伸,通常會延伸到房間邊界處。
一個beamforming陣列可能只覆蓋一個區(qū)域(如波束追蹤陣列),也可能根據(jù)使用情況覆蓋多個區(qū)域(如多區(qū)陣列)。由于波束可以縮窄,因此系統(tǒng)可以通過聚焦特定覆蓋區(qū)域來減少不需要的噪聲。然而,即使窄波束也無法提供足夠的空間粒度來提供高空間分辨率。也就是說,波束是根據(jù)方向而不是位置來處理聲音。如果波束內有不需要的噪聲源,beamforming系統(tǒng)就會產生與獨立麥克風系統(tǒng)相同的限制。不需要的噪聲仍然需要通過專門的噪聲濾波器和算法進行后處理。如果講話者位于波束之外,例如在顯示設備邊或在整個房間內移動,就無法確定自己是否在beamformer區(qū)域內。在獨立麥克風系統(tǒng)中,講話者可以看到實體麥克風的位置,而在beamforming陣列中,講話者無法確定beamformer的指向或配置指向,因此可能會無意中偏離預置的覆蓋區(qū)域。
圖2 Beamforming陣列覆蓋示例
這兩種常見方法都是在預配置的覆蓋區(qū)域內拾取最響亮的聲源(可能來自講話者,也可能不是),并嘗試優(yōu)化音頻性能。但在每種方法中,整個房間的聲學覆蓋可能都不夠充分,因為聲學空間分辨率和密度較低,對整個房間進行連續(xù)聲學監(jiān)測通常是不可行的。此外,這兩種方法都基于房間的預期用途。如果房間的實際用途偏離了預期用途,則系統(tǒng)通常必須進行重新配置。廣泛覆蓋的拾音方法很難獲得有關房間內所有聲源的聲學特性和精確點位的詳細信息。
針對以上情況,Nureva開發(fā)了一種獨特的創(chuàng)新方法,通過以高空間分辨率全面分析三維空間來覆蓋整個拾音區(qū)域。這使得麥克風系統(tǒng)能夠在數(shù)以千計的獨立點位獲得精確的聲學信息。這種方法測量空間粒度非常高,可以同時識別和管理所有點位的聲學聲源。因此,該系統(tǒng)可以提供全房間的聲學視角,將音頻拾取性能優(yōu)化到在較低空間分辨率系統(tǒng)中根本不可達到的水平。
實現(xiàn)聲學空間
高分辨率拾音的新方法
Nureva意識到,如要改善會議空間的音頻體驗,需要一種新的方法。我們的目標是通過測量整個聲學空間中多個離散點位的聲音特性來獲得更高質量、更精確的聲學信息,而不是簡單地優(yōu)化來自一個或多個方向的有源聲源。我們需要一種全新的創(chuàng)新方法,從而比其他音頻會議系統(tǒng)在聲學上可以更精確地解析空間。
為了實現(xiàn)這一目標,我們需將房間視為三維聲學空間(如圖3)。Nureva開發(fā)了專利的麥克風陣列技術,即Microphone Mist技術,可以通過數(shù)以千計均勻分布的虛擬麥克風在三個維度上解析聲學空間,從而實現(xiàn)全覆蓋網(wǎng)格,以比傳統(tǒng)的拾音方法更高的分辨率和覆蓋密度提供精確的聲學信息。
圖3 Microphone Mist技術
高空間分辨率的概念有助于理解為什么Nureva的聲學空間拾音方法如此獨特。雖然這是一種新的音頻會議拾音方法,但它與其他領域的高分辨率技術相似。
為什么需要高分辨率?
當您購買電視機或攝像機時,圖像分辨率是需要重點關注的性能規(guī)格之一。4k圖片質量比1080p的圖片更好——更高的分辨率能夠帶來更好的體驗。其他格式和技術,如色彩、音樂、圖像甚至望遠鏡也是如此。更高的分辨率意味著更多更高質量的信息和處理,可以帶來更好的體驗。
例如,圖4記錄了調色板上位深變化產生的影響。當圖像的位深度為2時,會得到4種色彩選項。當分辨率增加到14bit時,就會得到16,384種色彩項。隨著位深度的增加,圖像中調色板的分辨率也在增加,這意味著可以更精確的解析色彩細節(jié)。顯然,更高位深度的色彩描述更適合顯示和分析圖像。
圖4 色彩位深
在圖5中,與高分辨率的300dpi圖像相比,低分辨率4dpi的吉他圖像是塊狀的。提高分辨率意味著可以顯示更精確和詳細的圖像。在低分辨率圖像中模糊不清的細節(jié)在高分辨率圖像中變得非常明顯,從而可以對圖像數(shù)據(jù)進行更好的處理和分析。
圖5 圖像分辨率
同樣音樂中也是如此。圖6的表格顯示,4bit的錄音比24bit的錄音的分辨率要低。隨著位深度的增加,會得到更高的信噪比、更高的動態(tài)范圍和更少的量化誤差。
圖6 音樂分辨率
更高的位深度和由此帶來的數(shù)據(jù)分辨率提高的優(yōu)勢在數(shù)字平臺上得到了很好的理解和共享。這些優(yōu)勢也同樣適用于將聲學空間細分為越來越精細的粒度細節(jié)的音頻麥克風系統(tǒng)。如果我們將空間分解為更小的聲學區(qū)域,就可以更好地描述和理解聲源和空間,從而根據(jù)聲源自身的聲學特性進行優(yōu)化處理。
聲學空間的分辨率
將空間劃分為聲學區(qū)域來形成充足的覆蓋范圍對音頻會議大有裨益。房間可以被劃分為實體麥克風或虛擬麥克風覆蓋區(qū)域。在配置獨立麥克風和beamformer后,每個區(qū)域以麥克風系統(tǒng)的孔徑中心開始,由每個配置區(qū)域的極坐標圖形狀來定義。通過Microphone Mist技術,每個區(qū)域都以三維空間中每個虛擬麥克風的位置為中心。每個位置都可以被分配一個單獨的空間分辨率值?偟姆直媛手当硎钧溈孙L系統(tǒng)在三維空間中能夠分辨多少個空間粒度點。
圖7a和7b顯示了空間中配置一支獨立麥克風和多支分布式獨立麥克風的覆蓋情況。如果我們?yōu)槊總覆蓋區(qū)分配一個空間區(qū)域值,在配置一支獨立麥克風的情況下,這個值從實體麥克風的中心開始,我們可以看到一支麥克風有1個單獨的空間區(qū)域,空間中總共有1個空間區(qū)域(如圖7a)。在配置多支分布式獨立麥克風的情況下,顯示了3個空間區(qū)域,總空間分辨率值為3(如圖7b)。盡管覆蓋區(qū)域很大,但麥克風系統(tǒng)無法分辨單個區(qū)域內的各個聲源,這導致總空間分辨率值較低。就像色彩和圖像一樣,我們將聲學空間劃分的越精細,在測量和描述聲學空間時的空間分辨率就越高。
圖7a 單支獨立麥克風空間分辨率示例
圖7b 多支獨立麥克風空間分辨率示例
圖8a和8b顯示了通用的beamformer覆蓋模式。通過為每個區(qū)域分配一個單獨的空間區(qū)域值,可以應用相同類型的量化。圖8a顯示一個三區(qū)系統(tǒng)的空間分辨率值為3。即使在復雜的實際應用中,覆蓋區(qū)域通常也限制在幾十個以下,在本示例中有6個區(qū)(如圖8b),空間分辨率為6。顯然,beamformer可以通過較小的總空間分辨率值來描述整個空間。
圖8a Beamformer空間分辨率示例
圖8b Beamformer空間分辨率
這兩個系統(tǒng)都能夠在每個覆蓋區(qū)域拾取聲源,就像4dpi分辨率的圖像可以將寬泛的顏色顯示為模糊的斑點一樣。但在任何一個區(qū)域內區(qū)分聲源很難。如果某一聲源在覆蓋區(qū)之外,就會被完全忽略。上述兩種常見的音頻會議麥克風拾音方法都無法將空間劃分為高密度的聲學網(wǎng)格,這限制了麥克風系統(tǒng)識別聲源及其特性的方式。
綜上所述,我們是要選擇空間分辨率較低的模糊聲像還是蘊含高分辨率信息和數(shù)據(jù)的聲學空間呢?
為什么數(shù)以千計的
虛擬麥克風如此有用?
將空間劃分為更小的區(qū)域可以實現(xiàn)更精確的聚焦,這是真正實現(xiàn)全空間精準覆蓋的唯一方法。Microphone Mist技術實現(xiàn)了在空間內創(chuàng)建數(shù)以千計均勻分布的點位的理想拾音方式。
圖9是一個擁有數(shù)以千計獨立虛擬麥克風點位的系統(tǒng)示例,通過Microphone Mist技術,總空間分辨率達到8,192。這是因為,與其他方法一樣,每個點位都被分配了一個空間分辨率值。Microphone Mist技術創(chuàng)建了數(shù)以千計同時存在的虛擬麥克風區(qū)域。與色彩和圖像的高分辨率優(yōu)勢一樣,很明顯,更高的分辨率對于高精度和詳細的聲音信息收集是至關重要的。在聲學領域,Microphone Mist技術可以將一個房間劃分為間隔非常精細的聲學點位。
圖9 通過數(shù)以千計的虛擬麥克風實現(xiàn)空間高分辨率覆蓋
通過將聲學空間劃分為分辨率更高的空間三維網(wǎng)格,Nureva系統(tǒng)可以根據(jù)每個點位的自身特點進行監(jiān)測和分析。這意味著在每個虛擬麥克風點位,系統(tǒng)都會進行測量、分析、定位、處理和報告,從而形成整個空間的綜合聲像呈現(xiàn)。
由于系統(tǒng)不斷收集每個點位的聲學信息,因此可以在整個覆蓋區(qū)域內的相對三維空間中處理單個聲源,不會產生因優(yōu)化某一聲源而忽略房間其他位置的情況。當一個人在邊說話邊打字時,Microphone Mist技術的空間分辨率可以專注于他嘴巴的位置,而弱化鍵盤的位置。這樣,系統(tǒng)就可以區(qū)分出需要和不需要的聲音點位。在房間邊界區(qū)域的講話者(如站在顯示設備前),不必擔心他們是否還在麥克風覆蓋區(qū)。講話者可以邊說邊走,不必考慮麥克風系統(tǒng)的配置情況。在講話者走動時,會通過微小的無縫過渡實時過渡到每個獨立的虛擬麥克風,因為房間內布滿了均勻分布的虛擬麥克風。無論講話者走到房間的哪個位置,都能保證一致的高質量拾音效果。講話者可以在房間內自然地坐下、彎腰、移動,自然的發(fā)言,隨意做手勢或動作,而不必擔心影響拾音效果。
對于如供熱通風與空氣調節(jié)系統(tǒng)噪聲等不需要的噪聲源,系統(tǒng)可以通過智能聲音定位技術對其進行獨特處理。這項技術針對并聚焦于房間內聲源的具體位置,即使是在具有多個聲源的復雜聲學環(huán)境中也是如此。每個有源聲源都與三維空間中的一個點位相關,專有的基于邏輯的處理可以決定如何以及何時將系統(tǒng)集中到新聲源上。
Nureva系統(tǒng)具有更高的空間分辨率,因此可以獲得更精確的聲音信息,從而更好地優(yōu)化麥克風拾音效果、更精確的進行后數(shù)據(jù)處理分析。
放眼未來
綜上所述,數(shù)以千計的虛擬麥克風確實很有效果——它們改變了我們對聲學空間的理解。在不斷變幻的時代,時空距離和疫情等原因所產生的大量不確定性的對音頻會議系統(tǒng)提出了更高的要求,因此,高性能的音頻會議系統(tǒng)變得愈發(fā)重要。
*文章轉自Nureva官方網(wǎng)站
中英文版本有差異之處,以英文版本為準