• 視聽號(hào)

  • 我在現(xiàn)場(chǎng)

  • 微視頻

  • 視聽E刊

  • 積分商城

  • 登陸/注冊(cè)
  • 首頁
  • 資訊
  • 產(chǎn)品
  • 企業(yè)
  • 訪談
  • 會(huì)議
  • 展會(huì)
  • 招標(biāo)
  • 案例
  • 人才
  • 技術(shù)
  • 商情
  • 專題
  • 論壇
  • 視聽●時(shí)尚
  • 耳機(jī)
  •  
  • 直播
  •  
  • 智能音響
  • VR眼鏡
  •  
  •  
  • 投影機(jī)器人
  • 藍(lán)牙音箱
  •  
  • 微投
  •  
  • 播放器
  • 視聽●發(fā)燒
    視聽●家庭
    視聽●商用
    視聽●工程
    視聽●集成
    中國視聽網(wǎng)(www.bfsiu021.cn) > 行業(yè)資訊 > (視頻監(jiān)控) > 2021聲學(xué)熱點(diǎn)全知道——實(shí)時(shí)通信中的音頻技術(shù)
    2021聲學(xué)熱點(diǎn)全知道——實(shí)時(shí)通信中的音頻技術(shù)
    更新:2022-2-15 9:08:20 稿件:21dB聲學(xué)人 調(diào)整大小:【

    2021聲學(xué)行業(yè)大總結(jié)系列文章第二期,21dB聲學(xué)人來和大家聊一聊實(shí)時(shí)通信中的音頻技術(shù)~

    作者:馬文瑤

    2021年實(shí)時(shí)通訊:聲場(chǎng)景分類

    音視頻實(shí)時(shí)通訊產(chǎn)品發(fā)展至今,其產(chǎn)品功能趨于智能化、多樣化、人性化。以廣泛使用的線上會(huì)議產(chǎn)品為例,聲學(xué)場(chǎng)景分類作為近年大熱的技術(shù),極大地提升了線上溝通質(zhì)量。

    聲學(xué)場(chǎng)景分類

    聲學(xué)場(chǎng)景分類(ASC,Acoustic Sence Classifier)技術(shù)落地到線上會(huì)議,被用于自動(dòng)判斷用戶所處的環(huán)境,進(jìn)而自主地做出相應(yīng)的調(diào)整,提高線上溝通質(zhì)量。具體來說,入會(huì)者所處環(huán)境場(chǎng)景千變?nèi)f化,而不同場(chǎng)景需要對(duì)音頻流進(jìn)行不同處理:如檢測(cè)到街道環(huán)境,需要對(duì)風(fēng)噪和交通噪聲進(jìn)行處理;檢測(cè)到嘈雜聲學(xué)場(chǎng)景,自動(dòng)禁止嘈雜端麥克風(fēng);檢測(cè)到音樂場(chǎng)景,不啟動(dòng)降噪算法以使音樂無失真?zhèn)鬏數(shù)綄?duì)端;檢測(cè)到泄漏回聲場(chǎng)景,開啟殘余回聲消除算法[1]。

    圖1 聲學(xué)場(chǎng)景分類算法流程(圖片來源:網(wǎng)絡(luò))

    ASC的作用是對(duì)描述場(chǎng)景位置的預(yù)定義標(biāo)簽中的音頻數(shù)據(jù)進(jìn)行識(shí)別和分類。傳統(tǒng)的分類特征有梅爾頻率倒譜系數(shù)MFCC(Mel-frequency Cepstrum Coefficient)、聲學(xué)事件直方圖或者基于時(shí)頻學(xué)習(xí)的梯度直方圖。傳統(tǒng)的分類模型有隱馬爾可夫模型HMM(Hidden Markov Model)、高斯混合模型GMM(Gaussian Mixture Model)、支持向量機(jī)SVM(Support Vector Machine)[2]。

    當(dāng)前主流是基于深度學(xué)習(xí)的ASC,其處理流程通常包含一下幾個(gè)步驟:傳感器采集環(huán)境信息、數(shù)據(jù)準(zhǔn)備(聲學(xué)表征、預(yù)處理、數(shù)據(jù)增強(qiáng))、數(shù)據(jù)建模(網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)方法)以及最終的評(píng)價(jià)部署。本文主要聚焦于數(shù)據(jù)建模部分,對(duì)以往的工作進(jìn)行了介紹,并考察了2021年度學(xué)者進(jìn)行的改進(jìn)與探索。

    數(shù)據(jù)建模之——網(wǎng)格架構(gòu)

    絕大多數(shù)性能優(yōu)異的ASC算法使用的是卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)架構(gòu)。近年來有層出不窮基于CNN的改進(jìn)算法:Ren等人使用具有全局注意力池化的空洞卷積神經(jīng)網(wǎng)絡(luò)作為分類模型,使用大感受野取代局部池化來固定特征地圖(Feature Map)的大小[3];Koutini等人通過對(duì)感受野進(jìn)行正則化改進(jìn)了ASC性能[4];Basbug等人則是從改進(jìn)聚合局部特征的方式的角度修改了CNN的級(jí)聯(lián)架構(gòu),該架構(gòu)使用的是空間金字塔池化策略[5];Suh等人通過對(duì)輸入特征進(jìn)行網(wǎng)格搜索尋找合適的感受野[6]。

    數(shù)據(jù)建模之——學(xué)習(xí)方法

    現(xiàn)有常用的學(xué)習(xí)方法有:閉集分類——適用于聲學(xué)場(chǎng)景類別固定的數(shù)據(jù)[7];開集分類——適用于實(shí)時(shí)場(chǎng)景,數(shù)據(jù)分布未知[8];多輸入網(wǎng)絡(luò)法——前文所提及的都是基于CNN的ASC算法,其特征輸入都是多維的,而CNN起初是由圖像處理領(lǐng)域引入近音頻處理的,音頻信號(hào)的時(shí)頻譜圖作為特征與圖像有著完全不同的意義,因此有學(xué)者從訓(xùn)練神經(jīng)網(wǎng)絡(luò)能檢測(cè)不同維度的角度出發(fā),將頻譜圖劃分子帶,稱為多輸入網(wǎng)絡(luò);注意力機(jī)制[9];遷移學(xué)習(xí)——即充分利用機(jī)器視覺領(lǐng)域使用過的的網(wǎng)絡(luò)結(jié)構(gòu);集成學(xué)習(xí)——對(duì)多個(gè)模型進(jìn)行集成,在學(xué)術(shù)領(lǐng)域的活躍程度較高,在工程領(lǐng)域由于時(shí)間和資源的限制無法落地。

    2021年度難點(diǎn)與探索

    難點(diǎn)一:由于同一類聲場(chǎng)景的不同音頻樣本所包含的聲事件并不總是相同的,而不同類場(chǎng)景的音頻樣本卻極有可能包含相同的聲事件,導(dǎo)致類內(nèi)間差較大,而類間間差較小。針對(duì)此技術(shù)難點(diǎn),Chon等人引入兩個(gè)不同結(jié)構(gòu)的CNN進(jìn)行雙尺度深度嵌入的學(xué)習(xí),以期能夠有效地學(xué)習(xí)表征出不同聲場(chǎng)景的特征差異[12]。

    難點(diǎn)二:不同聲場(chǎng)景的時(shí)頻尺度不一致。對(duì)此,Xie等人從時(shí)頻結(jié)構(gòu)出發(fā)提出了一種融合結(jié)構(gòu),利用短時(shí)傅里葉變換、常數(shù)Q變換、小波變換推導(dǎo)出一種融合時(shí)頻表征[13]。

    難點(diǎn)三:CNN模型作為ASC系統(tǒng)實(shí)現(xiàn)的主流選擇,通常包含大量參數(shù),計(jì)算復(fù)雜度高,在較低的參數(shù)存儲(chǔ)容量水平下難以保證ASC性能。對(duì)此Shi等人提出了一種低復(fù)雜度的基于原始環(huán)境生成數(shù)據(jù)的ASC[14],其核心為主環(huán)境提取PAE(Primary Ambient Extraction)。

    主環(huán)境提取

    以往的工作主要集中在模型層面的優(yōu)化,Shi等人另辟蹊徑,從數(shù)據(jù)層出發(fā)進(jìn)行優(yōu)化,提出主環(huán)境提取PAE,讓人耳目一新。為了降低計(jì)算復(fù)雜度,還提出了PAE的快速實(shí)現(xiàn)Fast PAE。

    PAE算法最初提出的目的是將立體聲音頻剪輯混合到任意數(shù)量的信道中,以便由多信道再現(xiàn)系統(tǒng)播放。它假設(shè)在立體聲音頻的每個(gè)通道中都有一個(gè)主分量和一個(gè)環(huán)境分量,Shi等人恰是從該應(yīng)用的逆向進(jìn)行思考。但是考慮到主成分和環(huán)境成分與原始立體聲音頻的數(shù)據(jù)分布不同,則將主成分和環(huán)境分量按照隨機(jī)權(quán)重進(jìn)行混合,得到與原始立體聲音頻樣本相關(guān)的增強(qiáng)樣本,從而在不改變?cè)紨?shù)據(jù)分布的情況下有效地提高了數(shù)據(jù)的泛化程度。通過優(yōu)化搜索策略,作者還進(jìn)而得到了一種快速算法稱為Fast PAE。實(shí)驗(yàn)結(jié)果證明該Fast PAE計(jì)算復(fù)雜度和其他算法相比有明顯優(yōu)勢(shì)。


    圖2 使用PAE算法生成數(shù)據(jù)


    圖3 處理多樣本的時(shí)間成本比較

    回顧前述所有的ASC算法,現(xiàn)有的改進(jìn)角度包括但不限于:分類器設(shè)計(jì)、數(shù)據(jù)增強(qiáng)方案、特征提取方案、子模型數(shù)量、外部數(shù)據(jù)引用情況、嵌入層設(shè)計(jì),模型壓縮方案。展望2022,在上述角度依然有改進(jìn)的空間,但是基于機(jī)器學(xué)習(xí)的ASC算法從機(jī)器視覺領(lǐng)域受啟發(fā)頗多,未來可以更多考慮充分利用音頻信號(hào)的譜特征。此外,挑戰(zhàn)低復(fù)雜度依然是解決工程領(lǐng)域與學(xué)術(shù)領(lǐng)域無法同步的必然方向。

    參考文獻(xiàn):

    (圖片來源:網(wǎng)絡(luò))

    [1]Cloud.tencent.com

    [2]Mesaros A, Heittola T, Benetos E, et al. Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(2): 379–393.)

    [3]Ren, Z.; Kong, Q.; Han, J.; Plumbley, M.D.; Schuller, B.W. Attention based Atrous Convolutional Neural Networks: Visualisation and Understanding Perspectives of Acoustic Scenes. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 56–60.

    [4]Koutini, K.; Eghbal-zadeh, H.; Widmer, G. Receptive-Field-Regularized CNN Variants for Acoustic Scene Classification. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 124–128.

    [5]Basbug, A.M.; Sert, M. Acoustic Scene Classification Using Spatial Pyramid Pooling with Convolutional Neural Networks. In Proceedings of the 13th IEEE International Conference on Semantic Computing (ICSC), Newport, CA, USA, 30 January–1 February 2019; pp. 128–131.

    [6]Suh, Sangwon, Sooyoung Park, Youngho Jeong and Taejin Lee. Designing Acoustic Scene Classification Models with CNN Variants Technical Report.2020.

    [7]Saki, F.; Guo, Y.; Hung, C.Y. Open-Set Evolving Acoustic Scene Classification System. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 219–223.

    [8]Wilkinghoff, K.; Frank Kurth. Open-Set Acoustic Scene Classification with Deep Convolutional Autoencoders. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 258–262.

    [9]Mcdonnell, M.D.; Gao, W. Acoustic Scene Classification Using Deep Residual Networks With Late Fusion of Separated High and Low Frequency Paths. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019.

    [10]Phaye, S.S.R.; Benetos, E.; Wang, Y. Subspectralnet—Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 825–829.

    [11]Wang, C.Y.; Santoso, A.; Wang, J.C. Acoustic Scene Classification using Self-Determination Convolutional Neural Network. In Proceedings of the 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Honolulu, HI, USA, 2–15 November 2018; pp. 19–22.

    [12]H. K. Chon et al., Acoustic Scene Classification Using Aggregation of Two-Scale Deep Embeddings, 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1341-1345.

    [13]W. Xie, Q. He, H. Yan and Y. Li, "Acoustic Scene Classification Using Deep CNNs With Time-Frequency Representations," 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1325-1329.

    [14]C. Shi, H. Yang, Y. Liu and J. Liang, Low-Complexity Acoustic Scene Classification Using Data Generation Based On Primary Ambient Extraction,2021 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2021, pp. 1-5.

     網(wǎng)友評(píng)論
     編輯推薦
    • 2021 SIAV上海國際高級(jí)HiFi演示會(huì)展會(huì)_聯(lián)合HiFi專題
    • 2019年視聽行業(yè)大型活動(dòng)之走進(jìn)企業(yè)(西安)
    • 2019年視聽行業(yè)大型活動(dòng)之走進(jìn)企業(yè)(河南)
    • 2019視聽行業(yè)萬里行系列活動(dòng)——走進(jìn)河南
    • 懂得分享,所以精彩丨京秀·2021視聽行業(yè)高峰論壇圓滿舉行
    • 破局創(chuàng)新,共襄盛舉丨2021視聽行業(yè)高峰論壇蓄勢(shì)待發(fā)
    • 2021視聽行業(yè)高峰論壇暨萬里行全國巡展武漢站順利召開
    • 全國首場(chǎng)!2021京東方晶芯科技有限公司合作伙伴大會(huì)亮相魔都