從“智能”到“實用”的飛躍。隨著專為高級音頻和機器學習應用程序而設計的音頻邊緣處理器解決音頻源分類的難題,智能家居設備的實用性將不斷提高。
本文由樓氏電子Raj Senguttuvan和Vikram Shrivastava合作撰寫。
人工智能(AI)在我們的日常生活中越來越廣泛和深入。
人工智能和機器學習(ML)進入家庭仍處于早期階段,但潛力無限。 隨著AI功能的不斷增加,市場每年都會推出新設備和新電器。通過這些設備生成的數(shù)據(jù),設備制造商能夠了解用戶習慣,并使用ML算法預測用戶未來的使用模式,從而提供更好的用戶體驗。
在未來的智能家居中,AI可以根據(jù)預設的日常程序,通過對環(huán)境的隨時感知,自動控制燈光、電器和消費電子產(chǎn)品。例如,智能恒溫器將能夠了解不同家庭成員的喜好,根據(jù)他們的聲音特征識別他們是否在家里,并根據(jù)個人使用記錄在本地調(diào)節(jié)溫度。同樣,除了具有語音控制功能外,智能洗衣機還能夠自動感應負載不平衡或漏水現(xiàn)象,并能夠調(diào)整設置或發(fā)送警報以防止發(fā)生故障。具有AI功能的智能冰箱能夠識別食物和理解消費模式,會在適當?shù)臅r候自動提供購物和消費建議。 另外,智能顯示器或鏡子能夠識別用戶的語音或音頻事件,并自動提供建議或提醒。
以邊緣技術(shù)實現(xiàn)智能化
雖然人工智能可能會對我們家庭生活的各個方面產(chǎn)生積極影響,但是有些用戶可能會因為隱私等問題而對AI的作用持謹慎態(tài)度。當用戶的個人數(shù)據(jù)發(fā)送到云端進行處理時,這些問題會更加嚴重。有幾次數(shù)據(jù)泄露事件都是黑客攔截并竊取了消費者的個人數(shù)據(jù)。除此之外,還有帶寬和延時限制問題,因此許多設備制造商越來越多地考慮在設備中使用邊緣處理器來本地運行ML任務。一些市場研究報告顯示,由于采用基于邊緣的ML技術(shù),邊緣處理器的出貨量增長將超過25%。
為了在智能家居中實現(xiàn)設備“智能化”,有幾種ML算法可以使用。在大多數(shù)應用中,這些算法可以識別用戶身份、用戶動作并學習用戶行為,以便自動執(zhí)行任務或提供建議和提醒。在ML術(shù)語中,一個分類問題是識別用戶身份或用戶動作。在本文中,我們專門介紹音頻源分類。
高級音頻和語音識別
具有高級音頻和語音識別功能的智能家居設備和電器可以使用聲音場景分類和檢測場景內(nèi)聲音事件來識別用戶、接收命令并調(diào)用動作。用戶在家里的活動是一個豐富的聲音信號數(shù)據(jù)集,這些聲音信號包括語音。雖然語音是最具信息性的聲音,但其他聲音事件往往也具有有用的信息。講話期間的笑聲或咳嗽聲、嬰兒哭聲、鬧鈴響聲或開門聲等,都能提供有用的數(shù)據(jù)來驅(qū)動智能動作。
事件識別的過程基于特征提取和分類。在最近的文獻中已經(jīng)公開了幾種用于音頻事件(AE)識別的方法。這些方法背后的基本原理是,獨特的聲音事件特征與聲音背景特征不同。音頻源分類算法能夠檢測和識別聲音事件。這個過程分為兩個階段 – 1) 檢測聲音事件;2) 分類。檢測的目的是首先識別前景事件和背景音頻,然后打開分類器對聲音進行分類。
預計未來的智能家居設備將同時具有音頻事件識別和自動語音識別功能。圖1展示了這種智能家居系統(tǒng)的一般概念。
音頻事件識別是對自動語音識別(ASR)的補充,可以驅(qū)動智能操作
通過音頻源分類識別聲音事件
目前已有多種信號處理和機器學習技術(shù)應用于音頻分類問題,包括矩陣分解含聲、字典學習、小波濾波器組和最近發(fā)展的神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡(CNN)能夠?qū)W習和識別代表不同聲音的模式,即使部分聲音被其他來源(如噪聲)所掩蓋也能識別,因此廣受歡迎。然而,CNN依賴于大量標記數(shù)據(jù)訓練系統(tǒng)。盡管語音由于移動設備和智能音箱大量采用ASR而擁有大規(guī)模的音頻語料庫,但非語音環(huán)境音頻信號的標記數(shù)據(jù)集相對較少。近年來發(fā)布了一些新的數(shù)據(jù)集。預計隨著智能家居設備的普及,非語音聲音事件的音頻語料庫將持續(xù)增長。
聲音事件識別軟件和工具
使用源分類的音頻事件識別軟件可通過多個算法供應商獲得,包括Sensory、Audio Analytic和Edge Impulse等供應商。這些供應商提供對模型進行預訓練的聲音庫,同時還提供用于構(gòu)建模型和識別自定義聲音的工具包。在邊緣處理器上實現(xiàn)音頻事件識別時,必須認真考慮如何權(quán)衡功耗與準確性的問題。
還有多個開源庫和模型可供選擇。在此,我們基于YAMNet [Yet another Audio Mobilenet Network(還有另一個音頻移動網(wǎng)絡)]提供音頻事件分類的結(jié)果。YAMNet是TensorFlow中心的開源預訓練模型,已經(jīng)對數(shù)以百萬計的YouTube視頻進行了音頻事件預測訓練。該網(wǎng)絡以MobileNet架構(gòu)為基礎,非常適合嵌入式應用程序,可以為應用程序開發(fā)者提供很好的基準。下表顯示了一個簡單的YAMNet分類器(小于200KB)的仿真結(jié)果?梢钥闯觯@種小型分類器能夠在無噪聲的條件下和有噪聲的情況下以足夠的精確度檢測一些常見的音頻事件。如表1所示,模型的TPR(真正類率)性能隨著信號的信噪比而增加。該表所列的數(shù)據(jù)僅是概括性地說明這一概念。實際上,應用程序開發(fā)人員需要花費大量的時間來訓練和優(yōu)化這些模型,以便在測試條件下準確地檢測聲音。
使用YAMNet源分類器的TPR
IA8201是運行源分類算法的最佳選擇
在智能家居系統(tǒng)中,圖1所示的計算模塊是音頻處理鏈的關(guān)鍵組件。ML算法通常用于執(zhí)行這些任務,而矩陣運算對于ML算法的執(zhí)行卻至關(guān)重要。根據(jù)應用程序的類型,可能需要執(zhí)行上億次乘加運算。因此,ML處理器必須有一個快速、高效的矩陣乘法器作為主計算引擎。
Knowles AISonic™ IA8201:Dual Core是一款音頻邊緣處理器,專門為高級音頻和機器學習應用設計,可實現(xiàn)高效節(jié)能的邊緣計算。IA8201除了支持高級語音處理和音頻輸出功能外,還能在智能家居應用中以非常低的功耗運行音頻事件(AE)識別用例。其中一個內(nèi)核具有執(zhí)行矩陣矢量乘法器(MVM)處理的最優(yōu)定制指令集,這是運行分類例程的關(guān)鍵。該處理器的其他功能包括:1MB RAM、64位/128位總線(用于高吞吐量數(shù)據(jù)傳輸)、ML硬件加速器以及稀疏矩陣支持(可在精度和內(nèi)存之間實現(xiàn)適當平衡。IA8201 SDK還提供了支持TensorFlow lite的加速庫,使設計人員能夠使用標準框架和工具來縮短設計周期。
結(jié)論
隨著專為高級音頻和機器學習應用程序而設計的音頻邊緣處理器解決音頻源分類的難題,我們所熟知的智能設備將變得智能與實用兼?zhèn)。樓氏電子邊緣處理器將使智能家居設備和電器更加安全、更加個性化。