從“智能”到“實(shí)用”的飛躍。隨著專為高級音頻和機(jī)器學(xué)習(xí)應(yīng)用程序而設(shè)計(jì)的音頻邊緣處理器解決音頻源分類的難題,智能家居設(shè)備的實(shí)用性將不斷提高。
本文由樓氏電子Raj Senguttuvan和Vikram Shrivastava合作撰寫。
人工智能(AI)在我們的日常生活中越來越廣泛和深入。
人工智能和機(jī)器學(xué)習(xí)(ML)進(jìn)入家庭仍處于早期階段,但潛力無限。 隨著AI功能的不斷增加,市場每年都會推出新設(shè)備和新電器。通過這些設(shè)備生成的數(shù)據(jù),設(shè)備制造商能夠了解用戶習(xí)慣,并使用ML算法預(yù)測用戶未來的使用模式,從而提供更好的用戶體驗(yàn)。
在未來的智能家居中,AI可以根據(jù)預(yù)設(shè)的日常程序,通過對環(huán)境的隨時感知,自動控制燈光、電器和消費(fèi)電子產(chǎn)品。例如,智能恒溫器將能夠了解不同家庭成員的喜好,根據(jù)他們的聲音特征識別他們是否在家里,并根據(jù)個人使用記錄在本地調(diào)節(jié)溫度。同樣,除了具有語音控制功能外,智能洗衣機(jī)還能夠自動感應(yīng)負(fù)載不平衡或漏水現(xiàn)象,并能夠調(diào)整設(shè)置或發(fā)送警報以防止發(fā)生故障。具有AI功能的智能冰箱能夠識別食物和理解消費(fèi)模式,會在適當(dāng)?shù)臅r候自動提供購物和消費(fèi)建議。 另外,智能顯示器或鏡子能夠識別用戶的語音或音頻事件,并自動提供建議或提醒。
以邊緣技術(shù)實(shí)現(xiàn)智能化
雖然人工智能可能會對我們家庭生活的各個方面產(chǎn)生積極影響,但是有些用戶可能會因?yàn)殡[私等問題而對AI的作用持謹(jǐn)慎態(tài)度。當(dāng)用戶的個人數(shù)據(jù)發(fā)送到云端進(jìn)行處理時,這些問題會更加嚴(yán)重。有幾次數(shù)據(jù)泄露事件都是黑客攔截并竊取了消費(fèi)者的個人數(shù)據(jù)。除此之外,還有帶寬和延時限制問題,因此許多設(shè)備制造商越來越多地考慮在設(shè)備中使用邊緣處理器來本地運(yùn)行ML任務(wù)。一些市場研究報告顯示,由于采用基于邊緣的ML技術(shù),邊緣處理器的出貨量增長將超過25%。
為了在智能家居中實(shí)現(xiàn)設(shè)備“智能化”,有幾種ML算法可以使用。在大多數(shù)應(yīng)用中,這些算法可以識別用戶身份、用戶動作并學(xué)習(xí)用戶行為,以便自動執(zhí)行任務(wù)或提供建議和提醒。在ML術(shù)語中,一個分類問題是識別用戶身份或用戶動作。在本文中,我們專門介紹音頻源分類。
高級音頻和語音識別
具有高級音頻和語音識別功能的智能家居設(shè)備和電器可以使用聲音場景分類和檢測場景內(nèi)聲音事件來識別用戶、接收命令并調(diào)用動作。用戶在家里的活動是一個豐富的聲音信號數(shù)據(jù)集,這些聲音信號包括語音。雖然語音是最具信息性的聲音,但其他聲音事件往往也具有有用的信息。講話期間的笑聲或咳嗽聲、嬰兒哭聲、鬧鈴響聲或開門聲等,都能提供有用的數(shù)據(jù)來驅(qū)動智能動作。
事件識別的過程基于特征提取和分類。在最近的文獻(xiàn)中已經(jīng)公開了幾種用于音頻事件(AE)識別的方法。這些方法背后的基本原理是,獨(dú)特的聲音事件特征與聲音背景特征不同。音頻源分類算法能夠檢測和識別聲音事件。這個過程分為兩個階段 – 1) 檢測聲音事件;2) 分類。檢測的目的是首先識別前景事件和背景音頻,然后打開分類器對聲音進(jìn)行分類。
預(yù)計(jì)未來的智能家居設(shè)備將同時具有音頻事件識別和自動語音識別功能。圖1展示了這種智能家居系統(tǒng)的一般概念。
音頻事件識別是對自動語音識別(ASR)的補(bǔ)充,可以驅(qū)動智能操作
通過音頻源分類識別聲音事件
目前已有多種信號處理和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于音頻分類問題,包括矩陣分解含聲、字典學(xué)習(xí)、小波濾波器組和最近發(fā)展的神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠?qū)W習(xí)和識別代表不同聲音的模式,即使部分聲音被其他來源(如噪聲)所掩蓋也能識別,因此廣受歡迎。然而,CNN依賴于大量標(biāo)記數(shù)據(jù)訓(xùn)練系統(tǒng)。盡管語音由于移動設(shè)備和智能音箱大量采用ASR而擁有大規(guī)模的音頻語料庫,但非語音環(huán)境音頻信號的標(biāo)記數(shù)據(jù)集相對較少。近年來發(fā)布了一些新的數(shù)據(jù)集。預(yù)計(jì)隨著智能家居設(shè)備的普及,非語音聲音事件的音頻語料庫將持續(xù)增長。
聲音事件識別軟件和工具
使用源分類的音頻事件識別軟件可通過多個算法供應(yīng)商獲得,包括Sensory、Audio Analytic和Edge Impulse等供應(yīng)商。這些供應(yīng)商提供對模型進(jìn)行預(yù)訓(xùn)練的聲音庫,同時還提供用于構(gòu)建模型和識別自定義聲音的工具包。在邊緣處理器上實(shí)現(xiàn)音頻事件識別時,必須認(rèn)真考慮如何權(quán)衡功耗與準(zhǔn)確性的問題。
還有多個開源庫和模型可供選擇。在此,我們基于YAMNet [Yet another Audio Mobilenet Network(還有另一個音頻移動網(wǎng)絡(luò))]提供音頻事件分類的結(jié)果。YAMNet是TensorFlow中心的開源預(yù)訓(xùn)練模型,已經(jīng)對數(shù)以百萬計(jì)的YouTube視頻進(jìn)行了音頻事件預(yù)測訓(xùn)練。該網(wǎng)絡(luò)以MobileNet架構(gòu)為基礎(chǔ),非常適合嵌入式應(yīng)用程序,可以為應(yīng)用程序開發(fā)者提供很好的基準(zhǔn)。下表顯示了一個簡單的YAMNet分類器(小于200KB)的仿真結(jié)果。可以看出,這種小型分類器能夠在無噪聲的條件下和有噪聲的情況下以足夠的精確度檢測一些常見的音頻事件。如表1所示,模型的TPR(真正類率)性能隨著信號的信噪比而增加。該表所列的數(shù)據(jù)僅是概括性地說明這一概念。實(shí)際上,應(yīng)用程序開發(fā)人員需要花費(fèi)大量的時間來訓(xùn)練和優(yōu)化這些模型,以便在測試條件下準(zhǔn)確地檢測聲音。
使用YAMNet源分類器的TPR
IA8201是運(yùn)行源分類算法的最佳選擇
在智能家居系統(tǒng)中,圖1所示的計(jì)算模塊是音頻處理鏈的關(guān)鍵組件。ML算法通常用于執(zhí)行這些任務(wù),而矩陣運(yùn)算對于ML算法的執(zhí)行卻至關(guān)重要。根據(jù)應(yīng)用程序的類型,可能需要執(zhí)行上億次乘加運(yùn)算。因此,ML處理器必須有一個快速、高效的矩陣乘法器作為主計(jì)算引擎。
Knowles AISonic™ IA8201:Dual Core是一款音頻邊緣處理器,專門為高級音頻和機(jī)器學(xué)習(xí)應(yīng)用設(shè)計(jì),可實(shí)現(xiàn)高效節(jié)能的邊緣計(jì)算。IA8201除了支持高級語音處理和音頻輸出功能外,還能在智能家居應(yīng)用中以非常低的功耗運(yùn)行音頻事件(AE)識別用例。其中一個內(nèi)核具有執(zhí)行矩陣矢量乘法器(MVM)處理的最優(yōu)定制指令集,這是運(yùn)行分類例程的關(guān)鍵。該處理器的其他功能包括:1MB RAM、64位/128位總線(用于高吞吐量數(shù)據(jù)傳輸)、ML硬件加速器以及稀疏矩陣支持(可在精度和內(nèi)存之間實(shí)現(xiàn)適當(dāng)平衡。IA8201 SDK還提供了支持TensorFlow lite的加速庫,使設(shè)計(jì)人員能夠使用標(biāo)準(zhǔn)框架和工具來縮短設(shè)計(jì)周期。
結(jié)論
隨著專為高級音頻和機(jī)器學(xué)習(xí)應(yīng)用程序而設(shè)計(jì)的音頻邊緣處理器解決音頻源分類的難題,我們所熟知的智能設(shè)備將變得智能與實(shí)用兼?zhèn)。樓氏電子邊緣處理器將使智能家居設(shè)備和電器更加安全、更加個性化。