人類高度依賴對聲音的感知,從某些角度出發(fā)甚至高于對于視覺的依賴。海倫凱勒說:盲隔離人和物,聾隔離人和人??梢哉f聲音是人與人交互最重要的手段。人對聲音的高度依賴從生到死永不停息,耳朵是一生從不關(guān)斷的感應(yīng)裝置,即使在睡眠中也始終保持敏銳,每時每刻都在接收環(huán)境內(nèi)所有的聲音并傳遞給大腦。因此,在人工智能時代,聲音也將是人機交互的最重要手段之一。
也正因為人類對聲音感知的高度依賴,人類對美好聲音的追求永無止境。從最早的留聲機到收錄機 、從CD到 MP3,從藍(lán)牙音箱 到TWS 耳機,人們對高品質(zhì)音頻體驗的追求更是永不停息,昨天發(fā)燒友的愿望往往成為明天普通人的標(biāo)配。相伴而行的是人們持續(xù)對于音頻產(chǎn)品便攜化,小型化,長待機的需求。
歷史證明了,音頻產(chǎn)品雖然歷史悠久,但卻常常在各個時代引領(lǐng)時尚。從早期的留聲機到八十年代的收錄機成為家庭和街頭的時尚,從70年代的三轉(zhuǎn)一響到80-90年代八大件作為結(jié)婚標(biāo)配,都有音頻產(chǎn)品引領(lǐng)時尚的歷史痕跡。蘋果公司是全球最具創(chuàng)新力的公司之一, 多次以顛覆性的創(chuàng)新改變?nèi)藗兊纳?,其中有兩次都是以音頻產(chǎn)品成功引領(lǐng)時尚, 一次是iPod引領(lǐng) MP3 便攜式音頻的新體驗,其后是Airpods引領(lǐng)TWS耳機風(fēng)潮。
近幾年,以亞馬遜Alexa為標(biāo)志的智能音箱風(fēng)靡一時,帶來了人機語音互動的新體驗。新一代基于語音互動的ChatGPT則讓所有人對于未來的AI體驗有了無盡的想象空間。相信在AI 時代,AI化的音頻產(chǎn)品依然會引領(lǐng) AI 時代的時尚,最早落地生根。而芯片,是讓這些引領(lǐng)時尚的音頻產(chǎn)品成為現(xiàn)實的核心,音頻 AI 化必將再一次驅(qū)動芯片跳躍式創(chuàng)新。
2023年11月10日,炬芯科技股份有限公司董事長兼CEO周正宇博士受邀出席中國集成電路設(shè)計業(yè)2023年會(ICCAD2023),結(jié)合音頻領(lǐng)域的發(fā)展趨勢及AI時代熱潮,分享便攜式產(chǎn)品如何在AI時代打造高算力,發(fā)表主題演講:《煥新聲音活力:AI驅(qū)動下的音頻芯片創(chuàng)新》。
? 低功耗前提下打造高算力是便攜式AI音頻SoC的核心基礎(chǔ)
周正宇博士指出:AI時代,對于音頻穿戴或者音頻便攜式產(chǎn)品而言,提升AI體驗的挑戰(zhàn)和機遇,是如何在每毫瓦功耗上打造盡可能大的算力,而不是簡單追求大算力絕對值。以電池供電為基礎(chǔ)的便攜式音頻或者穿戴產(chǎn)品,成功AI化的核心訴求是在低功耗下打造大算力,才能實現(xiàn)更好的AI體驗。
算力和功耗兩者是矛盾的統(tǒng)一體,大算力必然需要更大的功耗,功耗的增大又成為算力提升的障礙。周正宇博士提到,“實現(xiàn)單位mW下算力的數(shù)量級提升不能光是期待和依賴先進工藝,必須在計算架構(gòu)和芯片電路實現(xiàn)上進行創(chuàng)新。”
以最典型的兩種穿戴產(chǎn)品:TWS耳機和智能手表為例,基于4.2V的鋰電池供電, 其使用的典型完整功能 SoC平均工作電流一般在3-5mA;也就是說, 便攜式音頻或穿戴產(chǎn)品核心SoC整體功耗總預(yù)算在15-20mW以下,在電池技術(shù)沒有革命性變革的情況下,便攜式音頻或穿戴產(chǎn)品SoC應(yīng)該以10mW或者以下的功耗預(yù)算來打造更大的AI算力。
通過對當(dāng)下較著名的不同領(lǐng)域AI模型和算法所需算力進行系統(tǒng)的分析和歸納,AI音頻模型算力需求基本在1TOPS 以下,并且典型算力在200-500GOPS即可提供很好的音頻AI體驗。所以,我們面對的挑戰(zhàn)是如何在低于10mW的功耗下打造200-500 GOPS的AI算力。200-500GOPS的算力貌似挑戰(zhàn)不大,幾乎所有的NPU IP都能達(dá)成,但在10mW以下的功耗預(yù)算內(nèi)達(dá)成卻極具挑戰(zhàn)。
以基于傳統(tǒng)計算架構(gòu)的NPU周易公開數(shù)據(jù)為例,它在28nm下能效比約2TOPS/W, ?也就是說200-500GOPS需要100-250mW的功耗,比10mW以下的功耗預(yù)算高了10-25倍以上。即便使用7nm,周易可以達(dá)成10TOPS/W,但功耗仍有20-50mW,僅進入了合理的量級,依然高了2-5倍。換而言之,即使使用7nm先進工藝,在功耗限制下依然只能提供比目標(biāo)值低很多的算力。
也就是說,要達(dá)到“10mW以下功耗預(yù)算打造200-500GOPS的音頻AI算力”的目標(biāo),傳統(tǒng)馮諾依曼計算架構(gòu)必須依賴比7nm更先進的工藝,如5nm或者3nm,并且這都還是假設(shè)傳統(tǒng)NPU能夠發(fā)揮百分百的計算效率, 不受“存儲墻”和“功耗墻”的限制。
馮諾依曼計算架構(gòu)的特點是存儲和計算是完全分離的,由于處理器的設(shè)計以提升計算速度為主,存儲則更注重容量提升和成本優(yōu)化,“存” “算”之間性能失配從而導(dǎo)致了訪存帶寬低、時延長、功耗高等問題,主要功耗消耗及性能瓶頸在存和算之間的數(shù)據(jù)搬移,即通常所說的“存儲墻”和“功耗墻”。訪存愈密集,速度越快,“墻”的問題愈嚴(yán)重,算力提升愈困難。
為了突破馮諾伊曼架構(gòu)的“存儲墻”和“功耗墻”,存內(nèi)計算(Compute-In-Memory,簡稱CIM)是一種富有潛力的技術(shù)路徑。在芯片設(shè)計過程中,不再區(qū)分存儲單元和計算單元,真正實現(xiàn)存算融合,在存儲單元上實現(xiàn)計算,直接消除“存”“算”界限,使計算能效達(dá)到數(shù)量級提升。這樣的一種極度的近鄰的布局,基本上完全消除了數(shù)據(jù)移動延遲和功耗, 是解決傳統(tǒng)馮諾依曼架構(gòu)下存儲墻與功耗墻問題的關(guān)鍵技術(shù)。
當(dāng)下,基于幾種最普及的存儲介質(zhì),例如Flash, DRAM, SRAM和其它新興Memory發(fā)展CIM各有優(yōu)缺點和合理的應(yīng)用領(lǐng)域?;贔lash的CIM最大問題在于寫速度慢而且寫的次數(shù)有限制,寫多次后芯片就壞了,同時它需要使用特殊工藝,雖成熟但不宜和SoC的其他電路整合,不是CIM技術(shù)的理想選擇。基于DRAM的CIM雖然沒有寫次數(shù)的限制,但相對能效比在四種介質(zhì)中最低,不適合低功耗算力的打造,同時DRAM也是特殊工藝無法在SoC集成,但它具備密度高的優(yōu)勢,所以適合云計算、服務(wù)器類打造超大算力采用。新興的存儲介質(zhì)如RRAM、MRAM等雖然理論上具備非常多的優(yōu)勢,未來可能給大家?guī)眢@喜,但當(dāng)前工藝極其不成熟,還沒有到可大規(guī)模量產(chǎn)的階段。
而基于SRAM的CIM最大缺點是密度低不適合適用在超大算力(如幾十TOPS的AI應(yīng)用) ,然而上述討論音頻AI應(yīng)用并不需要超大算力(僅0.2-0.5TOS),有效規(guī)避了SRAM的密度相對小的弱點。
于是在低功耗下打造音頻產(chǎn)品算力的應(yīng)用里,基于SRAM的CIM具有非常顯著的技術(shù)優(yōu)勢包括:
能效比高,功耗低,讀寫速度快,適合低功耗高性能裝置使用
寫次數(shù)沒有限制,適用于模型反復(fù)調(diào)整的,基于自學(xué)習(xí)或者自適應(yīng)的AI模型和算法,也便于需要經(jīng)常切換模型的支持多種神經(jīng)網(wǎng)絡(luò)算法的自適應(yīng)調(diào)節(jié)和分時處理
工藝成熟,可大規(guī)模量產(chǎn)。標(biāo)準(zhǔn)CMOS工藝成熟,穩(wěn)定,普適,所有的FAB都可大規(guī)模生產(chǎn)
工藝領(lǐng)先,適合集成。容易采用最先進的工藝節(jié)點,方便在任何工藝節(jié)點實現(xiàn)單芯SoC 集成。
周正宇博士總結(jié):針對低功耗的音頻SoC,基于SRAM的CIM是目前打造低功耗音頻AI算力的首選。
? 在極低的功耗預(yù)算下達(dá)成為便攜式或穿戴產(chǎn)品提供音頻 AI 算力
基于SRAM的CIM電路實現(xiàn)有兩種主流的實現(xiàn)方法,一是基于純模擬設(shè)計的電路實現(xiàn),另一種是基于模數(shù)混合設(shè)計的電路實現(xiàn)。它們的主要差異在于模擬CIM的運算單元以ADC和模擬乘法器和加法器實現(xiàn)運算單元,而模數(shù)混合的CIM的運算單元則是使用custom-design的方式來融合存儲單元和實現(xiàn)數(shù)字的邏輯運算單元。周正宇博士提出,炬芯科技選擇了基于模數(shù)混合電路的SRAM存內(nèi)計算(Mixed-Mode SRAM based CIM,簡稱MMSCIM)的技術(shù)路徑,它兼?zhèn)淠M和數(shù)字電路各有的優(yōu)勢,當(dāng)然設(shè)計的壁壘也相對高。
相對于模擬CIM的設(shè)計思路,MMSCIM有幾個明顯的好處:
精度是無損的,模擬是會受電路的噪聲和環(huán)境因素的干擾,每一次計算出來的結(jié)果并不完全一致,精度有損失。
數(shù)字實現(xiàn)運算單元具有高可靠性和高量產(chǎn)一致性,這是數(shù)字化天生的優(yōu)勢。
易于工藝升級和不同F(xiàn)AB間的設(shè)計轉(zhuǎn)換。
容易提升速度,進行性能/功耗/面積(PPA)的優(yōu)化。
資料的讀取與計算在 SRAM 內(nèi)部是同步的,能效比更高。
自適應(yīng)模型的稀疏性易基于此提升能效比。
MMSCIM基于已經(jīng)實現(xiàn)的Testchip測試和估算結(jié)果,在22nm工藝下能效比能達(dá)到7.8TOPS/W,接近使用7nm先進工藝實現(xiàn)的傳統(tǒng)架構(gòu)NPU;MMSCIM預(yù)計在16nm下能效比能達(dá)到15.6TOPS/W,高于7nm先進工藝下傳統(tǒng)架構(gòu)的NPU。但10mW以下的功耗下依然不足以打造出200-500GOPS算力的需求,所以技術(shù)上還需要繼續(xù)創(chuàng)新。
周正宇博士提出, 利用AI矩陣計算的稀疏性提升能效比將是一個重要突破口。音頻算法的AI模型大部分具有矩陣稀疏性的特性,也就是有許多模型參數(shù)為零,遇到零可以不做運算,以便節(jié)省功耗。傳統(tǒng)NPU可以通過特殊邏輯電路設(shè)計來執(zhí)行Skip-Zero技巧以降低功耗。然而, 這種Skip-Zero的邏輯電路對于一維AI算子相對容易實現(xiàn), 但面臨2D算子則實現(xiàn)挑戰(zhàn)較大, 而且需要付出額外邏輯電路成本和功耗的代價,使得Skip Zero所提升的能效比有所打折。
而MMSCIM卻擁有天生的自適應(yīng)稀疏矩陣的特性,乘法運算單元遇到輸入零則不耗電,無論1D或2D的算子,都能無需附加邏輯電路的幫助自然達(dá)成Skip-Zero的效果,使得MMSCIM技術(shù)渾然天成達(dá)到更好的能效比。
炬芯科技透過仿真分析, 當(dāng)矩陣稀疏性在50%-80%的范圍內(nèi),MMSCIM在22nm可以達(dá)成24.5TOPS/W-70.38TOPS/W的能效比,對應(yīng)10mW功耗可以打造245GOPS-704GOPS算力。而在12nm的實現(xiàn)下, 在矩陣稀疏性在20%-50%的范圍內(nèi),能效比就達(dá)成23.5-46.9TOPS/W, ?對應(yīng)10mW的算力可達(dá)235GOPS-469GOPS。
所以,基于模數(shù)混合設(shè)計的 SRAM based存內(nèi)計算(MMSCIM),在稀疏矩陣的加持下,兩者有機結(jié)合,可以在極低的功耗預(yù)算下,可達(dá)成為便攜式音頻或穿戴產(chǎn)品提供音頻 AI 算力的目標(biāo),即“在10mW以下功耗預(yù)算打造200-500GOPS的音頻AI算力”,且可實現(xiàn)迅速的大規(guī)模量產(chǎn)。22nm MMSCIM能效比就有望超過 7nm傳統(tǒng)馮諾依曼架構(gòu)的NPU,12nm的情況下大幅超越7nm傳統(tǒng)架構(gòu)的NPU。??
? 炬芯科技將推出最新基于MMSCIM的高端AI音頻芯片
周正宇博士最后分享總結(jié),音頻AI化將再次驅(qū)動芯片技術(shù)的創(chuàng)新,尤其是 SoC技術(shù)的創(chuàng)新,而這個創(chuàng)新的最主要的基礎(chǔ)是如何在端側(cè)便攜式產(chǎn)品上在低功耗前提下來提供大算力,這是穿戴和便攜式SoC以及終端產(chǎn)品在 AI 時代所面臨的挑戰(zhàn),只有堅持不懈地創(chuàng)新,才能幫助大家突破困局,也為國產(chǎn)端側(cè)AI音頻芯片帶來了巨大的市場機會。
一直以來,炬芯科技致力于打造基于CPU+DSP雙核異構(gòu)音頻處理架構(gòu)的低功耗下的低延遲高音質(zhì)技術(shù),炬芯科技將順應(yīng)人工智能的發(fā)展大勢,從高端音頻芯片入手,整合低功耗 AI 加速引擎,逐步全面升級為 CPU+DSP+NPU(based MMSCIM)三核異構(gòu)的AI SoC架構(gòu),為便攜式產(chǎn)品提供更大的算力。不久將為AI降噪、人聲分離、人聲隔離等應(yīng)用帶來高品質(zhì)的提升,將廣泛應(yīng)用于智能音頻、智能辦公、智能教育、智能陪護等多個市場領(lǐng)域。
評論
查看更多