作者:Hou-I Liu, Marco Galindo, Hongxia Xie, Lai-Kuan Wong, Hong-Han Shuai, Yung-Hui Li, Wen-Huang Cheng
1. 摘要
過(guò)去的十年里,深度學(xué)習(xí)的主導(dǎo)地位在人工智能的各個(gè)領(lǐng)域中占據(jù)了主導(dǎo)地位,包括自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和生物醫(yī)學(xué)信號(hào)處理。雖然模型準(zhǔn)確性有了顯著提高,但在輕量級(jí)設(shè)備上部署這些模型,比如手機(jī)和微控制器,受到資源限制的約束。在這項(xiàng)調(diào)查中,我們提供了專(zhuān)門(mén)針對(duì)這些設(shè)備的全面設(shè)計(jì)指南,詳細(xì)介紹了輕量級(jí)模型的精心設(shè)計(jì)、壓縮方法和硬件加速策略。這項(xiàng)工作的主要目標(biāo)是探索方法和概念,以克服硬件限制,而不損害模型的準(zhǔn)確性。此外,我們還探討了未來(lái)輕量級(jí)深度學(xué)習(xí)的兩條顯著途徑:TinyML 和大型語(yǔ)言模型的部署技術(shù)。盡管這些途徑無(wú)疑具有潛力,但它們也帶來(lái)了重大挑戰(zhàn),鼓勵(lì)研究未開(kāi)發(fā)的領(lǐng)域。
2. 介紹
近年來(lái),神經(jīng)網(wǎng)絡(luò)(NNs)的重要性急劇上升,它們的應(yīng)用滲透到日常生活的各個(gè)方面,并擴(kuò)展到支持復(fù)雜任務(wù)。然而,自2012年AlexNet發(fā)布以來(lái),創(chuàng)建更深層次、更復(fù)雜的網(wǎng)絡(luò)以提高準(zhǔn)確性的趨勢(shì)已經(jīng)普遍存在。例如,Model Soups在ImageNet數(shù)據(jù)集上取得了顯著的準(zhǔn)確性,但代價(jià)是超過(guò)18.43億個(gè)參數(shù)。同樣,GPT-4在自然語(yǔ)言處理(NLP)基準(zhǔn)測(cè)試上表現(xiàn)出色,盡管參數(shù)多達(dá)1.76萬(wàn)億。深度學(xué)習(xí)(DL)的計(jì)算需求急劇增加,從2012年到2018年增加了約300,000倍。這種規(guī)模的急劇增加為本文探討的挑戰(zhàn)和發(fā)展奠定了基礎(chǔ)。
針對(duì)上述實(shí)際需求,近年來(lái)出現(xiàn)了大量的研究,重點(diǎn)放在輕量級(jí)建模、模型壓縮和加速技術(shù)上。年度移動(dòng)人工智能(MAI)研討會(huì)已連續(xù)舉辦了CVPR 2021-2023,重點(diǎn)是在資源受限的設(shè)備上部署DL模型,例如ARM Mali GPU和樹(shù)莓派4上的圖像處理。此外,在ICCV 2019、ICCV 2021和ECCV 2022進(jìn)行的圖像處理(AIM)研討會(huì)組織了圍繞圖像/視頻處理、恢復(fù)和增強(qiáng)在移動(dòng)設(shè)備上的挑戰(zhàn)。
從這篇工作,作者發(fā)現(xiàn)了分析高效輕量級(jí)模型的發(fā)展的最有效方法,從設(shè)計(jì)階段到部署階段,涉及將三個(gè)關(guān)鍵元素納入流程中:NN架構(gòu)設(shè)計(jì)、壓縮方法和輕量級(jí)DL模型的硬件加速。以往的調(diào)查往往只專(zhuān)注于此流程的特定方面,比如只討論量化方法,提供了這些領(lǐng)域的詳細(xì)見(jiàn)解。然而,這些調(diào)查可能無(wú)法提供對(duì)整個(gè)流程的全面了解,可能忽視了重要的替代方法和技術(shù)。相比之下,這篇綜述涵蓋了輕量級(jí)架構(gòu)、壓縮方法和硬件加速算法。
3. 神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)
作者研究了經(jīng)典的輕量級(jí)架構(gòu),并將它們分類(lèi)為系列以提高清晰度。這些架構(gòu)中的一些通過(guò)引入創(chuàng)新的卷積塊取得了重大進(jìn)展。例如,深度可分離卷積優(yōu)先考慮高準(zhǔn)確性和降低計(jì)算需求。值得注意的是,參數(shù)和FLOPs與推理時(shí)間并不一致。早期的輕量級(jí)架構(gòu),如SqueezeNet和MobileNet ,旨在減少參數(shù)和FLOPs。然而,這種減少通常會(huì)增加內(nèi)存訪(fǎng)問(wèn)成本(MAC),導(dǎo)致推理速度較慢。因此,作者的目標(biāo)是通過(guò)提供更全面和富有見(jiàn)地的審查來(lái)促進(jìn)輕量級(jí)模型的應(yīng)用。
4. 神經(jīng)網(wǎng)絡(luò)壓縮
除了輕量級(jí)架構(gòu)設(shè)計(jì)外,作者提到了可以應(yīng)用于壓縮給定架構(gòu)的各種高效算法。例如,量化方法 旨在減少數(shù)據(jù)所需的存儲(chǔ)空間,通常是通過(guò)用8位或16位數(shù)字代替32位浮點(diǎn)數(shù),甚至使用二進(jìn)制值表示數(shù)據(jù)。修剪算法,在其最簡(jiǎn)單的形式中,從模型中刪除參數(shù)以消除網(wǎng)絡(luò)內(nèi)部的不必要的冗余。然而,更復(fù)雜的算法可能會(huì)從網(wǎng)絡(luò)中刪除整個(gè)通道或過(guò)濾器。知識(shí)蒸餾(KD)技術(shù)探索了從一個(gè)模型(稱(chēng)為"老師")轉(zhuǎn)移知識(shí)到另一個(gè)模型(稱(chēng)為"學(xué)生")的概念。老師代表具有所需知識(shí)的大型預(yù)訓(xùn)練模型,而學(xué)生代表一個(gè)未經(jīng)訓(xùn)練的較小模型,負(fù)責(zé)從老師那里提取知識(shí)。然而,隨著方法的發(fā)展,一些算法通過(guò)兩次使用相同的網(wǎng)絡(luò)修改了方法,消除了額外的老師模型的需要。隨著這些各種壓縮方法的進(jìn)展,通常會(huì)觀察到兩種或更多技術(shù)的采用,例如在同一模型中融合修剪和量化方法。
?
?
此外,作者討論了神經(jīng)架構(gòu)搜索(NAS)算法,這是一組旨在自動(dòng)化模型創(chuàng)建過(guò)程的技術(shù),同時(shí)減少人類(lèi)干預(yù)。這些算法自主搜索定義搜索空間內(nèi)的最佳因素,如網(wǎng)絡(luò)深度和過(guò)濾器設(shè)置。該領(lǐng)域的研究主要集中在優(yōu)化搜索空間的定義、遍歷和評(píng)估,以在不過(guò)度消耗時(shí)間和資源的情況下實(shí)現(xiàn)高準(zhǔn)確性。
5. 神經(jīng)網(wǎng)絡(luò)部署
作者深入探討了專(zhuān)用于DL應(yīng)用的流行硬件加速器的景觀,包括圖形處理單元(GPUs)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGAs)和張量處理單元(TPUs)。此外,描述了各種數(shù)據(jù)流類(lèi)型,并深入探討了數(shù)據(jù)局部性?xún)?yōu)化方法,探索支撐DL工作流程的高效處理的復(fù)雜技術(shù)。隨后,討論了專(zhuān)為加速DL過(guò)程而量身定制的流行DL庫(kù)。這一審查涵蓋了多樣化的工具和框架,在優(yōu)化硬件加速器的利用方面發(fā)揮了重要作用。此外,調(diào)查了協(xié)同設(shè)計(jì)解決方案,在加速DL方面取得了優(yōu)化和全面結(jié)果,需要認(rèn)真考慮硬件架構(gòu)和壓縮方法。
?
6. 挑戰(zhàn)和未來(lái)工作
這項(xiàng)綜述探討了輕量級(jí)模型、壓縮方法和硬件加速等復(fù)雜領(lǐng)域,展示了它們?cè)趶V泛的通用應(yīng)用領(lǐng)域中的先進(jìn)技術(shù)能力。然而,在資源受限的環(huán)境中部署這些模型仍然面臨著重大挑戰(zhàn)。本節(jié)致力于揭示在微型機(jī)器學(xué)習(xí)(TinyML)和LLMs中加速和應(yīng)用深度學(xué)習(xí)模型的新技術(shù),重點(diǎn)關(guān)注需要進(jìn)一步研究的未解決問(wèn)題。
TinyML是一種新興技術(shù),可以使深度學(xué)習(xí)算法在功耗低于1mW的超低端物聯(lián)網(wǎng)設(shè)備上運(yùn)行。 然而,極度受限的硬件環(huán)境使得設(shè)計(jì)和開(kāi)發(fā)TinyML模型具有挑戰(zhàn)性。低端物聯(lián)網(wǎng)設(shè)備主要采用MCU,因?yàn)樗鼈兊某杀拘б娓哂?a href="http://www.xsypw.cn/v/tag/132/" target="_blank">CPU和GPU。然而,MCU庫(kù)(如CMSIS-NN和TinyEngine)通常是平臺(tái)依賴(lài)性的,不像PyTorch和TensorFlow等GPU庫(kù)提供跨平臺(tái)支持。因此,TinyML的設(shè)計(jì)重點(diǎn)更多地傾向于專(zhuān)用應(yīng)用,而不是促進(jìn)通用研究,這可能會(huì)妨礙整體研究進(jìn)展的速度。
基于MCU的庫(kù)。 由于TinyML中的資源受限環(huán)境,基于MCU的庫(kù)通常設(shè)計(jì)用于特定用例。例如,CMSIS-NN是在ARM Cortex-M設(shè)備上開(kāi)發(fā)的基于MCU的庫(kù)的開(kāi)創(chuàng)性工作,它提出了一個(gè)高效的內(nèi)核,分為NNfunctions和NNsupportfunctions。NNfunctions執(zhí)行網(wǎng)絡(luò)中的主要函數(shù),如卷積、池化和激活。NNsupportfunctions包含數(shù)據(jù)轉(zhuǎn)換和激活表。CMIX-NN提出了一種開(kāi)源的混合和低精度工具,可以將模型的權(quán)重和激活量化為8、4和2位任意位數(shù)。MCUNet提出了一個(gè)針對(duì)商用MCU的DL實(shí)現(xiàn)的協(xié)同設(shè)計(jì)框架。該框架整合了TinyNAS,以有效地搜索最準(zhǔn)確和輕量級(jí)的模型。此外,它利用了TinyEngine,其中包括基于代碼生成器的編譯和原地深度卷積,有效地解決了內(nèi)存約束問(wèn)題。MCUNetV2引入了一種基于補(bǔ)丁的推斷機(jī)制,只在特征圖的小空間區(qū)域上運(yùn)行,進(jìn)一步減少了峰值內(nèi)存使用。MicroNet采用了可微分NAS(DNAS)來(lái)搜索具有低操作數(shù)量的高效模型,并支持開(kāi)源平臺(tái)Tensorflow Lite Micro(TFLM)。MicroNet在所有TinyMLperf行業(yè)標(biāo)準(zhǔn)基準(zhǔn)任務(wù)上取得了最先進(jìn)的結(jié)果,即視覺(jué)喚醒詞、谷歌語(yǔ)音命令和異常檢測(cè)。
什么阻礙了TinyML的快速發(fā)展? 盡管取得了進(jìn)展,但TinyML的增長(zhǎng)受到幾個(gè)固有關(guān)鍵約束的限制,包括資源約束、硬件和軟件異構(gòu)性以及缺乏數(shù)據(jù)集。極端的資源約束,如SRAM的極小尺寸和不到1MB的閃存內(nèi)存大小,在設(shè)計(jì)和部署邊緣設(shè)備上的TinyML模型時(shí)帶來(lái)了挑戰(zhàn)。此外,由于硬件異構(gòu)性和缺乏框架兼容性,當(dāng)前的TinyML解決方案被調(diào)整以適應(yīng)每個(gè)單獨(dú)設(shè)備,使得TinyML算法的廣泛部署變得復(fù)雜。此外,現(xiàn)有數(shù)據(jù)集可能不適用于TinyML架構(gòu),因?yàn)閿?shù)據(jù)可能不符合邊緣設(shè)備外部傳感器的數(shù)據(jù)生成特征。需要一組適用于訓(xùn)練TinyML模型的標(biāo)準(zhǔn)數(shù)據(jù)集,以推動(dòng)有效TinyML系統(tǒng)的發(fā)展。在能夠在物聯(lián)網(wǎng)和邊緣設(shè)備上進(jìn)行大規(guī)模部署之前,這些開(kāi)放性研究挑戰(zhàn)需要解決。
輕量級(jí)大型語(yǔ)言模型的構(gòu)建。 在過(guò)去的兩年中,LLMs在各種任務(wù)中始終表現(xiàn)出色。LLMs在實(shí)踐中具有重要的應(yīng)用潛力,尤其是與人類(lèi)監(jiān)督配對(duì)時(shí)。例如,它們可以作為自主代理人的副駕駛員,或者作為靈感和建議的來(lái)源。然而,這些模型通常具有數(shù)十億規(guī)模的參數(shù)。將這樣的模型部署到推斷中通常需要GPU級(jí)別的硬件和數(shù)十吉字節(jié)的內(nèi)存,這給日常LLM利用帶來(lái)了重大挑戰(zhàn)。例如,Tao等人發(fā)現(xiàn)很難對(duì)生成式預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行量化,因?yàn)樵~嵌入是同質(zhì)的,權(quán)重分布各異。因此,將大型、資源密集的LLM模型轉(zhuǎn)化為適合部署在資源受限移動(dòng)設(shè)備上的緊湊版本已成為未來(lái)研究的一個(gè)突出方向。
世界知名企業(yè)在LLM部署方面取得了重大進(jìn)展。 2023年,高通展示了文本到圖像模型穩(wěn)定擴(kuò)散和圖像到圖像模型控制網(wǎng)絡(luò)在移動(dòng)設(shè)備上的獨(dú)立執(zhí)行,從而加速了大型模型部署到邊緣計(jì)算環(huán)境。谷歌還推出了其最新通用大型模型PaLM 2的幾個(gè)版本,其中包括專(zhuān)為移動(dòng)平臺(tái)量身定制的輕量級(jí)變體。這一進(jìn)展為將大型模型從基于云的系統(tǒng)遷移到邊緣設(shè)備創(chuàng)造了新的機(jī)會(huì)。然而,某些大型模型仍然需要數(shù)十吉字節(jié)的物理存儲(chǔ)和運(yùn)行時(shí)內(nèi)存。因此,正在努力實(shí)現(xiàn)少于1GB的內(nèi)存占用,這意味著在這個(gè)領(lǐng)域仍然需要進(jìn)行大量工作。本節(jié)概述了在資源受限環(huán)境中簡(jiǎn)化LLM實(shí)施的一些關(guān)鍵舉措。
不需重新訓(xùn)練的剪枝。 最近,大量工作應(yīng)用常見(jiàn)的DL量化和剪枝技術(shù)構(gòu)建輕量級(jí)LLMs。一些方法專(zhuān)注于實(shí)現(xiàn)量化,其中數(shù)值精度大大降低。SparseGPT首次證明,可以在單一步驟中將大規(guī)模生成式預(yù)訓(xùn)練Transformer(GPT)模型剪枝至至少50%的稀疏度,而無(wú)需任何后續(xù)重新訓(xùn)練,并且準(zhǔn)確度損失最小。隨后,Wanda(Pruning by Weights and Activations)專(zhuān)門(mén)設(shè)計(jì)用于在預(yù)訓(xùn)練的LLMs中引入稀疏性。Wanda剪枝了具有最小幅度的權(quán)重,不需要重新訓(xùn)練或權(quán)重更新。剪枝的LLM可以直接使用,增加了其實(shí)用性。值得注意的是,Wanda超越了幅度剪枝的已建立基線(xiàn),并與最近涉及大量權(quán)重更新的方法有效競(jìng)爭(zhēng)。這些工作為未來(lái)設(shè)計(jì)LLM剪枝方法而不需要重新訓(xùn)練設(shè)定了重要的里程碑。
模型設(shè)計(jì)。 從模型設(shè)計(jì)的角度來(lái)看,可以從一開(kāi)始就創(chuàng)建輕量級(jí)LLMs,重點(diǎn)是減少模型參數(shù)的數(shù)量。在這方面的一個(gè)有前景的途徑是提示調(diào)優(yōu),它旨在在保持效率和模型大小的同時(shí)優(yōu)化LLMs的性能。在這方面的一個(gè)值得注意的方法是視覺(jué)提示調(diào)優(yōu)(VPT),它成為視覺(jué)相關(guān)任務(wù)中大規(guī)模Transformer模型的全面微調(diào)的高效和有效替代方法。VPT在輸入空間內(nèi)引入了僅占一小部分,小于1%的可訓(xùn)練參數(shù),同時(shí)保持了模型骨干的完整性。另一個(gè)值得注意的貢獻(xiàn)是CALIP,它引入了無(wú)參數(shù)的注意機(jī)制,以促進(jìn)視覺(jué)和文本特征之間的有效交互和通信。它產(chǎn)生了文本感知的圖像特征和視覺(jué)引導(dǎo)的文本特征,有助于開(kāi)發(fā)更加簡(jiǎn)潔和高效的視覺(jué)-語(yǔ)言模型。在不久的將來(lái),推進(jìn)輕量級(jí)LLM設(shè)計(jì)的一個(gè)有前景的途徑是開(kāi)發(fā)自適應(yīng)微調(diào)策略。這些策略將動(dòng)態(tài)調(diào)整模型的架構(gòu)和參數(shù),以與特定任務(wù)要求對(duì)齊。這種適應(yīng)性確保了模型能夠在特定應(yīng)用中優(yōu)化其性能,而不會(huì)產(chǎn)生不必要的參數(shù)膨脹。
構(gòu)建輕量級(jí)擴(kuò)散模型。 近年來(lái),基于去噪擴(kuò)散的生成模型,特別是基于得分的模型,在創(chuàng)建多樣化和真實(shí)數(shù)據(jù)方面取得了顯著進(jìn)展。然而,將擴(kuò)散模型的推斷階段轉(zhuǎn)移到邊緣設(shè)備上面臨著重大挑戰(zhàn)。推斷階段反轉(zhuǎn)了轉(zhuǎn)換過(guò)程,從高斯噪聲生成真實(shí)數(shù)據(jù),通常稱(chēng)為去噪過(guò)程。此外,當(dāng)這些模型被壓縮以減少其占用的空間和計(jì)算需求時(shí),存在嚴(yán)重降低圖像質(zhì)量的風(fēng)險(xiǎn)。壓縮過(guò)程可能需要簡(jiǎn)化、近似或甚至刪除必要的模型組件,這可能會(huì)對(duì)模型從高斯噪聲準(zhǔn)確重建數(shù)據(jù)的能力產(chǎn)生不利影響。因此,在減小模型尺寸的同時(shí)保持高質(zhì)量圖像生成之間出現(xiàn)了關(guān)鍵問(wèn)題,從而在資源受限場(chǎng)景下開(kāi)發(fā)擴(kuò)散模型面臨著嚴(yán)峻挑戰(zhàn)。
部署視覺(jué)Transformer(ViTs)。 盡管輕量級(jí)ViTs越來(lái)越普遍,但在硬件受限環(huán)境中部署ViT仍然是一個(gè)持續(xù)關(guān)注的問(wèn)題。根據(jù)報(bào)道,移動(dòng)設(shè)備上的ViT推斷的延遲和能耗是CNN模型的40倍。因此,如果不加修改,移動(dòng)設(shè)備無(wú)法支持ViT的推斷。ViTs中的自注意操作需要計(jì)算圖像補(bǔ)丁之間的成對(duì)關(guān)系,并且隨著補(bǔ)丁數(shù)量的增加,計(jì)算量呈二次增長(zhǎng)。此外,與注意力層相比,F(xiàn)FN層的計(jì)算時(shí)間更長(zhǎng)。通過(guò)去除冗余的注意力頭和FFN層,DeiT-Tiny可以將延遲降低23.2%,幾乎不損失0.75%的準(zhǔn)確性。
一些工作設(shè)計(jì)了用于嵌入式系統(tǒng)(如FPGA)的NLP模型。 最近,DiVIT和VAQF提出了ViTs的硬件-軟件協(xié)同設(shè)計(jì)解決方案。DiVIT提出了一種在算法級(jí)別利用補(bǔ)丁局部性的差分注意的增量補(bǔ)丁編碼。在DiVIT中,使用節(jié)省位的技術(shù)設(shè)計(jì)了帶有差分?jǐn)?shù)據(jù)流通信的差分注意處理引擎陣列。此外,指數(shù)操作使用查找表執(zhí)行,無(wú)需額外計(jì)算,且硬件開(kāi)銷(xiāo)最小化。VAQF首次將二進(jìn)制化引入ViTs中,可用于FPGA映射和量化訓(xùn)練。具體來(lái)說(shuō),VAQF可以根據(jù)目標(biāo)幀率生成所需的量化精度和加速器描述,用于直接軟件和硬件實(shí)現(xiàn)。
為了在資源受限設(shè)備中無(wú)縫部署ViTs,作者重點(diǎn)介紹了兩個(gè)潛在的未來(lái)方向:
1)算法優(yōu)化。 除了描述的設(shè)計(jì)高效ViT模型外,還應(yīng)考慮ViTs的瓶頸。例如,由于MatMul操作在ViTs中造成了瓶頸,可以加速或減少這些操作。此外,可以考慮整數(shù)量化和運(yùn)算融合的改進(jìn)。
2)硬件可訪(fǎng)問(wèn)性。 與CNN不同,大多數(shù)移動(dòng)設(shè)備和AI加速器都支持CNNs,而ViTs沒(méi)有專(zhuān)門(mén)的硬件支持。例如,ViT無(wú)法在移動(dòng)GPU和英特爾NCS2 VPU上運(yùn)行。根據(jù)我們的研究結(jié)果,某些重要操作符在特定硬件上不受支持。具體而言,在移動(dòng)GPU上,連接操作符在TFLiteGPUDelegate中需要4維輸入張量,但ViTs中的張量為3維。另一方面,英特爾VPU不支持LayerNorm,在變壓器架構(gòu)中存在,但在CNN中不常見(jiàn)。因此,需要進(jìn)一步調(diào)查在資源受限設(shè)備上ViTs的硬件支持。
7. 貢獻(xiàn)
本文旨在簡(jiǎn)單但準(zhǔn)確地描述如何利用輕量級(jí)架構(gòu)、壓縮方法和硬件技術(shù)來(lái)實(shí)現(xiàn)在資源受限設(shè)備上的準(zhǔn)確模型。主要貢獻(xiàn)總結(jié)如下:
(1) 以往的調(diào)查只簡(jiǎn)要提及少數(shù)輕量級(jí)架構(gòu)的作品。作者將輕量級(jí)架構(gòu)組織成系列,例如將MobileNetV1-V3和MobileNeXt分組到MobileNet系列中,并提供了從它們誕生到現(xiàn)在的輕量級(jí)架構(gòu)的歷史。
(2) 為了涵蓋整個(gè)輕量級(jí)DL應(yīng)用,這篇文章還涵蓋了壓縮和硬件加速方法。與許多其他調(diào)查不明確建立這些技術(shù)之間聯(lián)系的不同,對(duì)每個(gè)領(lǐng)域提供了全面的概述,深入了解它們之間的相互關(guān)系。
(3) 作為輕量級(jí)DL前沿進(jìn)展的一部分,作者審查了當(dāng)前的挑戰(zhàn)并探索未來(lái)的工作。首先,探索了TinyML,這是一種新興的方法,專(zhuān)為在資源極度有限的設(shè)備上部署DL模型而設(shè)計(jì)。隨后,調(diào)查了在邊緣設(shè)備上利用LLMs的各種當(dāng)代倡議,這是輕量級(jí)DL領(lǐng)域的一個(gè)有希望的方向。
8. 總結(jié)
最近,計(jì)算機(jī)視覺(jué)應(yīng)用越來(lái)越注重能源節(jié)約、碳足跡減少和成本效益,突顯了輕量級(jí)模型在邊緣人工智能背景下的重要性。本文對(duì)輕量級(jí)深度學(xué)習(xí)(DL)進(jìn)行了全面考察,探討了MobileNet和Efficient變換器變體等重要模型,以及用于優(yōu)化這些模型的流行策略,包括剪枝、量化、知識(shí)蒸餾和神經(jīng)結(jié)構(gòu)搜索。除了詳細(xì)解釋這些方法外,還提供了定制輕量級(jí)模型的實(shí)用指導(dǎo),通過(guò)分析它們各自的優(yōu)勢(shì)和劣勢(shì)來(lái)提供清晰度。此外,討論了DL模型的硬件加速,深入探討了硬件架構(gòu)、不同數(shù)據(jù)流類(lèi)型和數(shù)據(jù)局部性?xún)?yōu)化技術(shù),以增強(qiáng)對(duì)加速訓(xùn)練和推斷過(guò)程的理解。這項(xiàng)調(diào)查揭示了硬件和軟件之間的復(fù)雜互動(dòng)關(guān)系(協(xié)同設(shè)計(jì)),提供了從硬件角度加速訓(xùn)練和推斷過(guò)程的見(jiàn)解。最后,作者將目光轉(zhuǎn)向未來(lái),認(rèn)識(shí)到在TinyML和LLM技術(shù)中部署輕量級(jí)DL模型存在挑戰(zhàn),需要在這些不斷發(fā)展的領(lǐng)域探索創(chuàng)造性解決方案。
審核編輯:黃飛
評(píng)論
查看更多