人工智能正在影響幾乎所有可以想象的應(yīng)用領(lǐng)域,但它越來越多地從數(shù)據(jù)中心data center轉(zhuǎn)移到邊緣edge,在那里需要比過去更快地處理大量數(shù)據(jù)。
這要求在更接近數(shù)據(jù)源的地方大幅提高性能,但仍然只能使用非常少的功耗,并且價格便宜。雖然訓(xùn)練將繼續(xù)在云中進(jìn)行,但長距離移動大量數(shù)據(jù)的成本很高,所以邊緣AI計(jì)算的價值很大。本地處理的數(shù)據(jù)越多,成本就越低,獲得結(jié)果的時間就越快。
實(shí)現(xiàn)這些好處并不容易,需要更深入地了解正在處理的數(shù)據(jù)類型,這在過去五年中只在大型數(shù)據(jù)中心中考慮,谷歌、特斯拉、Meta 等公司為這個考慮的特定需求設(shè)計(jì)定制芯片。
在邊緣,才剛剛開始關(guān)注AI需求并定義滿足這些需求的必要功能。
在邊緣添加功能以滿足其他潛在AI市場是很誘人的,但這通常會導(dǎo)致面積、功耗和復(fù)雜性增加,從而損害芯片主要應(yīng)用的性能。對于邊緣計(jì)算,需要嚴(yán)苛地看待所有功能,以判斷它們是否真的需要出現(xiàn)在芯片中。
每個新功能都會影響 PPA,因此保持對目標(biāo)市場和場景的關(guān)注是首要考慮的事情。
在邊緣處理的最大好處是低延遲。當(dāng)某一天必須實(shí)時(或快速)需要AI計(jì)算做出決定時,邊緣AI計(jì)算真的會大放異彩。
盡管邊緣和AI都有很大的前景,但是組合起來的應(yīng)用場景和現(xiàn)在的主流有很大差異,在設(shè)計(jì)過程中有更多的Tradeoffs。需要考慮芯片的供電方式、熱限制、是否需要支持訓(xùn)練或推理、精度要求、芯片部署的環(huán)境以及支持的數(shù)字格式。例如:
1、支持更多的功能集意味著增加面積和功耗,并在不使用功能時增加門控功能的復(fù)雜性。由于數(shù)據(jù)移動會影響性能并消耗大量功耗。
2、設(shè)計(jì)人員需要充分了解需要移動多少數(shù)據(jù),以開發(fā)能夠最大限度地減少邊緣數(shù)據(jù)移動的架構(gòu)。
做出正確的選擇
不同的應(yīng)用場景將會有不同的Tradeoffs,需要圍繞傳遞給邊緣人工智能處理器的數(shù)據(jù)的數(shù)量和類型做出一系列決策。
芯片是只接收推理數(shù)據(jù),還是包括模型更新?芯片是否需要根據(jù)看到的特定數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)?該處理器還與哪些其他芯片和系統(tǒng)通信,頻率如何?芯片是否會長時間處于非活動狀態(tài),在此期間進(jìn)入深度power-down模式,還是大部分時間都處于開啟狀態(tài)?這些問題的答案將推動對計(jì)算引擎架構(gòu)、片上SRAM存儲以及是否使用外部DRAM(以及類型和容量)的決策。
人工智能處理一般只在發(fā)生某些事件發(fā)生時進(jìn)行推理,兩個最重要的技術(shù)是動態(tài)電壓和頻率調(diào)節(jié)(dynamic voltage and frequency scaling(DVFS)) 和low-leakage library 。DVFS 在需要時提供高性能,然后在不需要時降低電源電壓和工作頻率。low-leakage library,特別是嵌入式SRAM,需要占據(jù)很大比例的系統(tǒng)功耗。這兩者是相互作用的。DVFS受限于其電源電壓降低的水平。這幾乎總是由SRAM工作的最小電壓決定的,或者在待機(jī)狀態(tài)下,SRAM仍將保留數(shù)據(jù)但不讀取或?qū)懭氲淖钚‰妷海ǚQ為Vmin)。由于功耗與電壓的平方成正比,因此將Vmin從0.7V降低到0.5V將使SRAM功率減半。
另一個問題是,人工智能是一項(xiàng)快速變化的領(lǐng)域,因此除了在功耗、性能和面積/成本之間取得適當(dāng)?shù)?strong>Tradeoff外,還需要在設(shè)計(jì)中內(nèi)置靈活性。
一方面,早已存在像CPU這樣通用的東西,它為你提供了最大的編程靈活性,但可能具有最大的面積和最差的能效。另一方面,也存在有固定功能的硬件加速器,它們具有最佳的面積和功耗組合,但幾乎沒有設(shè)計(jì)后調(diào)整的靈活性。如果在設(shè)計(jì)流片后規(guī)格或工作負(fù)載要求發(fā)生變化,則在不進(jìn)行重新流片的情況下,幾乎沒有辦法修改。
從靈活性到效率,從CPU到GPU,再到DSP、NPU,最后是ASIC。實(shí)際的選擇也取決于市場的成熟度和要求,對應(yīng)的場景是否需要考慮靈活性,考慮什么維度的靈活性?這是一個問題?
自動駕駛和手機(jī)終端發(fā)展速度很快,一直在增加新的需求,因此使用NPU或NPU+DSP是靈活性、性能和能源效率的最佳組合。
工藝技術(shù)也是一個重要的因素,可以進(jìn)行功耗、性能、面積/成本 (PPA/C) 的權(quán)衡。
獲得更好的PPA的最簡單方法是通過使用最先進(jìn)的工藝節(jié)點(diǎn)。但是有很多問題。它通常非常昂貴,并且缺乏嵌入式非易失性存儲器,而這通常是物聯(lián)網(wǎng)設(shè)備的必備。
審核編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211750 -
sram
+關(guān)注
關(guān)注
6文章
767瀏覽量
114689 -
AI
+關(guān)注
關(guān)注
87文章
30887瀏覽量
269068 -
人工智能
+關(guān)注
關(guān)注
1791文章
47274瀏覽量
238468 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1560瀏覽量
7666
原文標(biāo)題:邊緣設(shè)備上的chatGPT
文章出處:【微信號:數(shù)字芯片實(shí)驗(yàn)室,微信公眾號:數(shù)字芯片實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論