眾所周知,人工智能的三大基礎要素是數據、算法和算力,而這三大要素的核心就是AI芯片技術。隨著各項基于AIGC前沿科技的廣泛應用,AI對于算力的要求開始不斷地快速攀升。特別是深度學習成為當前AI研究和運用的主流方式,目前通用的CPU可以拿來執行AI的算法。但是因為內部有大量的非運算邏輯,而這些指令級對于目前的AI算法來說是完全用不上的,所以CPU并不能達到最高的運算效率。因此,具有海量并行計算能力并且能夠加速AI計算的AI芯片應運而生。
什么是AI芯片
從廣義上講,只要能夠進行人工智能算法或者面向AI計算應用的芯片都叫做AI芯片。但是,通常意義上的AI芯片指的是針對人工智能算法做了特殊加速設計的芯片。他們的目的就是為了更高效地執行AI算法。
AI芯片的發展歷程
從圖靈的論文《計算機器與智能》和圖靈測試,到最初的神經元模擬單元感知機,再到現在多達上百層的深度神經網絡,人類對人工智能的探索從來都沒有停止過。上世紀80年代,多層神經網絡和反向傳播算法的出現給人工智能行業點燃了新的火花。1989年,貝爾實驗室成功利用了反向傳播算法在多層神經網絡開發了一個手寫郵編識別器。1998年,兩位人工智能科學家楊立坤和約書亞·本杰奧發表了手寫識別神經網絡和反向傳播優化相關的論文,開創了卷積神經網絡的時代。此后,人工智能陷入了長時間的發展沉寂階段,直到1997年IBM的深藍戰勝了國際象棋大師,和2011年IBM的沃森智能系統在《危險邊緣》節目中勝出,人工智能才又一次被人們所關注。2016年,阿爾法狗擊敗了韓國圍棋九段的職業選手,就標志著人工智能的又一波高潮。從基礎算法、底層硬件和工具框架到實際的應用場景,現階段的人工智能領域已經全面開花。作為人工智能核心的底層硬件,AI芯片同樣也經歷了多次的起伏和波折。總體來看,AI芯片的發展前后經歷了四次大的變化。
2007年以前,AI芯片產業一直沒有發展成為成熟的產業,同時由于當時的算法、數據量等因素,這個階段的AI芯片并沒有特別強烈的市場需求,通用的CPU芯片即可滿足應用需求。隨著高清視頻、VR、AR、游戲等行業的發展,GPU產品得到了快速的突破,同時人們發現GPU的并行計算特性恰好適應人工智能算法及大數據并行計算的需求。如GPU比之前傳統的CPU在深度學習算法的運算上可以提升幾十倍的效率,因此開始嘗試使用GPU進行人工智能計算。進入2010年后,云計算開始廣泛推廣,人工智能的研究人員通過云計算借助大量的CPU和GPU進行混合運算,進一步推進了AI芯片的深入應用,從而催生了各類AI芯片的研發和應用。人工智能對于計算能力的要求在不斷地提升,進入2015年后,GPU性能功耗比不高的特點使其在工作適用場合受到多種限制,業界開始研發針對人工智能的專用芯片,以其通過更好的硬件和芯片架構在計算效率、能耗比等性能上得到進一步的提升。
AI芯片的分類
首先,從AI芯片的功能來看,AI實現包括兩個環節:訓練和推理。
所以根據承擔的任務不同,AI芯片可以分為基于構建神經網絡模型的訓練芯片,和利用神經網絡模型進行推理預測的推理芯片。訓練環節通常需要通過大量的數據輸入,訓練出一個復雜的深度神經網絡模型。訓練過程由于涉及海量的訓練數據和復雜的深度神經網絡結構,運算量非常巨大,需要龐大的計算規模。對于處理器的計算能力、精度、可擴展性的性能要求非常高。比如英偉達的H100,基于FP16的算力達到了2000TOPS,即每秒可以進行2,000萬億次的操作。而推理則是利用訓練好的模型,使用新的數據去推理出各種結論。這個環節的計算量相對于訓練環節就少很多,但是仍然會涉及到大量的矩陣運算。比如英偉達的T4,基于INT8的算力為1,300TOPS。因此,訓練芯片注重絕對的計算能力,而推理芯片更注重的是綜合指標,單位能耗、算力、延時等各項成本都需要考慮。
從AI芯片的應用場景來看,也可以分為兩大類:服務器端和移動端,也可以說是云端和終端。
服務器端,從剛剛提到的訓練階段,由于數據量和運算量巨大,單一的處理器幾乎不可能獨立完成一個模型的訓練過程,因此訓練環節只能在云端實現。而推理階段,由于訓練出來的深度神經網絡模型仍然非常復雜,推理過程仍然屬于計算密集型和存儲密集型,同樣可以選擇部署在服務器端。移動端,如手機、智能家居、無人駕駛,移動端AI芯片在設計思路上與服務器端的AI芯片有著本質的區別。首先,它們對計算的能效要求非常之高;其次,在智能駕駛等實時性要求很高的場合,推理過程必須在設備本身完成,因此要求移動設備具備足夠的推理能力。而某些場合還會有低功耗、低延遲、低成本的要求,從而要求移動端的AI芯片更是多種多樣。總的來說,服務器端AI芯片的特點是性能強大,并且能夠支持大量運算;而移動端的AI芯片特點是體積小、耗電少,并且有很快的計算效率。
最后,還可以從技術架構來劃分,比如GPU、FPGA、ASIC和類腦芯片。
GPU:傳統的CPU之所以不適合人工智能算法的執行,主要原因是在于計算指令遵循著串行執行的,沒有辦法發揮出芯片的全部潛力。CPU大部分面積為控制器和寄存器,而GPU擁有更多的邏輯運算單元,用于數據處理。這樣的結構適合對于密集型數據進行并行計算,程序在GPU系統上運行速度相較于單行的CPU往往提升幾十倍甚至上千倍。但是,GPU也有一定的局限性:深度學習算法分為訓練和推斷兩個部分,GPU平臺在算法訓練上是非常高效,但是在推斷中,由于單項輸入進行處理的時候并行計算的優勢不能完全發揮出來。此外,GPU無法單獨工作,必須由CPU進行控制調用才能工作,而且功耗比較高。
FPGA:FPGA全稱現場可編程門陣列,與GPU不同的是,FPGA同時擁有硬件流水線并行和數據并行處理能力,適用于以硬件流水線方式處理一條數據,且整體運算性更高。因此,常用于深度學習算法中的推斷階段。不過,FPGA通過硬件的配置實現軟件算法,因此在實現復雜算法方面有一定的難度。相比于CPU,FPGA因為沒有數據和指令存儲和讀取的功能,速度會變得更快,而功耗會更低。那么它的劣勢就是價格比較高,編程相對復雜,而且整體運算能力不是很高。
ASIC:ASIC是專用集成電路,是專用的定制芯片,即是為實現特定要求而定制的芯片。定制的特性有助于提高ASIC的性能功耗比,缺點是電路設計需要定制,相對開發周期長,功能難以擴展。但在功耗、可靠性、集成度等方面都有優勢,尤其在要求高性能、低功耗的移動端體現非常明顯。因此在深度學習算法穩定后,AI芯片可以采用ASIC設計方法進行全面定制,使性能、功耗和面積等指標面向深度學習的算法做到最優。
神經擬態芯片,也就是類腦芯片。神經擬態計算是模擬生物神經網絡的計算機制,神經擬態計算是從結構層面去逼近大腦。這種芯片把定制化的數字處理內核當作神經元,把內存作為突觸。其邏輯結構與傳統的馮·諾依曼結構完全不同,它的內存、CPU和通信部件完全是集成在一起,因此信息的處理在本地進行,克服了傳統計算機的內存和CPU之間的速度瓶頸問題。同時,神經元之間可以方便快捷地相互溝通,只要接收到其他的神經元發過來的脈沖,那么這些神經元就會同時做出反應和動作。
AI芯片的發展
AI芯片的發展向著更低功耗、更接近人腦、更靠近邊緣的方向發展。現在用于深度學習的AI芯片,為了實現深度學習的龐大乘積累加運算和實現計算的高性能,芯片面積越做越大,帶來了成本和散熱等問題。AI芯片編程的成熟度和芯片的安全以及神經網絡的穩定性等問題也都未能得到很好的解決。因此在現有的基礎上進行改進和完善此類芯片,仍然是當前的主要研究方向。最終,AI芯片將進一步提高智能,向著更接近人腦的高度智能方向不斷發展,并且向著邊緣逐步移動,以獲得更低的能耗。AI芯片的發展,計算范式隨著創新方向以及硬件實現,AI硬件加速技術已經逐漸走向成熟。未來可能會有更多的創業會來自電路和器件級技術的結合,比如存內計算、類腦計算,或者是針對特殊的計算模式或者是新模型,還會有稀疏化計算和近似計算。關于深度計算的研究,也將持續進行。
為搭建汽車芯片產業上下游聯動發展的平臺,上海市集成電路行業協會、上海市交通電子行業協會依托上海汽車芯片產業聯盟、ATC汽車技術平臺,并聯合江、浙、皖三地半導體行業協會等單位,定于11月12-13日在上海舉辦“2024汽車與新能源芯片生態大會暨第四屆長三角汽車芯片對接交流會”,本屆峰會將重點討論:芯片平臺的搭建和設計,車載芯片在自動駕駛、智能座艙、車載網絡、新能源三電等等的需求及應用案例,最新芯片設計、安全、測試、封裝測試及三代半材料工藝等等熱點技術問題深入探討,共同交流!同時建立一個您與終端用戶、行業專家、上下游產業鏈技術與項目交流的絕佳平臺
審核編輯 黃宇
-
算法
+關注
關注
23文章
4612瀏覽量
92901 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238513 -
AI芯片
+關注
關注
17文章
1887瀏覽量
35027
發布評論請先 登錄
相關推薦
評論