1971年,第一顆劃時代的大規模集成電路產品Intel4004出現,它使用MOSFET集成電路技術,采用10μm工藝,集成了2300個MOSFET。雖然這顆IC僅僅集成了2300個晶體管,但它標志著人類大規模集成電路時代正式開啟,而且它開辟了一條提升IC性能的路徑——同樣面積下,要提升性能就要集成更多晶體管,要集成更多晶體管只要升級工藝就可以實現。
自此之后,人類一直就享用著IC工藝升級帶來的紅利。根據Intel的創始人之一戈登·摩爾(GordonMoore)提出的摩爾定律:集成電路上可容納的晶體管數目,約每隔18個月便會增加一倍,性能也將提升一倍。50 年來,IC工藝在摩爾定律的指導下飛速發展,我們也一直在享用工藝技術升級帶來的好處——性能升級,功耗降低,尺寸越來越小。
但是,當工藝scaling到10nm以下時,由于工藝復雜度大幅度提升,摩爾定律已經趨緩。2018年11月,AMD CTO發表言論認為摩爾定律已經減緩;6月份美國舉辦的DAC大會上,著名計算機領域專家2018圖靈獎獲得者David Patterson(開源CPU RISC-V發明人之一)也明確認為摩爾定律已經減緩;而且,英特爾自己的10nm工藝連續跳票,不能按時交付新工藝芯片。這些言行都說明,依靠半導體工藝升級帶來IC器件性能提升,已經不可能再像以前那樣繼續維持高速提升了,那該如何提升處理器性能?尤其是提升人工智能的處理效率?
架構創新是出路,AI時代需要專用處理單元
David Patterson 認為現在是計算機系統架構的黃金時代,單靠工藝升級難以實現大的性能突破,未來處理器必須從架構上尋求出口。
而根據業內眾多半導體專家的觀點,異構架構是未來IC發展的必由之路。*** 半導體產業協會理事長盧超群博士(Nicky Lu)就認為,異構集成設計系統架構(HIDAS, Heterogeneous Integration Design Architecture System)將大量促進IC創新,要提升IC性能就要集成新的異質單元。 同理,對于目前熱門的人工智能處理需求來說,通過工藝升級CPU或者GPU、DSP、FPGA都不是好辦法,更合理的方案是就集成人工智能處理單元。
人工智能到底需要一種什么樣的處理單元?想要尋找答案,我們可以回頭看看GPU的發展歷程。
1962年,麻省理工學院的博士伊凡?蘇澤蘭發表的論文以及他的畫板程序奠定了計算機圖形學的基礎。在隨后的近20年里,計算機圖形學在不斷發展,但是當時的計算機卻沒有配備專門的圖形處理芯片,圖形處理任務都是CPU來完成的。
1999年8月,NVIDIA公司發布了一款代號為NV10的圖形芯片Geforce 256。Geforce 256是圖形芯片領域開天辟地的產品,因為它是第一款提出GPU概念的產品。Geforce 256所采用的核心技術有“T&L”硬件、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等?!癟&L”硬件的出現,讓顯示芯片具備了以前只有高端工作站才有的頂點變換能力,同時期的OpenGL和DirectX 7都提供了硬件頂點變換的編程接口,GPU的概念因此而出現。由此開始,CPU、GPU 才正式確立了各自的屬性和工作內容。
從結構上來說,CPU和GPU不同之處體現在他們處理任務的方式不同。CPU由專為串行任務而優化的幾個核心組成;GPU則由數以千計的更小、更高效的核心組成,這些核心專為同時處理多任務而設計。稍微深入一點來講,CPU和GPU的不同,是因為它們的使命不同。CPU需要很強的通用性來處理各種不同的數據類型,同時又要邏輯判斷,又會引入大量的分支跳轉中斷的處理,這使CPU的內部結構異常復雜。而GPU需要處理的則是類型高度統一、相互依賴的大規模數據和不需要被打斷的計算環境。因此,GPU和CPU就呈現出非常不同的架構。
從GPU的發展來看,它的出現在于首先要應對新的處理需求——圖形處理,其次是要以不同于CPU的架構來完成處理效率最大化。這兩點對人工智能處理也有借鑒意義:首先,人工智能處理是不同于CPU和GPU的新處理需求;其次,人工智能處理需要新的架構,因為無論CPU、GPU還是FPGA都不是最好的架構,尤其是在手機領域FPGA更不適合。
我們知道,手機是消費電子中最大的品類,在工藝、封裝、集成、架構方面都走在行業最前沿,它的技術也在引導著整個半導體行業的發展。一方面,手機SoC使用最新的工藝制程;另外一方面,手機也是對功耗、面積特別敏感的產品品類。用CPU,GPU這些面向傳統指令計算、浮點運算的計算單元,去執行以張量計算為主的AI運算,效率和能效都不能達到最好,同時隨著傳統半導體工藝制程不斷逼近極限,如果還用摩爾定律的增長紅利去滿足日益提升的AI運算量,代價會越來越高。
另外,AI的框架、算法和網絡模型發展也非常快,如果采用CPU,GPU適配日新月異的AI框架和算子,軟件適配等工作也非常繁多,這不僅為開發者帶來更高的開發成本,更同時加大了產品上市的時間成本。如果采用FPGA,雖然人工智能的處理效率會大大提升,但是FPGA的面積和功耗都不適合集成在手機平臺;如果采用DSP,雖然有一定的靈活性,但是效能還不是最大。因此,借鑒GPU的發展,從最優能效角度考慮,手機平臺需要集成專用的NPU,讓專業的器件干專業的事情。
專用NPU性能強勁,麒麟芯片引領端側AI應用潮流
毫無疑問,手機平臺需要專用的NPU。在這方面,華為大膽嘗試,在2017年9月率先推出了集成專用NPU處理單元的麒麟970。麒麟 970采用了創新的HiAI移動計算架構,能夠用更少的能耗更快地完成AI計算任務。實際對比顯示:性能上,NPU 是 CPU 的 25 倍,是GPU 的 6.25 倍(25/4);能效比上,NPU 更是達到了 CPU 的 50 倍,GPU 的 6.25 倍(50/8)。
實測中,麒麟 970 的 NPU 每分鐘可以識別出 2005 張照片,而在沒有NPU的情況下每分鐘只能識別 97 張,優勢對比非常明顯。
麒麟970是史上首個在端側實現人工智能推理應用的手機芯片平臺。筆者在芯片發布之初就判斷,華為將憑借這個新的計算平臺領先高通的驍龍平臺,并將在人工智能應用方面,幫助華為手機與其他手機拉開至少4個月的領先期。事實果真如此,麒麟970開啟了端側人工智能應用的新篇章,并助力華為Mate10手機率先實現了拍照場景識別、翻譯等人工智能應用,引領了整個智能手機的AI應用大潮。
2018年9月,華為在2018德國柏林消費電子展(IFA)上正式發布麒麟980處理器。麒麟980在AI方面有了更大的突破:首度采用了雙核NPU,提供147個算子,人工智能算力大幅度提升;每分鐘識別4500張圖片,識別速度相比上一代提升120%,遠高于業界同期水平。
麒麟980的發布,標志著華為在端側人工智能領域的成熟與進步。獨立的雙核NPU處理單元讓麒麟980在人臉識別、物體識別、物體檢測、圖像分割、智能翻譯等AI場景下應用更流暢。例如華為Mat 20系列可實現多人姿態實時識別,實時幀率高達30 FPS,無論是表演節奏感極強的舞蹈,還是在鏡頭前快速跑步,麒麟980都能夠實時繪制出人體的關節和線條??梢哉f,麒麟980再次引領了全球端側AI應用的潮流。
另外,基于獨立的NPU處理單元,華為從麒麟970開始就推出了HUAWEI HiAI。HiAI是面向移動終端的AI能力開放平臺,是專門為了配合NPU進行開發的第三方開發者平臺,能夠給開發者提供AI計算庫以及API,并且能夠便捷地編寫APP上的AI應用。
HUAWEI HiAI能力開放平臺分為三層架構,除了我們熟知的HUAWEI HiAI Foundation的運算能力、HUAWEI HiAI Engine端側應用能力,還有海量的HUAWEI HiAI service服務能力。此外,HiAI能夠讓開發者快速遷移模型,并且對于普通APP開發者來說,HiAI會提供已封裝好的語音識別等技術,開發者能夠直接應用。
HUAWEI HiAI堪稱是一個開發人工智能APP的神器,能幫助小白用戶迅速開發出AI應用,而且能用上麒麟芯片的NPU能力。開發者可以利用這個開放架構開發新的人工智能應用,并通過華為認證后集成進麒麟平臺。這是超越APP應用的新機制,開放的架構讓華為率先擁有了大量編外人工智能開發者,這也意味著麒麟平臺可以集成大量第三方的人工智能算法和應用。
如今,專用NPU在人工智能領域的應用已成燎原之勢。筆者觀察到,業界其他芯片廠商也在采用這樣的獨立NPU架構,例如蘋果A12、聯發科的P系列平臺等。在安防領域,獨立NPU已經推動智能安防發展,一些IP公司也開發出了專用NPU IP如Imagination的PowerVR 2NX NNA加速器、PowerVR 3NX NNA等。反之,某些沒有集成獨立NPU的芯片平臺,依舊在通過CPUGPU和DSP進行人工智能運算,不但增加了功耗,影響其他運算任務的處理,還加大了第三方人工智能算法和應用接入的難度。
目前,人工智能已成人類的一項通用技術。人類會用AI技術和理念去解決現在和未來的問題, AI也必將會與更多產業應用結合,從而改變所有行業,更將改變每個組織。人工智能在語音識別、圖像識別、工業、汽車自動駕駛、農業、AR、VR等領域的應用潛力無限,而華為麒麟系列芯片在端側人工智能領域的探索處于全球領先,華為手機卓越的人工智能應用體驗也應證了專用NPU架構的選擇是非常明智和正確的,期待華為在這個領域的探索更深入,帶給我們更多驚喜。
-
MOSFET
+關注
關注
147文章
7212瀏覽量
213810 -
人工智能
+關注
關注
1793文章
47532瀏覽量
239293 -
NPU
+關注
關注
2文章
288瀏覽量
18683
原文標題:發揮端側人工智能潛力,專用NPU才是王道
文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論