作者:Greg Martin,賽靈思戰略市場營銷總監
(賽靈思現在是 AMD 的一部分)
不斷變化和演進的 5G、數據中心、汽車和工業等應用,要求在保持嚴苛的電源包絡的同時,持續提升計算能力。隨著人工智能( AI )技術商用進程持續加速,其成為提升計算密度的一個主要因素。
無論是部署在云端、邊緣還是終端,人工智能推斷都需要更高的處理性能和嚴格的功耗預算,因而,人工智能推斷工作負載,通常都需要專用的人工智能硬件來進行加速。
與此同時,人工智能算法的發展速度,遠遠超過了傳統芯片開發周期的速度。由于先進的人工智能模型的快速創新,固定芯片解決方案,如人工智能網絡的 ASIC 實現,有可能很快就會被淘汰。
自適應計算是應對上述挑戰的答案
因為基于在產品制造之后依然可以針對特定應用而進行優化的自適應硬件而打造,自適應計算因而擁有獨特的價值。由于優化可以在硬件制造完成之后按需進行,因此它可以保持與最新的人工智能模型與時俱進金。相反,ASIC 因為基于固定的硬件架構,一旦制造完成就無法改變。
自適應計算的這種靈活的優化能力,可以支持無限次地反復執行。甚至在器件被完全部署到量產環境后,依然可以進行硬件的變更。就像一個量產型 CPU 可以被用來運行一個新程序一樣,一個自適應平臺也可以靈活適應新的硬件配置,甚至可以在一個實時的生產環境中。
自適應硬件與其它替代方案的對比
CPU 和 GPU 各自具有其獨特的能力,非常適合某些任務。CPU 是需要評估復雜邏輯的決策功能的最佳選擇。GPU 是處理高吞吐量但對時延要求不高的離線數據的最佳選擇。而自適應計算, 則是那些同時需要高吞吐量和低時延數據處理的最佳選擇,如實時視頻流、5G 通信和汽車傳感器融合等應用。
自適應計算之所以能夠在保證低時延的情況下提供高性能,是因為它能夠實現領域專用的架構( DSA ),從而保障特定應用在特定領域架構上的最佳實現。相反,CPU 和 GPU 基于固定的、馮-諾依曼的架構,不允許對其底層架構進行針對特定領域的優化。
DSA 也可以使用專用(固定)芯片器件來構建,通常被稱為特定應用標準產品或ASSP 。但是,在固定 ASSP 中實現 DSA,既有 有優勢,也有劣勢。這里介紹兩種主要的劣勢。
首先是創新步伐。為了跟上創新步伐,制造商被期望用更短的時間打造和提供新的服務。更具體來講,這個時間要比設計開發新的固定芯片 DSA 所需的時間還要短。這就造成了市場的創新需求與企業設計制造 ASSP 所需時間之間的根本性市場錯位。行業標準改變或其他需求波動,會很快導致這些器件過時。
第二個考量因素是定制芯片的成本。設計與制造獨特的芯片設計(如復雜的 7nm ASIC)的一次性成本,可能導致數億美元的非重復性工程( NRE )成本。隨著器件工藝縮小到 5nm 及更小,預計成本還將進一步上升。成本的攀升,正在延緩 ASSP 對先進節點的采用,而這,可能導致其用戶固守過時低效的技術。
自適應計算平臺介紹
自適應平臺都是基于相同的自適應硬件( FPGA )而打造,然而,它們所涵括的組件和 技術遠遠超過了芯片硬件和器件本身。自適應平臺包含了一套全面的運行時軟件,軟硬件相結合為打造高度靈活和高效的應用,提供了一種獨特的能力。
自適應平臺使得自適應計算能夠為廣泛的軟件和系統開發者所使用,并為其打造眾多創新產品奠定了基礎。采用自適應平臺的優勢包括:
- 縮短上市時間。使用 Alveo? 數據中心加速器卡這樣的平臺,可以支持其無需定制硬件,就可以通過專門為特定應用加速而打造的硬件構建應用。而且,僅需將 PCIe 卡連接到服務器,就可以用現有軟件應用程序直接調用加速庫。
- 降低運營成本。與基于 CPU 的解決方案相比,由于計算密度的提升,基于自適應平臺的優化應用能大幅提供每節點的效率。
- 靈活和動態變化的工作負載。自適應平臺可根據當前需求重新配置。開發者可以在自適應平臺內輕松切換已部署應用,使用相同設備即可滿足不斷變化的工作負載需求。
- 兼容未來。自適應平臺能不斷進行調整。如果現有應用需要新的功能,則可以對硬件重新編程,以最佳方式實現這些功能,減少硬件升級需求,進而延長系統使用壽命。
- 加速整體應用。AI 推斷很少單獨存在。它是更大的數據分析與處理鏈條的一部分,往往與使用傳統(非 AI )實現方案的多個上游級和下游級并存。這些系統中的嵌入式 AI部分得益于 AI 加速,而非 AI 部分也能從加速中獲益。自適應計算的天然靈活性適合為 AI 和非 AI 處理任務進行加速,這被稱為“整體應用加速”。隨著計算密集型 AI 推斷滲透到更多應用中,“整體應用加速”的重要性也在日益提升。
- 易用性。過去,運用 FPGA 技術需要開發者構建自己的硬件板,并用硬件描述語言( HDL )配置 FPGA。相比之下,自適應平臺則支持開發者使用自己熟悉的軟件框架和語言(例如 C++、Python、TensorFlow 等),直接發揮自適應計算的效能。軟件和 AI 開發者現在也可以直接使用自適應計算,而無需構建電路板或成為硬件專家。
不同類型的自適應計算平臺
根據應用和需求,存在多種類型的自適應平臺,包括數據中心加速器卡和標準化邊緣模塊。多種平臺的存在,旨在為開發所需應用提供盡可能最佳的起點。不同的自適應平臺所面向的應用類型也十分廣泛,既有自動駕駛和實時視頻流等時延敏感型應用,也有高度復雜的 5G 信號處理和非結構化數據庫的數據處理。
自適應計算能夠部署到云端、網絡、邊緣甚至終端,將最新的架構創新帶到單獨及端到端的應用。鑒于存在各種自適應平臺,部署位置也可以是多樣化的——從數據中心內 PCIe 加速器卡上的大容量器件,到適用于物聯網設備所需終端處理的小型低功耗器件。
邊緣端的自適應平臺,包括賽靈思 Kria? 自適應系統模塊( SOM ),數據中心中的自適應平臺包括 Alveo 加速器卡。Alveo 加速器卡采用行業標準的 PCIe,為任意數據中心應用提供了硬件卸載能力。
Kria 自適應 SOM
AI 引擎的引入
自適應計算領域最大的創新之一,就是是賽靈思推出的 AI 引擎。
AI 引擎是一種革命性的新方法,其為計算密集型應用提供了前所未有的計算密度。AI 引擎從根本上說仍然是一個可配置的塊,但它也可以像 CPU 一樣進行編程。AI 引擎不是由標準的 FPGA 處理硬件組成的,而是包含高性能的標量和單指令多數據( SIMD )矢量處理器。這些處理器經過優化,用以高效實現人工智能推斷和無線通信中出現的各種計算密集型功能。
人工智能引擎陣列,仍然與類似于 FPGA 的、靈活應變的數據互連相關接,從而能夠為目標應用建立高效、優化的數據路徑。這種計算密集型的、類似 CPU 的處理元素與類似 FPGA 的互連組合,正引領人工智能和通信產品邁入一個新時代。
賽靈思 AI 引擎架構
迎接一個更加互聯和智能的世界
從根本上說,自適應計算建立在現有的 FPGA 技術上,但使其比以往任何時候都更容易被更多的開發者和應用所接受。軟件和人工智能開發者現在可以借助這種對他們來說曾經遙不可及的用自適應計算硬件技術,快速打造優化的應用。
使硬件適應特定應用的能力,是自適應計算區別于 CPU、GPU 和 ASSP 的獨特所在,后者的核心是固定的硬件架構。自適應計算允許硬件為應用量身定做,從而實現更高效率,而且如果未來工作負載或標準發生變化,其還能夠根據需求進行調整。
隨著世界變得更加互聯和智能,自適應計算將繼續占據優化、加速應用的前沿,助力各種各樣的開發者加速將創意變成現實,讓我們的明天更美好。
評論
查看更多