深度學習有一個DRAM問題。設計用來實時處理復雜任務(比如,在汽車的備份攝像頭視頻流中分辨貓和孩子)的系統,不斷地將構成神經網絡內容的數據從存儲器傳送到處理器。
根據初創公司Flex Logix的說法,問題并不是缺乏存儲這些數據的空間,而是處理器和存儲器之間缺乏帶寬。為了將數百千兆比特的數據提供給處理器,有些系統需要4個甚至8個DRAM芯片,這既使占用的空間增加了不少,又消耗了大量的電能。Flex Logix表示,它為可重構芯片開發的互連技術和tile-based架構將使AI系統只需要1個DRAM芯片的帶寬,且功耗僅為十分之一。
圖片來源:Flex Logix
NMAX512tile的架構。
位于加州山景城的Flex Logix公司已經開始將一種新的嵌入式現場可編程門陣列(eFPGA)架構商業化。但經過一番探索后,其創始人之一Cheng C. Wang意識到,這項技術可以加快神經網絡的速度。
神經網絡由連接和表示連接強度的“權重”組成。另一位創始人Geoff Tate解釋說,一個好的AI芯片需要兩樣東西。一種是一些做關鍵“推斷”計算(即乘法和累加)的電路。“但更困難的是,你必須非常擅長引入所有這些權重,以便其乘法器總能得到它們需要的數據,從而進行所需的數學運算。Wang意識到我們在FPGA的互連方面所擁有的技術,他可以對它做適應性改造,來創建一種非常擅長快速高效地加載權重、高性能和低功耗的架構。”
需要快速連續地將數百萬個權重加載到網絡中,這就是每秒要做數萬億次到數十萬億次運算的AI系統為什么需要那么多DRAM芯片的原因。DRAM芯片上的每個引腳每秒最多可以傳輸4Gb數據,因此要達到所需的每秒數百Gb的數據傳輸速度,就需要多個芯片。
在為FPGA開發最初的技術時,Wang注意到,這些芯片有約80%的面積互連,因此他尋求一種能夠縮小互連面積并考慮到更多邏輯的架構。他和他在加州大學洛杉磯分校的同事對一種稱為folded-Bene?網絡的電信架構做了適應性改造來完成這項工作。這使得FPGA架構看起來像一堆邏輯和SRAM的瓦片(tile)。
圖片來源:Flex Logix
Flex Logix公司表示,在芯片中構建分布式SRAM可加快計算速度并降低功耗。
Tate說,在這種專用互連方案中使用分布式SRAM最終會對深度學習的DRAM帶寬問題產生重大影響。“我們正在用芯片上的SRAM取代DRAM帶寬。”
圖片來源:Flex Logix
若干NMAXtile可以置于一個芯片上并連在一起,以擴大計算能力。
用于Flex Logix的AI產品的tile稱為NMAX,采用了臺積電的16納米技術,面積不到2平方毫米。每個tile都由一組核心組成,這些核心這些核心負責關鍵的乘法和累加計算、控制數據的處理和流動的可編程邏輯以及SRAM。這涉及三種不同類型的互連技術。一種tile上的所有零件連接在一起。另一種將tile與位于tile之間的附加SRAM及外部的DRAM相連接。第三種將相鄰的tile連接在一起。
在深度學習領域,很難進行真正的橫向比較。但Flex Logix的分析顯示,將使用1個DRAM芯片的模擬的6×6tile的NMAX512陣列與使用8個DRAM的Nvidia Tesla T4進行比較,結果是新架構每秒能識別4,600張圖像,而Nvidia每秒識別3,920張圖像。在一項名為YOLOv3的實時視頻處理測試中,同樣大小的NMAX陣列可達到每秒22萬億次運算,而使用的DRAM帶寬是其他系統的十分之一。
Tate表示,首批NMAX芯片的設計將于2019年下半年送至代工廠以便進行制造。
Flex Logix將波音公司視作其高吞吐量嵌入式FPGA產品的客戶之一。但Tate承認,與神經網絡相比,嵌入式FPGA是個很難賣的產品。“嵌入式FPGA是一項很好的業務,但是推理可能很快就會超越它。”Tate說。
-
DRAM
+關注
關注
40文章
2325瀏覽量
183757 -
神經網絡
+關注
關注
42文章
4779瀏覽量
101036 -
深度學習
+關注
關注
73文章
5512瀏覽量
121408
原文標題:Flex Logix公司稱它解決了深度學習的DRAM問題
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論