在加州山景城舉辦了 AI Hardware Summit 會議,這是目前唯一專門致力于開發用于神經網絡和計算機視覺硬件加速器生態系統的活動。
會上,來自 AI 芯片初創企業、半導體公司、系統供應商/ OEM、數據中心、企業、金融服務、投資者和基金經理等 250 多位先進技術領導者們,為新興的 AI 芯片市場構建了一幅全面的架構路線圖。
人工智能硬件峰會的五大要點:
幾乎所有使 AI 計算加速的都是 7nm 芯片,由臺積電制造。另外,我們還看到了一系列新的高速接口芯片 (Serdes 56 / 112gbs)。
英偉達依舊是訓練領域之王,我們將會看到其新款計算卡 Tesla T4(使用了全新的 12nm 制程工藝 圖靈架構)的廣泛使用。我們認為,它將在 2019 年繼續占據主導地位。長遠來看,我們對 AI 較少依賴于 CUDA 和 GPU 的狀況感到擔憂。
我們認為 Intel 的 7nm AI 芯片(由臺積電代工)支持 112GBs Serdes 和高速 DRAM。明年,在 Cascade Lake 服務器中,DL Boost INT8 會協助提高深度學習推理性能。
所有的云計算服務商都在開發內部的芯片,加速計劃是不公開的。這種垂直推進是對芯片制造商的一個主要威脅。
在五年的時間中,我們看到:新的模擬計算機(神經形態)的進步,納米線對數字計算的部分挑戰,硅光子代替了 SerDes(112GBs 以上),以及更高速的存儲器對 AI 性能提升的助益。
未來十年,AI 芯片將不僅是半導體領域最有前途的增長領域之一,還可能擾亂傳統的計算機市場。
專門針對 AI 開發的軟件還有 99%沒寫出來。如今,只有不足1% 的云服務器為AI加速服務(今年的服務器總數為 5 百萬臺),企業服務器則是幾乎零舉動。訓練和推理的工作量正以較低的基數倍增,但市場似乎一致認為,今天的加速硬件(GPUs,CPUs, FPGAs)已經遠遠滿足不了市場的需求——在我們看來,我們需要實現吞吐量的巨大飛躍(100 倍),以擴大 AI 的規模,并讓 AI 變得無處無在。
好消息是,即將迎來結構性的創新,但是其作用需要一段時間才能顯現出來。
2019 年以后,我們將看到:新的流程技術(7nm),新的計算機功能結構(芯片上的神經網絡),新的芯片連接(56/112GBs SerDes),新的內存方法(HBM3,SRAM on-chip 等)和新的包裝技術,所有這些都能大規模提升性能。
芯片行業正在進行創新反思,因為芯片的發展不能過多依賴制造業的萎縮來取得進展。機會來了。我們會繼續看到,對長期投資 AI 芯片的投資者而言,投資臺積電和主要的 DRAM 制造商仍是最佳選擇。
我們上周參加了人工智能硬件峰會,了解了很多 AI 芯片替代品的現狀。
有一件事是清楚的:我們從未見過如此多的公司(無論大小)像今天這樣、進軍新的芯片市場,毫無疑問,未來幾年將會是一個令人著迷的時期,我們一定能見證這個市場的整合過程。
繼谷歌的 TPU 領先之后,每個云計算服務商都在做內部的 AI 芯片。問題在于,要想影響市場的情緒,這一切需要的時間有多長。
畢竟,谷歌的 TPU 芯片已經到了第三代(2016 年中期推出第一代 TPU),但仍然承載不了 Tensorflow(或其他框架)所有工作量。我們認為,其他云計算服務商將在 2020 年驗證并量產他們的第一款 AI 芯片。
造新的 AI 芯片,有兩種通用方法。
第一種方法是,在系統上進行創新,以更快的 I/O 和外部內存接口(英偉達、英特爾等)為重點來擴展性能。
第二種方法是,把所有的數據集中保留在芯片上(芯片上的神經網絡)——包括大量的小核和芯片內存,以減少對外部 DRAM 的需求。第二種方法將在未來 6 個月內實現第一批 AI 芯片的商業化,但我們認為,7nm 工藝才是促使市場為其買單的優勢(也就是 2020 年的增長)。
圍繞人工智能的軟件棧在快速發展,云計算服務商也推出了開源適配器,以支持在其框架中運行的各種芯片(例如 Tensorflow XLA、Facebook Glow)。隨著新神經網絡的成熟,每個人都會認同可編程性和靈活性的重要性。
這意味著,7nm 芯片潛在的目標是,16 位浮點運算的運算能力至少要達到 10TOPS。人們真正關注的是如何通過提高效率來提高性能,如通過支持稀疏數據結構、降低精度、使用 mini-batching、加快芯片互聯速度(112GB Serdes)、使用更快的內存接口(遠超 HBM2),以及新的多芯片先進封裝。
英特爾:AI 領域的玩家
當人們普遍不再依賴通用 CPU 時,也不再十分信任英特爾計劃在未來幾年內為 AI 引入一些新的優化措施這件事。
英特爾去年 (2017 年) 的 AI 收入約為 10 億美元,Xeon CPUs 也將繼續在 AI 推理和 AI 訓練方面發揮重要作用。
例如,英特爾在 Cascade Lake 的服務器架構中添加了大量新的指令,以提高其推理性能(聲稱在精度為 INT8 的情況下、性能提升了 11 倍)。我們預計,這些擴展將與 AMD EPYC2 規格區別開來。
我們還相信,英特爾的下一個 ASIC 芯片(將于 2019 年采樣)將由臺積電代工(7nm),將具有一些關鍵的專有接口,這將顯著提高它的性能。雖然當下 GPU 以低速(PCIE-3)與 CPU 相連,但是我們預計,新的服務器將 PCIE-4(16GB),仍會是數據輸入 GPU 的關鍵瓶頸。
相比之下,我們認為,英特爾將在其 Xeon CPU 和 7nm Nervana 芯片之間構建專有接口,速度可達 112GB。英特爾正計劃推出一種新的高帶寬內存接口(這對云服務提供商來說,是一個關鍵的關注點),并積極參與新的多芯片包裝。AI 的加速會導致更多的 CPU 被停用,英特爾正尋求通過圍繞 Xeon 構建外圍解決方案來獲取價值。
英偉達:標準制定者
英偉達的 GPU 目前仍然是 AI 計算領域的王者,他們有實際的收益(支持所有的框架,所有的云計算服務商,所有的 OEM),他們的新品將有顯著的性能提升——我們認為,其 T4 將被廣泛采用,其新的 DGX2 服務器將在今年售罄。目前沒有什么引人注目的替代品可供選擇,我們認為,英偉達將繼續占據主導地位(至少到 2019 年),但有兩個主要問題讓我們懷疑,英偉達是否能長期維持其領導地位:
首先,我們認為,很明顯的一點是,隨著谷歌和 ONNX 等公司的努力,英偉達的軟件護城河 (CUDA) 將變得不那么重要。
云計算服務商正積極提供開源插件,用于替代芯片解決方案,以支持 Tensorflow、Pytorch、CNTK、coff2 等框架,從而降低進入新的 AI 處理器的軟件門檻。
其次,是英偉達訓練和推理芯片的經濟性——雖然它們可以為許多 AI 工作節省 CPU,但是銷售卡的超高利潤率與昂貴的內存捆綁在一起(V100 是每張卡 1 萬美元,P4 可能是每張卡 2000 美元),這只會讓云端玩家擁抱其他架構。
盡管如此,英偉達有巨大的資源來超越競爭對手 (尤其是初創企業),它致力于每年為 AI 推出一種新的架構,可能在 2019 年首次推出 7nm 解決方案。
V100 和 T4 在很大程度上都被視為英偉達在 AI 領域的第一顆轉換芯片(不再只是通用 GPU),因為它們是第一個支持張量核心和較低推理精度的芯片(INT8)。
隨著英偉達 7nm 芯片的推出,我們期待,其性能在 2019 年會有另一個大的飛躍——有很多大幅提升吞吐量和延遲以提升效率的方法,我們預期,其下一代芯片更像以 AI 為中心的 ASIC,而不是 GPU。
云端的消費者告訴我們,他們使用 V100 GPU 來進行訓練的頻率很低(低至 15%),因為他們用 GPU 只是為了訓練單一的神經網絡。他們希望英偉達能將 GPU 虛擬化——盡管對 AI 計算的需求永無止境的,但這可能會給英偉達的 GPU 增長帶來壓力。
此外,英偉達如今擁有芯片對芯片的快速接口(NVlink2),運行速度為 25Gbs(遠遠超過僅 8GB 的 PCIE-3 或 16GB 的 PCIE-4)。我們預計,到 2019 年底,英偉達將支持 56Gbs 甚至 112 GB 的服務器,因為有些替代方案可以提升這些規格。
我們認為,英偉達的下一代架構將在 2019 年的 7nm 芯片上出現(超過 Volta / Turing),這將大大決定它能夠在多大程度上拉開市場差距。
AI 芯片的替代品——即將到來
隨著谷歌 TPU 的推出,每個云計算服務商內部都有了做 AI 芯片的項目,我們認為,這將在未來 18 個月內得到驗證。
有些人公開表達了自己的意圖。微軟甚至在峰會上設立了招聘平臺,這就是它渴望建立團隊的表現。但有關這些項目的狀況,我們無從得知:云計算服務商沒有公開他們造芯計劃的任何細節,所以我們不知道他們的項目進展。
我們認為,第一代轉換芯片將像谷歌兩年前對 TPU 的判斷一樣,專注于推理。Google Brain 的報告指出了一個具有諷刺意味的事實:當芯片行業達到摩爾定律的極限之際,AI 計算卻出現了指數級增長,因此,架構(和軟件協同設計)將成為關鍵的推動因素。
谷歌不僅使用 TPU 來處理越來越多的工作量,還用 GPU 測試大量即將上市的新系統。
這 50 多家創業公司的工作都是為了將他們的平臺商業化,我們預計在未來 12 個月內會有 6 家公司推出首款轉換芯片,將于 2020 年推出第二款(7nm 芯片)。
即使一些人工智能初創企業2019 年的銷售額就可能達到 1 億美元,但我們認為,到 2020 年才會有人超越這個數字。有許多令人印象深刻的初創公司,但其中許多還沒有流片,因此很難對其性能進行驗證。
云計算服務商們希望了解新的 AI 芯片的系統性能,因此,他們幫助建立了一個新的基準測試標準,名為 MLPerf。
我們認為,這將是分析特定模型的訓練時間 (如果不要求準確性) 的關鍵標準,也有助于與目前市場領軍者英偉達的培訓平臺進行比較 (英偉達尚未加入 MLPerf)。
很明顯的一點是,許多初創企業以前從未進入過主要的云數據中心,也從未在前沿制造過芯片。
此外,只有少數參與者之前與云有密切的關系、在以云計算芯片為關鍵任務構建一個工程團隊方面有豐富的經驗。
云加速:巨大的市場機遇
以今天一臺典型的云服務器配置為例(包括 2 個插座,10 核 Xeon E5 就是最受歡迎的銷售平臺之一),有大約 660 毫米的裸片大小來處理主 CPU 計算 (即兩個 330 毫米的 CPU 芯片),主要由英特爾提供。但是,針對 AI 加速的服務器(比如英偉達 DGX-1)已經有多達 10 倍的硅芯片大小來處理計算加速,正如圖 2 所示。
這個裸芯片大小與 CPU 裸芯片大小的比率只會增加,因為隨著時間的推移,每 CPU 4 個加速卡會上升到 6 個和 8 個。
我們相信,谷歌正計劃明年將 TPU 芯片數量增加兩倍。在訓練應用中,英偉達的芯片需求量會繼續大幅增長,而且從 2020 年開始,一大批人工智能創業公司將崛起。
但是,鑒于人工智能服務器目前在市場上的滲透率很低 (今年購買的云服務器中,只有不到 1% 的服務器支持加速度),長遠來看,臺積電機遇很大。
如果我們假設這種滲透率上升到 100 萬加速 AI 服務器(今年低于 5 萬),并且裸芯片大小通過縮小(即每臺 AI 服務器 6,560mm)保持不變,這將轉化為大約每年 20 萬晶圓,或 30 億美元的代工收入(假設每片晶圓 15,000 美元,收益率 55%)。這就是為什么我們繼續認為臺積電將作為 AI 芯片的長期關鍵受益者之一。
長遠來看,還有哪些新技術?
峰會期間還有許多其他新興技術在 3 - 5 年的視野中看起來很有趣。
顯然,人工智能的邊緣計算正在智能手機中進行,我們堅信每部智能手機都將在未來 2 - 3 年內擁有專用的計算機視覺 AI 處理器(在相機周圍)。
谷歌的 Edge TPU 和英偉達的 DLA 是早期可授權的例子,我們看到 ARM 現在提供專用的 AI 許可證解決方案,而 Qualcomm,華為海思和寒武紀以及聯發科則提供一系列智能手機和物聯網解決方案。
一系列具有增強 AI 規格的嵌入式 SOC 即將推出,適用于相機,機器人,汽車等。英偉達的 Xavier 就是一個例子。我們將在即將發布的報告中研究自動駕駛汽車的汽車路線圖,其中,AI 加速將發揮核心作用。
從長遠來看,盡管存在摩爾定律的挑戰,我們仍可以看到正在開發的一些新技術,以擴展計算性能。
其中一個更令人印象深刻的演講來自 Rain Neuromorphics 和 Mythic,他們從五年的時間角度,談了談模擬計算商業化,比如使用類似大腦突觸那樣的松散幾何形狀,解決功率限制。
此外,Ayar Labs 闡述了為什么他們在硅光子微型化方面的突破,將導致更快的芯片互連(超過 112GB Serdes)的解決方案。
隨著 Exascale 計算機預計將在 3 - 4 年內出現在我們面前,我們認為,人工智能正在全面推動反思,以實現性能的指數增長。
必要的披露
整體行業風險:算法變化可能需要比預期更長的時間,ETH 價格可能上漲到足以抵消近期的回報阻礙和難度變化,并且可能出現一種新的 GPU 可挖掘的加密貨幣,從而推動 GPU 需求。
不斷惡化的全球經濟環境可能會影響半導體行業,迅速造成嚴重的供過于求,晶圓廠利用不足,平均售價下降或庫存減少。在 09 年期間,半成品銷售下降 10%(外存儲)。所有部門的競爭都很激烈。
智能手機領域是一個充滿活力的市場,有數十家廠商生產著需要復雜軟硬件集成技能的產品。雖然所謂「旗艦」設備的市場空間受到區分「黑色平板」(即主要運行 Android OS 的標準觸摸屏設備) 困難的限制,但是,很難預測哪一家廠商與哪種特定型號相關。
-
神經網絡
+關注
關注
42文章
4777瀏覽量
100952 -
計算機
+關注
關注
19文章
7525瀏覽量
88319 -
AI
+關注
關注
87文章
31283瀏覽量
269642
發布評論請先 登錄
相關推薦
評論