因為ChatGPT,AI取得了里程碑式的勝利,甚至引爆了全社會對生成式AI和大模型技術的關注。
大模型由于參數量大、計算量大,需要更大體量的數據和更高的算力支撐,因此對芯片用量的更大需求、芯片規格的更高要求,已經成為明顯趨勢。同時,大模型要進一步走向通用,成為全社會必不可少的生產工具,勢必需要更強的訓練、推理能力,以及可接受的使用成本,而這些都在推動大算力芯片的發展變革。它一方面為AI走向通用奠定基礎,反正,則可能成為掣肘。
?
AI大模型算力吞噬怪獸
以ChatGPT為代表的LLM(大語言模型),過去幾年中,其規模每年約增加10倍。有研究表明,隨著LLM模型規模增長,很多NLP任務效果會大幅提升。這也意味著未來的技術趨勢可能是:追求規模越來越大的LLM模型,通過增加預訓練數據的多樣性,涵蓋越來越多的領域;LLM自主從領域數據中通過預訓練過程學習領域知識,隨著模型規模不斷增大,很多問題隨之解決。也就是說,更智能的ChatGPT應用,與大模型的復雜程度和規模的進一步增加,是伴生而來的階躍和挑戰。
ChatGPT對算力的消耗主要分為三個場景:
模型預訓練過程
這是ChatGPT消耗算力的最主要場景。GPT、GPT-2和GPT-3的參數量從1.17億增加到1750億,預訓練數據量從5GB增加到45TB,其中GPT-3單次訓練成本就高達460萬美元。同時,模型開發過程很難一次取得成功,整個開發階段可能需要進行多次預訓練過程,因此對于算力的需求是持續的。
模型迭代過程
ChatGPT模型需要不斷進行調優,以確保處于最佳應用狀態。這一過程中,一方面需要開發者對模型參數進行調整,確保輸出內容不是有害和失真的;另一方面,需要基于用戶反饋和PPO策略,對模型進行大規?;蛐∫幠5牡柧?。這些都將產生算力成本,且成本取決于模型的迭代速度。
日常運營過程
用戶交互帶來的數據處理需求同樣也是一筆不小的算力開支,ChatGPT面向全球大眾用戶,用的人越多,帶寬消耗越大,服務器成本會越來越高。業界測算ChatGPT 單月運營需要算力約4874.4PFlop/s-day,對應成本約616萬美元。
面對ChatGPT這類“吞金怪獸”,算力資源很容易捉襟見肘。根據OpenAI測算,自2012年以來,全球頭部AI模型訓練算力需求3~4個月翻一番,每年頭部訓練模型所需算力增長幅度高達10倍,AI深度學習正在逼近現有芯片的算力極限,也對芯片設計廠商提出了更高要求。
大算力芯片面臨能效和成本挑戰
GPU由于采用了數量眾多的計算單元和超長流水線,因此更適合進行大吞吐量的AI并行計算。不過,隨著大模型逐步發展,對GPU先進算力的需求在繼續提升。?
面向未來更大的計算和部署挑戰,單純的算力提升已經不是最優解。AMD首席執行官Lisa Su近期提出:“在接下來的十年里,我們必須將能源效率視為最重要的挑戰”。
盡管摩爾定律放緩,但其他因素推動主流計算能力大約每兩年半翻一番。對于超級計算機,翻倍的速度更快。Lisa Su指出,計算的能源效率并沒有跟上步伐,未來十年后的超級計算機需要多達 500 兆瓦的電力,這與核電站差不多。
正因如此,芯片系統級效率的提高被視作下一步的重點,這包括芯片節能計算、高效的芯片間通信和低功耗內存訪問。Lisa Su表示,通過處理器架構、先進封裝的改進,以及更好的硅技術等組合,可以使每瓦性能增長率提高一倍以上。
今年的CES展會上,AMD披露了它“迄今為止的最大芯片”Instinct MI300,這是其首款數據中心/HPC級的APU。Instinct MI300擁有1460億個晶體管的芯片,采用Chiplet設計,擁有13個小芯片,基于3D 堆疊,包括24個Zen4 CPU內核,同時融合CDNA 3 和8個HBM3顯存堆棧,集成了5nm和6nm IP,總共包含128GB HBM3顯存和1460億晶體管,有望于今年下半年上市。AMD Instinct MI300 的晶體管數量已經超過了英特爾 1000 億晶體管的 Ponte Vecchio,是 AMD 投產的最大芯片。
AMD聲稱,Instinct MI300可帶來MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基準測試),可以將ChatGPT和DALL-E等超大型AI模型的訓練時間從幾個月減少到幾周,從而節省數百萬美元的電費。
“我們目前擁有的最大杠桿可能是使用先進的封裝和小芯片”,Lisa Su說,“它使我們能夠比以往任何時候都更緊密地將計算組件結合在一起。”
此外,高能效比也是存算一體AI芯片所擅長的,它能從架構上突破傳統數據搬運方式所帶來的瓶頸,實現計算效率數量級的提升。英特爾、三星等IDM廠商和新銳的算力芯片廠商都在探索存算一體芯片,并衍生出了不同的架構和技術路線。
在阿里達摩院發布的2023十大科技趨勢中,多模態預測訓練大模型、Chiplet、存算一體等技術都位列其中,成為算力產業下一步有跡可循的發展方向。
催生更高內存要求
受惠于ChatGPT火熱,有消息稱,三星、SK海力士兩家內存大廠旗下HBM業務接單量大增(上文提及的Instinct MI300就采用了128GB HBM3)。
HBM(high bandwidth memory),又名高帶寬內存,主要通過硅穿孔(Through Silicon Via)技術進行芯片堆疊,通過增加吞吐量的方式克服單一封裝內帶寬的限制,最終將數個DRAM裸片如積木一樣垂直地堆疊起來。基于這種設計,信息交換的時間將會縮短。這些堆疊的數顆DRAM芯片通過稱為“中介層(Interposer)”的超快速互聯方式連接至CPU或GPU,最后可將組裝好的模塊連接至電路板,組成一款大容量、高位寬的“性能怪獸”。
早在2014年時,SK海力士就與AMD合作推出第一代HBM產品,如今已經更新到第四代產品(HBM3),還有英偉達、英特爾等企業都在采購HBM3。
與傳統DRAM相比,HBM在數據處理速度和性能方面都有著更強的競爭力。SK海力士的第三代HBM已搭配英偉達A100 GPU中,第四代HBM搭載在H100中,都已開始供應ChatGPT服務器所需。
受應用拉動,第三代HBM報價飛漲,據稱已是效能最高的DRAM產品的五倍之多,其市場成長率是三星、SK海力士原本預測的兩倍以上。
預測下一步,ChatGPT等應用將繼續提升內存需求,例如能夠存儲大量圖片和音頻信息的高容量、進一步提高數據傳輸速度的高帶寬、更低功耗、更高安全性,都將是未來深度學習與大模型進化的根基。
以HBM為代表的超高帶寬內存技術,有望成為加速芯片選擇,同時大模型的發展也會推動HBM內存進一步增大容量、提升帶寬。
一個隱憂
在筆者日前與千芯科技董事長陳巍的交流中,他對算力芯片有一個形象的比喻:芯片是高科技發展的算力樹根,大模型技術是科技樹發展的AI樹干,每個枝干就是不同的高科技領域。樹根越茁壯,樹干越高,科技樹就越繁盛。從這個角度看,芯片和大模型領域的水平都影響到最終的國力競爭。
盡管國內頭部大廠已經開始如火如荼地復現ChatGPT效果,但一個隱憂是——如果高端算力芯片被“斷供”,高端芯片制造受阻,對我們訓練和應用AI大模型會不會帶來“釜底抽薪”般的挑戰?
如果高端芯片“斷供”持續下去,對我國AI大模型的發展可能是非常不利的。一方面,ChatGPT訓練需要大量的CPU和GPU。另一方面,由于芯片禁令,導致國內難以新獲得A100或更新的GPU。這相當于直接鎖住了大模型訓練的速度。
現在看來,國內可能是半年訓練出一代,以后可能就是2年甚至10年才能完成一代進步。由于AI計算還影響到AI制藥、AI材料等領域的發展,如果高端大算力芯片的問題得不到解決,國內的科技樹成長速度有可能被拖慢。
由此會不會加大我國與國際上AI技術的發展代差?如果國際上憑借突飛猛進的大模型技術繼續反哺各行各業的創新應用?……這種發展差距細思極恐。
寫在最后
當AI公司在ChatGPT時代躍躍欲試淘金之時,探討一下作為根基的大算力芯片尤為必要。特別是當大模型有望成為各行各業重要的生產工具,其下一步的部署和實施,大算力支持也是必不可少的。只有系統性地規劃,聚焦于關鍵問題,才能形成持續突破。
編輯:黃飛
?
評論
查看更多