在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

高算力芯片未來技術發展途徑

sakobpqhz ? 來源:算力基建 ? 作者:算力基建 ? 2022-12-09 11:29 ? 次閱讀

面向未來高算力芯片需求,分析了國內外高算力芯片發展趨勢,提出由數據互連、單位晶體管提供的算力、晶體管密度和芯片面積構成的芯片算力表達式。介紹了未來高算力芯片發展的關鍵技術,并結合算力表達式論述相關技術如何發揮作用。從新材料、新器件、先進工藝、新架構、集成封裝等角度出發,探討了集成電路先進制造工藝、單片三維集成技術、領域專用架構、粗粒度可重構架構、存算一體技術、芯粒(Chiplet)技術和晶圓級集成等國內外發展現狀及其對芯片算力的提升效果,并深入分析了各項技術的發展和挑戰。結合中國高算力芯片現狀和集成電路先進制程發展受限,提出從“架構+集成+系統”出發,探索實現高算力芯片的一體化自主可控創新路徑,可以采用成熟制程,結合粗粒度可重構和存算一體新型架構,采用基于先進集成的芯粒技術實現總算力突破。 隨著信息社會數字化、智能化水平的不斷提高,人類社會已進入算力時代。當前算力基礎設施主要以數據中心的形式實現高性能算力供應,其中,高算力芯片是算力的具體載體——提供超算算力、通用算力、智能算力和邊緣算力。數字經濟時代,算力高低成為綜合國力強弱的重要指標之一,高算力芯片技術是國家核心競爭力的重要體現。本文將探討高算力芯片未來技術發展途徑。

數據是信息時代的“石油”,算力則將數據轉化為動能,驅動經濟和科技的發展,是數字經濟時代的引擎。數字經濟轉型和新基建、“東數西算”等戰略工程驅動中國實現算力基礎設施化。高算力芯片是算力載體,通過其提供的計算能力,支撐互聯網、金融、科技、制造業等各個行業的發展和數字化轉型,賦能人工智能自動駕駛、智能物聯網、高性能計算和元宇宙等應用場景。現階段,5G云計算、大數據、物聯網、人工智能等技術高速發展,數據爆炸式增長,算法復雜度不斷提高,加快高算力芯片發展,是中國打造數字經濟新優勢、提升國家整體競爭力和國防安全的重要保障。

01高算力芯片國內外發展態勢

1.1 科技發展對芯片算力的需求爆發式增長

當前,高算力芯片在典型應用場景中呈現如下分布:以云端部署為主,并逐漸向邊緣端擴散,最終在云、邊、端側形成分布式高算力網絡。在不同應用場景中,衡量芯片算力的具體指標會有相應差異。對于高性能計算任務,單位時間內的高精度浮點計算峰值是重要指標,如64位雙精度浮點;對于人工智能訓練及推理任務,只需關注較低精度數據的處理速度,如16位浮點或者8位整型精度;對于圖像處理任務,系統運行的幀率是關鍵指標。但是,差異化任務場景背后的高算力技術是共性、通用的。本文采用TOPS(Tera Operations Per Second,萬億次運算每秒)作為算力指標,衡量典型高算力場景下的芯片算力需求。當前,技術路線發展和多項應用場景都提出了至少高于1000 TOPS的高算力芯片需求。

(1)數據中心和超算需要高于1000 TOPS的高算力芯片。當前,超算中心算力已經進入E級算力(百億億次運算每秒)時代,并正在向Z(千E)級算力發展。2022年5月登頂世界超算500強榜單的美國國防部橡樹嶺國家實驗室Frontier超算中心,采用AMD公司MI250X高算力芯片(可提供383 TOPS算力),達到了1.1 EOPS雙精度浮點算力。

(2)新一代人工智能任務需要高于1000 TOPS的高算力芯片。深度學習興起帶來了人工智能的新一輪繁榮。當前,深度學習發展逐步進入大模型、大數據階段,模型參數和數據量呈爆發式增長,引發的算力需求平均每2年超過算力實際增長速度的375倍,因此底層硬件算力難以滿足算法需求。以2020年發布的GPT3預訓練語言模型為例,其擁有1750億個參數,使用1000億個詞匯的語料庫訓練,采用1000塊當時最先進的英偉達A100 GPU(圖形處理器,624 TOPS)訓練仍需要1個月。

(3)高性能移動端應用,如自動駕駛任務需要高于1000 TOPS的高算力芯片。追求更高算力是當下自動駕駛領域發展的一大趨勢,高階自動駕駛對算力需求呈指數級上升。L2、L3、L4和L5級自動駕駛至少需要10、100、400、3000 TOPS的算力。中國智己L7整車達到1070 TOPS,蔚來ET7整車達到1016 TOPS,背后均搭載了254 TOPS的英偉達Orin X高算力芯片。預計2025年,英偉達公司將發布1000 TOPS的Atlan高算力芯片。

綜合考慮集成電路技術發展下的芯片算力現狀和未來人工智能、數據中心、自動駕駛等領域的發展趨勢,未來高算力芯片需要不低于1000 TOPS的算力水平。

1.2中國高算力芯片發展仍落后于算力產業發展

根據2022年《中國算力白皮書》,2022年中國整體算力達到150 EOPS,占全球總算力的31%,在全世界僅落后于美國(36%),中國算力產業發展對高算力芯片需求強勁。一方面,高算力芯片作為底層算力池,賦能萬千行業和新興產業,市場發展造成了對高算力芯片的強勁需求;另一方面,國家布局和政策引導也推動了高算力芯片的需求。除了“東數西算”工程外,“十四五”規劃和2035年遠景目標綱要明確提出要“建設若干國家樞紐節點和大數據中心集群,建設E級和10E級超算計算中心”,國家發展和改革委員會也出臺了一系列政策文件,全國多個地區進行數據中心建設和布局。市場發展和政策實施都對大力發展高算力芯片技術提出需求。

然而,中國高算力芯片的發展從知識產權、市場占有率與自主制造角度依然面臨嚴峻挑戰。浪潮、華為、新華三、聯想等國產服務器品牌位居中國服務器市場前5名,整體份額達到74%,然而底層的通用高算力芯片卻嚴重依賴進口。在以中央處理器(CPU)為核心的通用數據中心產業,仍以美國英特爾和AMD主導的x86架構CPU主導,市場占比超過96%。華為鯤鵬系列服務器芯片是中國自主研發的基于ARM指令集的高性能芯片,但是高度依賴先進制造工藝。在智能芯片領域,GPU仍是智能數據中心的主流算力芯片,2020年中國智能數據中心約95%的市場份額由美國英偉達的芯片占據。近年來,中國涌現了壁仞、天數智芯、沐曦、摩爾線程等國產GPU產品以及華為昇騰、寒武紀思元、百度昆侖芯、燧原等自主人工智能(Artificial Intelligence, AI)芯片產品,但都過度依靠國內尚無法自主可控的先進制造工藝。

因此,亟須探索符合國情的高算力芯片的創新發展途徑,保障中國產業戰略布局實施,助推數字經濟發展。

1.3 高算力芯片技術發展途徑

芯片算力由數據互連、單位晶體管提供的算力(通常由架構決定)、晶體管密度和芯片面積共同決定。

058f1a88-7771-11ed-8abf-dac502259ad0.png

式中,γ為互連系數,既包括存儲和計算單元之間的互連帶寬,也包括計算單元之間的互連帶寬,取值為0~1。MTOPS為以TOPS為單位的算力,N為晶體管數目,S為芯片面積。

自集成電路興起的60多年來,算力芯片的發展主要依賴于摩爾定律指引下的工藝制程進步和體系架構改進。然而,隨著器件尺寸逼近物理極限,芯片集成度遵循摩爾定律發展的趨勢逐漸變緩,先進工藝成本增加,同時單片芯片的面積有限,這些因素共同導致很難繼續通過提升芯片面積和晶體管集成度來增加算力。現有計算平臺主要基于馮·諾依曼架構,存儲單元和計算單元彼此分離,任務處理需要數據頻繁在存儲單元和數據單元間搬移,消耗在搬移過程中的延時和功耗成為系統性能瓶頸,造成“存儲墻”和“功耗墻”。同時芯片的I/O引腳有限,I/O數據傳輸速度匹配不上計算速度,也會造成“I/O墻”,和“存儲墻”一起限制了互連系數γ的提高。這些挑戰制約了計算芯片算力的進一步提升。

本文將從算力表達式出發,通過分析新型材料器件、架構、工藝和集成方案,探討有望打破算力瓶頸的新興高算力芯片技術。

02后摩爾時代的晶體管密度提升途徑

2.1 先進制造工藝帶來的算力提升

按照摩爾定律經驗,集成電路上可以容納的晶體管數目每18個月便會提升1倍。集成電路制造工藝按照摩爾定律不斷發展,目前先進制程已進入3 nm節點。摩爾定律下的集成電路尺寸微縮能帶來單位面積算力的指數提升,不僅可以提升單位面積的晶體管數目,還能通過提升時鐘頻率來提升單位晶體管算力,從而提高芯片總算力(式(1))。圖1統計了英偉達GPU算力與工藝制程的關系。圖1(a)顯示GPU單位面積芯片算力隨工藝節點的進步而提升,橫坐標為不同工藝制程節點,縱坐標為對數坐標下的歸一化單位面積算力。圖1(a)內表格對比了65 nm和90 nm制程下的帕斯卡(Pascal)架構GPU,可以看到,先進工藝節點晶體管密度和工作頻率均顯著提高,從而帶來芯片整體算力的提升。圖1(b)對應總結了GPU歸一化芯片算力與歸一化晶體管數目和時鐘頻率乘積的關系,表明先進工藝是芯片算力提升的關鍵推動力。近年來,英偉達、超威、蘋果的高算力芯片均采用7、5 nm先進制程實現。

05a207ec-7771-11ed-8abf-dac502259ad0.png

圖1英偉達GPU算力與工藝制程的關系

中國集成電路制造起步較晚,且受出口管制影響,雖然制程發展迅速,但整體水平相對落后。表1展示了全球主要集成電路制造廠的量產工藝節點及晶體管密度。中國臺灣積體電路制造股份有限公司(簡稱臺積電)和三星均已量產5 nm工藝節點,英特爾也量產了7 nm工藝節點,晶體管密度均超過了1億個/mm2,大陸代工廠中芯國際打通了14 nm工藝節點,晶體管密度達到3000萬個/mm2。

表1全球主要集成電路制造廠的量產工藝節點及晶體管密度

05b08556-7771-11ed-8abf-dac502259ad0.png

2.2 摩爾定律發展的挑戰與機遇

隨著集成電路工藝節點的不斷進步,摩爾定律發展受到非理想物理效應和工藝成本等諸多限制,其中主要的挑戰一方面在于光刻技術,另一方面在于器件的短溝道效應。

光刻是集成電路制造的核心工藝,決定了器件的空間尺度。為滿足先進制程需求,將采用極紫外(Extreme Ultra-Violet, EUV)光刻機。EUV直接將光源波長從193 nm縮短至13.5 nm,通過將整個光路放置在真空環境下,把透鏡組變成反射鏡組等方式,減小了短波長光在光路中的損耗。采用EUV結合各種先進工藝技術,實現3 nm工藝節點沒有障礙,但面臨成本控制、光源波長縮短和光源穩定性問題。

短溝道效應是指隨器件尺寸微縮達到物理極限,量子效應和非理想因素將逐漸顯現,影響器件性能,包括閾值電壓降低、漏致勢壘降低、載流子表面散射和熱電子效應等。增加柵控能力是抑制短溝道效應的關鍵,為此,集成電路制造已從平面工藝發展為鰭式場效應晶體管(Fin Field-Effect Transistor, FinFET)工藝,通過增加柵極維度改善柵控效果。隨著工藝節點往3、2 nm發展,將需要全新器件結構實現更強的柵控,基于環柵場效應晶體管(Gate-All-Around Field-Effect Transistor, GAAFET)和多橋通道場效應晶體管(Multi-Bridge-Channel Field-Effect Transistor, MBCFET)器件結構的制造流程將成為主流(圖2)。

05c78940-7771-11ed-8abf-dac502259ad0.png

圖2工藝制程發展中的不同器件結構

2.3 單片三維集成技術

在二維空間實現高密度晶體管集成的手段已經逐步逼近極限,未來摩爾定律的發展可通過單片三維集成實現。通過在垂直方向堆疊晶體管和其他邏輯、存儲器件,進一步提升單位面積的晶體管數目和數據通信效率,實現提高芯片算力。斯坦福大學教授Phillip Wong團隊通過評估表明,單片三維集成芯片相對于傳統二維芯片,具有1000倍以上的功耗延時乘積優勢。該技術發展需要克服工藝兼容、散熱、良率和可靠性問題。異質單片三維集成技術是現在研究的前沿熱點,斯坦福大學、麻省理工學院和清華大學、北京大學都在進行深入研究。2021年國際電子器件會議(IEDM)上,清華大學錢鶴、吳華強研究團隊展示了一個集內容尋址和存算單元核心于一體的單片三維集成系統,該系統與傳統芯片相比擁有2個量級的能耗優勢(圖3)。

05f0eaba-7771-11ed-8abf-dac502259ad0.png

圖3碳、硅和憶阻器單片三維異質集成系統

03基于新型計算架構的算力提升途徑

計算架構的好壞影響了芯片單位晶體管能提供的算力水平,是決定芯片算力的本質因素。架構設計需要在通用性和高效性間平衡,以適應不同的應用場景。圖4展示了傳統計算芯片的架構特點。傳統計算硬件以CPU和通用圖形處理器(GPGPU)為代表,基于馮·諾依曼架構完成通用計算。CPU使用了復雜的流水線和控制邏輯,并依托指令集實現硬件開發和軟件編程解耦,具有高度可編程性,是最通用、最靈活的計算芯片。雖然軟件生態成熟,但無法兼顧高算力,因此性能受到限制。GPGPU則采用眾核架構,由眾多簡單的并行計算單元提供算力支持,更加注重眾核的高性能,一般作為對高并行度任務的加速處理單元使用。此外,還有依托于現場可編程邏輯門陣列(Field-Programmable Gate Array, FPGA)和專用集成電路(Application Specific Integrated Circuit, ASIC)的計算芯片:ASIC是專用計算芯片,一般針對具體的應用場景和算法,通過高度定制化來高效解決特定問題,能實現較高的性能,但可編程性和通用性較差;FPGA是一類基于現場可編程邏輯陣列的計算芯片,雖然不能做到GPU級別的并行加速或ASIC級別的能效比,但是可以提供硬件編程能力。

060844b2-7771-11ed-8abf-dac502259ad0.png

圖4傳統計算芯片的架構特點

傳統架構無法滿足未來高算力芯片的需求,設計具有通用性、靈活性的高算力芯片需要全新的架構。為此,國內外高校和企業持續進行芯片架構的研究與開發。英偉達在GPGPU上迭代形成集成了張量核心(Tensor Core)的領域定制架構,2022年最新發布的H100 GPU基于4 nm工藝,可以提供2000 TFLOPS(萬億次浮點運算每秒)的算力。清華大學尹首一研究團隊提出了多尺度可編程的粗粒度可重構架構和憶阻器存算一體架構,解決了硬件靈活性與利用率之間的固有矛盾。以下面向未來大算力應用場景探索芯片新型架構,深入分析架構設計思路與特性,總結未來高算力芯片架構的發展趨勢。

3.1 領域專用架構

領域專用架構(Domain-Specific Architecture, DSA)是指為特定領域的一類任務定制化設計的芯片架構,在解決該類問題時兼顧通用性和高性能。通常,DSA架構進行以下優化:①定制化設計運算電路和支持的數據類型;②設計支持高并行度操作的硬件結構,用并行的方式接近線性地提升性能;③對存儲結構進行優化,可以定制化片上靜態隨機存取存儲器(SRAM)存儲;④往往會有強大的領域特定語言(Domian-Specific Language, DSL)編程語言支持,在應用層面進一步發揮硬件性能。DSA通用性大于ASIC芯片,并且在開發成本上解決了ASIC芯片的一次性工程費用(Non-Recurring Engineering, NRE)無法平攤、編程性差等缺點,同時提供高算力和高能效。

3.1.1 粗粒度可重構架構

可重構計算(Coarse-Grained Reconfigurable Architecture, CGRA)架構是一種兼顧靈活性和高能效的高算力架構。CGRA在硬件運行時通過軟件定義來配置處理元素(Processing Element, PE)的功能和互聯,使得芯片制造后仍然可以定制功能,提高靈活性。CGRA設計結合空域和時域——空域上通過PE的部署分配計算資源并構建合理的互聯方式,避免了深度流水線和集中通信帶來的開銷;時域上通過時分復用充分利用計算資源,提高了面積效率。在編程模型上CGRA支持命令式編程、并行編程、透明編程等多種編程模式,通過編譯器產生配置控制/數據流圖,由配置和數據同時驅動執行。

CGRA架構有效解決了ASIC的高NRE問題,在實現高算力的同時,兼顧靈活性、高精度和高能效。清華大學研究團隊2022年在國際固態電路年度會議(ISSCC)上發表了面向云端深度學習任務的可重構存算一體加速器——ReCIM,解決了浮點運算中的功耗、數據類型種類、面積效率等問題;清微智能的Thinker系列可重構計算芯片產品在語音識別、圖像識別等多種應用場景展現了性能和功耗優勢,即將推出的云端訓練芯片TX8系列,單芯片能夠實現256 TFLOPS算力,其基于粗粒度數據流架構具有較強的橫向擴展能力,單服務器可實現8 POPS算力。

3.1.2 基于張量核心的GPGPU架構

英偉達GPGPU是傳統高算力芯片,為滿足后摩爾時代更高的算力需求,在兼顧通用性和編程性的同時,英偉達引入了基于張量核心的新型GPGPU架構。2017年發布的V100 GPU搭載640個張量核心,實現了125 TFLOPS的算力;2020年發布的A100 GPU搭載432個張量核心,算力達到312 TFLOPS。高算力GPGPU芯片廣泛應用于阿里、百度、騰訊等眾多國內互聯網公司的云服務器中。

張量核心作為核心算力單元,針對張量運算定制的高并行度計算單元和控制邏輯,定制化的數據類型和運算規模,以及關鍵算法的硬件化(如結構化稀疏),是其設計的核心理念。在Volta架構中,張量核心每個周期完成一個4×4×4的矩陣乘法操作(A×B+C=D)。張量核心的具體行為由指令控制,數據總線將操作數送入張量核心,在其中分組并行通過浮點乘加單元進行矩陣運算,再通過總線寫回。張量核心架構自身也在不斷迭代和改進,Ampere架構中,根據實際神經網絡應用場景,引入對TF32和BF16數據類型以及結構化稀疏的支持。

3.1.3 數據中心處理單元

數據中心對于高算力的應用場景,數據處理的流程往往是龐大且復雜的,數據通信也逐漸成為實現高算力系統的瓶頸。基于異構多核架構的新一代智能高算力數據處理單元(Data Processing Units, DPU)應運而生。傳統網絡接口控制器(Network Interface Controller, NIC)負責進行數據交互,將用戶傳輸的數據格式轉換成網絡設備能夠識別的格式;智能網卡在此基礎上融合了可編程、可加速的功能,實現部分任務卸載(如虛擬化等網絡服務、遠程存儲等存儲服務、加解密安全服務等);DPU作為下一代智能網卡,采用異構多核集成和軟硬件結合的方式,搭載CPU和多種加速處理單元。英偉達發布的第三代DPU產品BlueField-3支持InfiniBand,帶寬達到400 Gb/s。該架構包含16個Arm A78核心,多個高速外圍接口、數據通路加速模塊和AI/HPC任務加速模塊。

3.2 近存計算和存算一體

傳統馮·諾依曼架構中,存算分離的方式使得數據搬運成為系統性能的瓶頸,不適合大數據場景下的高算力應用。近存計算架構和存算一體架構將從減少數據訪存開銷出發,實現高算力、高能效芯片。

3.2.1 近存計算

近存計算通過縮短計算單元和存儲單元的距離,從而緩解訪存帶寬瓶頸,提升數據的互連系數,有效提高受限于帶寬的芯片算力。近存計算往往通過在計算芯片內部集成更多的存儲單元,或者增加存儲單元和計算單元的帶寬,來降低數據搬移的開銷。英偉達和AMD的高性能GPGPU均采用高帶寬內存(High Bandwidth Memory, HBM)技術,通過堆疊高帶寬內存,實現高效數據傳輸;新型高算力AI芯片,如Graphcore和Cerebras WSE(Wafer Scale Engine),通過片上集成更多SRAM單元實現高算力人工智能加速器;三星通過在動態隨機存取存儲器(DRAM)存儲單元內部集成計算邏輯來實現近存計算;阿里達摩院和紫光同芯合作,通過3D混合鍵合的方式將計算邏輯和存儲單元垂直集成在一起,實現高算力。

3.2.2 存算一體

存算一體,特別是基于憶阻器的存算一體技術,能在近存計算的基礎上更進一步實現計算和存儲的器件級融合,存儲單元同時也是執行單元。構成存算一體的底層器件包括阻變式隨機存取存儲器(RRAM)、SRAM、相變隨機存取存儲器(PCRAM)、磁性隨機存取存儲器(MRAM)等多種存儲器件,其中RRAM具有非易失、高存儲密度、功耗低以及互補金屬氧化物半導體(Complementary Metal-Oxide-Semiconductor, CMOS)工藝兼容等優勢,基于RRAM構建交叉陣列,在本地完成高并行的模擬計算(圖5),實現算力突破。清華大學錢鶴、吳華強團隊積極布局,研發28 nm憶阻器產線,發布了首顆全系統集成的憶阻器存算一體原型芯片和軟件工具棧,能效比GPGPU提高2個數量級;北京大學、中國科學院、復旦大學、浙江大學等也在器件、算法和模型等方面有所突破。國外國際商業機器公司(IBM)、惠普和英特爾等公司,以及麻省理工學院、斯坦福大學、加州大學伯克利分校等高校,從器件、架構和工具鏈出發,布局存算一體高算力芯片研究。

062880e2-7771-11ed-8abf-dac502259ad0.png

圖5基于憶阻器的存算一體技術原理

04基于芯粒技術的

晶體管數目持續提升途徑

4.1 芯粒技術及其現狀

Chiplet通常譯作芯粒或小芯片,美國國防部高級研究計劃局(DARPA)在2017年的“通用異構集成和知識產權復用策略”項目(CHIPS)中明確提到,“旨在開發模塊化芯片設計,通過集成知識產權(Intellectual Property, IP)模塊,以預制芯粒的形式進行快速組裝和重新配置”。芯粒通過把不同功能芯片模塊化,利用新的設計、互連、封裝等技術,在1顆芯片產片中使用來自不同技術、不同制程甚至不同工廠的芯片(圖6)。

063a47b4-7771-11ed-8abf-dac502259ad0.png

圖6芯粒系統芯片分解圖

后摩爾時代,先進工藝流片成本不降反升,傳統馮·諾依曼架構瓶頸下,計算系統算力同時受“功耗墻”“存儲墻”和“I/O墻”制約(圖7),集成電路發展需要新思路和新動力。芯粒技術成為學術界和產業界普遍看好的關鍵突破方向之一。通過將芯片設計中不同功能模塊切割劃分為多顆芯粒,采用各自最適合的工藝節點生產制備,而不必統一采用先進制程,實現有效降低流片開銷;各顆芯粒面積較小,有利于良率提升,進一步降低成本。芯粒通過像“樂高積木”一樣搭建芯片系統,復用設計縮短開發周期,促進集成電路形成全新的設計流程和產業模式。

065f941a-7771-11ed-8abf-dac502259ad0.png

圖7馮·諾依曼架構瓶頸和“三墻”問題

芯粒技術是未來高算力芯片的關鍵支撐。當前,單芯片受步進式光刻機單次曝光區域限制,極限面積通常為800~900 mm2,制約了芯片總算力的提升。采用芯粒技術,將多顆芯粒通過封裝技術在基板上進行2.5D/3D集成,將突破單芯片的面積限制,形成高算力芯片系統。芯粒核心是封裝、互連技術以及全新的系統設計方法學,采用高密度、高速的封裝和互連設計,還可以提升計算和存儲、計算和計算之間的通信帶寬,進一步提升芯片算力。

英特爾在2022年發布Ponte Vecchio (PVC),算力達到1468 TOPS,它通過嵌入式多芯片互連橋接(Embedded Multi-die Interconnect Bridge, EMIB)技術與Foveros 3D技術實現了分屬于5個工藝節點的47顆功能芯粒的集成——包括16顆Xe-HPC架構的計算芯粒、8顆蘭博緩存(Rambo Cache芯粒、8顆HBM芯粒、2顆英特爾7 nm節點的Xe基礎芯粒、以及11顆EMIB互連芯粒和2顆Xe-Link I/O芯粒。同年,蘋果發布M1 Ultra,基于臺積電3D Fabric平臺將2顆完全一致的M1 Max芯片集成在統一封裝體內,并通過集成扇出型封裝-局部硅互連(InFO Local Silicon Interconnect, InFO-LSI)技術在2顆M1 Max芯片間實現了2.5 TB/s的高帶寬互連。

4.2 芯粒支撐技術:封裝與互連

4.2.1 先進封裝技術

芯粒封裝技術中,按照封裝結構可以分為2D、2.5D和3D。不通過額外中介層,直接在有機基板上互連芯片的形式稱為2D封裝,該方案成本低,但互連線的密度不高,采用高速串行互連技術一定程度上可以彌補低帶寬問題。

臺積電的基板上晶圓上的芯片(Chip on Wafer on Substrate, CoWoS)技術是典型的2.5D封裝技術,即通過硅轉接板實現多顆芯片的互連和集成(圖8)。封裝體內多顆芯片水平排布通過倒裝互連在硅轉接板上,并在硅轉接板上完成高密度金屬互連線,隨后通過硅通孔(Through Silicon Via, TSV)將信號引出至封裝基板。目前主流的2.5D先進封裝技術還包括以英特爾的EMIB技術為代表的硅橋衍生技術等。2.5D封裝中,硅轉接板上互連線密度更高,距離更短,速度更快,但是成本也較高,且存在應力問題。

0672b78e-7771-11ed-8abf-dac502259ad0.png

圖82.5D封裝示意圖

3D封裝是指2顆或多顆芯粒通過硅通孔、以面對背(Face-to-Back)的形式,或通過微凸點或混合鍵合技術、以面對面(Face-to-Face)的形式,在垂直方向直接堆疊,并實現芯粒間和對外界的信號連接的技術(圖9)。目前主流的3D封裝技術主要包括臺積電的系統整合芯片(System on Integrated Chip, SoIC)技術和英特爾的Foveros 3D封裝技術等。3D封裝互連密度更高,距離更短,速度更快,但是成本更高且存在散熱和應力等問題。

06831c00-7771-11ed-8abf-dac502259ad0.png

圖93D封裝示意圖

基于芯粒技術實現有競爭力的高算力芯片,離不開先進封裝技術的支持。在不改變軟件和芯片內核的情況下,Graphcore發布的新一代智能處理單元(Intelligence Processing Unit, IPU)產品Bow通過采用SoIC-WoW 3D封裝技術即可實現40%的性能提升。當前,臺積電、英特爾、三星是先進封裝領域的核心競爭者。

4.2.2 互連和通信

芯粒之間互連通信可分為2類:串行互連和并行互連。互連性能指標通常包括傳輸距離、傳輸能耗、傳輸帶寬及帶寬密度等。串行接口包括長/中/短距離的SerDes(LR/MR/VSR SerDes),超短距離(Extra Short Reach, XSR)SerDes和極短距離(Ultra Short Reach, USR)SerDes,其中USR Serdes的設計主要用于實現多芯粒系統內裸片到裸片的極短距離高速通信。由于通信距離短,USR可以利用高級編碼、多比特傳輸等先進技術提供更高效的解決方案,實現更好的性能功耗比和可擴展性。

與使用XSR SerDes的串行互連相比,并行互連技術設計復雜度低,每比特能耗更低(1/6~1/10),帶寬可高10倍以上,且延遲更小。目前可用于芯粒裸片互連的通用并行接口協議主要有英特爾的AIB/MDIO、OCP的BoW、臺積電的LIPINCON等。并行互連技術適合應用在對訪問延時要求較高的存儲類接口上,如HBM系列接口即為典型的并行接口。

各種互連接口相互之間并不兼容,缺乏一個被廣泛接受的接口總線標準。2022年3月,英特爾、高通、臺積電等10家半導體產業上下游企業組成通用芯粒高速互連(Universal Chiplet Interconnect Express, UCIe)聯盟,意欲推動芯粒互連標準規范化、共建開放生態。UCIe是一種分層協議,物理層負責電信號、時鐘、鏈路訓練、邊帶等。晶粒到晶粒(Die-to-Die)適配器為芯粒提供鏈路狀態管理和參數協商,當支持多種協議時,它定義了底層的仲裁機制。

4.3 芯粒技術未來發展

基于芯粒搭建高算力計算系統,是一種全新的設計模式,需要上下游產業鏈共同努力形成生態。當前芯粒面臨設計工具、制造材料、成本等多方面挑戰。芯粒技術需要基于成本考慮選擇合適的集成工藝方案,整體所獲得的收益一定要大于額外代價。未來,需要上下游產業和電子設計自動化(Electronic Design Automation, EDA廠商、代工廠等深度合作,制定互連標準來推動該技術的普及應用;同時,引入新的工具和設計、驗證、測試方法。隨著封裝技術的發展和互連方案的統一,芯粒技術有望形成全新的集成電路商業模式,徹底變革計算領域。

05基于晶圓級集成技術的

超高算力實現途徑

根據芯片算力表達式,芯片的算力提升除了架構優化、采用先進制程外,增大芯片面積也是重要手段。根據近40年來芯片面積的變化趨勢,可以看出隨著高算力芯片的不斷發展,面積也持續增大,當前已接近單片集成的面積極限。晶圓級集成技術即是一種新興擴大集成面積,實現高算力芯片的途徑。

基于常規芯片進行集群式算力擴展的方式已無法彌合常規芯片尺寸受限帶來的天然性能鴻溝。近期出現的晶圓級(Wafer-scale)AI芯片及計算系統,通過打破光刻工藝中的光罩限制,探索超越光罩面積的計算架構,在硅晶圓上構建跨越光刻機光罩單次曝光區域的高密度金屬互連線,將多個管芯組合成為硅晶圓尺寸的超大計算系統,實現晶體管與互連資源2個數量級以上的提升。

目前工業界最主要的晶圓級集成產品以Cerebras的WSE(Wafer Scale Engine)系列芯片為代表。WSE第一代芯片采用臺積電16 nm工藝制程,裸片尺寸達46225 mm2,包含超過1.2萬億個晶體管,擁有高達18 GB的片上內存和9 PB/s的內存帶寬。單顆芯片上集成了40萬個稀疏線性代數內核,相當于數百個GPU集群的算力。WSE第二代芯片采用臺積電7 nm工藝制程,得益于工藝的進步,單片集成晶體管數目達到2.6萬億個,單芯片集成了40 GB SRAM,存儲帶寬達到20 PB/s。

晶圓級集成涉及芯片設計、制造、封裝和散熱等眾多技術。設計方面,將整個晶圓看作1顆芯片,必然要考慮制造良率問題,因此需要在架構和電路上進行冗余設計和容錯設計。制造方面,如何實現相鄰光刻區域的金屬互連線的精確連接且電連通也是一個需要解決的工程問題。封裝方面,由于晶圓級芯片面積遠遠大于普通芯片,需要開發配套專用的先進封裝技術。此外,晶圓級集成的芯片功耗往往非常大,對散熱提出了重大考驗,需要設計專門的散熱模塊,例如使用金屬導熱加水冷等方式進行散熱。

作為人工智能新時代顛覆性的算力解決方案,晶圓級芯片已經得到了美國科技公司巨頭及國家實驗室的重視。該領域處于起步階段,且晶圓級芯片可以不依賴于傳統先進光刻工藝,而是基于對高端光刻機不敏感的先進封裝集成工藝進行實現,可以基于國內較完善的封裝集成產業基礎進行全自主技術攻關。

06基于新材料和新器件的算力提升途徑

除了架構改進,通過提高晶體管的工作速度提升“TOPS/晶體管數”,是實現高算力芯片的重要方法。在商用CMOS工藝節點進入深亞微米后,各種非理想效應——短溝道效應、熱載流子效應等嚴重影響了小尺寸CMOS器件的工作狀態,晶體管速度提升受限。基于新材料構建新晶體管器件,有望打破傳統限制。

目前,比較有代表性的路線,一條是使用具有高遷移率的材料替代傳統的單晶硅材料,以保證晶體管具有足夠的驅動能力。2020年,來自美國加利福尼亞大學洛杉磯分校(UCLA)的研究人員制備了溝道長度為67 nm的石墨烯晶體管,其遷移率高于1000 cm2/Vs,大約是傳統單晶硅材料的15倍,同時其截止頻率可達427 GHz。另一條是使用對短溝道非理想效應具有一定抗性的材料,緩解晶體管尺寸微縮過程中由于非理想因素導致的速度下降,例如采用MoS2等金屬硫化物作為溝道材料。基于石墨烯、MoS2等溝道材料的晶體管在學界已有長足發展,但仍然需要繼續研發、改進大規模生產工藝,例如均一化生長工藝、鈍化工藝等,使其可以盡快落地。

另外,兼具高遷移率和對非理想效應抗性的碳納米管晶體管(Carbon Nanotube Transistor, CNT)也備受關注。北京大學彭練矛團隊制備了遷移率為1600 cm2/Vs的CNT晶體管;斯坦福大學與臺積電合作制備了溝道長度為15 nm的CNT晶體管,亞閾值擺幅接近60 mV/dec,表現出對短溝道效應的強抗性。

07結束語

算力在國家數字化轉型和經濟發展中起到越來越重要的作用,作為算力載體和依托,必須重視高算力芯片的發展。通過分解芯片算力構成,指出提升互連帶寬、單位晶體管算力、晶體管密度和芯片面積均可提升算力水平。在后摩爾時代,進一步分析了未來提升芯片算力的關鍵技術,探討了實現大于1000 TOPS以及更高算力芯片的發展路徑——應繼續投入先進制程實現尺寸微縮、布局芯粒技術和晶圓級集成、發力存算一體等新型計算架構等,這些技術相對比較成熟,容易實現;探究超越CMOS技術的新器件、新材料,也有望另辟蹊徑,推動高算力芯片的發展(圖10)。除此之外,還有一些蓬勃發展的技術,試圖通過探索新型計算范式實現算力飛躍,如類腦計算、光計算和量子計算等,這些技術通過模仿人腦、設計光學結構、實現量子邏輯等手段形成全新的計算系統。這類新興的計算范式尚處于起步階段,與高算力芯片、系統的關系尚不明確,隨著技術的不斷成熟,有望在未來成為現有技術的重要補充。

06b18108-7771-11ed-8abf-dac502259ad0.png

圖10高算力芯片突破路徑

另外,現階段大國博弈加劇全球產業鏈、供應鏈重構,同時中國集成電路先進工藝的開發受到制約,單純依靠先進制程等技術的單點突破成本高、周期長。因此,在補全產業鏈短板、攻堅關鍵技術的同時,還應充分利用現有產業鏈和研究基礎,從系統層次布局多途徑協同方案,采用國內成熟、領先的技術和計算架構,摸索更加高效可行的技術路徑。為實現高算力芯片不斷突破,需要扎根于中國現有產業基礎,探尋底層計算架構的變革性方法,探索“架構+集成+系統”協同一體的自主可控創新路徑。采用成熟制程和先進集成,結合CGRA和存算一體等國內領先的新型架構,在芯粒技術基礎上實現晶圓級的高算力芯片是一條可行的突破路徑,該路徑能夠利用現有優勢技術,在更低的成本投入下,更快地提升芯片算力。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51037

    瀏覽量

    425453
  • 數據中心
    +關注

    關注

    16

    文章

    4833

    瀏覽量

    72252
  • 人工智能
    +關注

    關注

    1792

    文章

    47514

    瀏覽量

    239229

原文標題:高算力芯片未來技術發展途徑

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中心的如何衡量?

    作為當下科技發展的重要基礎設施,其的衡量關乎其能否高效支撐人工智能、大數據分析等智能應用的運行。以下是對智中心算衡量的詳細闡述:一、
    的頭像 發表于 01-16 14:03 ?75次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    Arm 技術預測:2025 年及未來技術趨勢

    專業化、互聯的全球半導體供應鏈有著充分的了解,覆蓋數據中心、物聯網、汽車、智能終端等所有市場。因而,Arm 對未來技術發展方向及未來幾年可能出現的主要趨勢有著廣泛而深刻的洞察。 基于此,Arm 對 2025 年及
    發表于 01-14 16:43 ?64次閱讀
    Arm <b class='flag-5'>技術</b>預測:2025 年及<b class='flag-5'>未來</b>的<b class='flag-5'>技術</b>趨勢

    納微半導體亮相2024亞洲電源技術發展論壇

    近日日,由世紀電源網主辦的第十五屆“亞洲電源技術發展論壇”于深圳盛大舉辦。上百余電源上下游企業和3000多名專業工程師匯聚一堂,共同交流電源技術最新研究成果和探討未來技術發展的新趨勢。
    的頭像 發表于 12-10 16:37 ?411次閱讀

    華為發布數據通信未來技術趨勢報告

    中國工程院院士蒞臨大會作主旨報告。會上,華為發布《數據通信未來技術趨勢》報告(以下簡稱“報告”),引領未來網絡發展方向。
    的頭像 發表于 11-18 11:28 ?470次閱讀

    GPU開發平臺是什么

    隨著AI技術的廣泛應用,需求呈現出爆發式增長。AI租賃作為一種新興的服務模式,正逐漸成為企業獲取
    的頭像 發表于 10-31 10:31 ?219次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 編輯 感謝平臺提供的書籍,厚厚的一本,很有分量,感謝作者的傾力付出成書。 本書主要講芯片CPU
    發表于 10-15 22:08

    AI網絡物理層底座: 大芯片先進封裝技術

    隨著人工智能(AI)技術的迅猛發展,我們正站在第四次工業革命的風暴中, 這場風暴也將席卷我們整個芯片行業,特別是先進封裝領域。Chiplet是實現單個芯片
    發表于 09-11 09:47 ?755次閱讀
    AI網絡物理層底座: 大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>先進封裝<b class='flag-5'>技術</b>

    名單公布!【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構分析

    技術的基礎。 我們在長期工作中,一直關注芯片技術發展,因為
    發表于 09-02 10:09

    億鑄科技談大芯片面臨的技術挑戰和解決策略

    隨著人工智能技術的飛速發展已成為推動產業變革的關鍵力量,但大模型的快速發展,參數的爆發,對于
    的頭像 發表于 08-07 10:03 ?885次閱讀

    IaaS+on+DPU(IoD)+下一代高性能底座技術白皮書

    了可觀的經濟效益。這種正向循環促進了相關技術棧的快速迭代與成熟,也幫助他們發展成為云計算業務領域的領軍企業。 隨著眾多芯片廠商投身到 DPU 技術領域后,業界對 DPU 的產品形態定義
    發表于 07-24 15:32

    揭秘芯片:為何它如此關鍵?

    芯片的作用提升處理速度:芯片處理數據的能力,它決定了
    的頭像 發表于 05-09 08:27 ?1202次閱讀
    揭秘<b class='flag-5'>芯片</b><b class='flag-5'>算</b><b class='flag-5'>力</b>:為何它如此關鍵?

    芯片未來科技的加速器?

    在數字化時代,芯片作為電子設備的核心組件,其性能直接關系到設備的運行速度和處理能力。而芯片,即其計算能力,更是衡量芯片性能的重要指標。
    的頭像 發表于 02-27 09:42 ?971次閱讀
    <b class='flag-5'>高</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>:<b class='flag-5'>未來</b>科技的加速器?

    智能規模超通用,大模型對智能提出高要求

    的縮寫,即每秒所能夠進行的浮點運算數目(每秒浮點運算量)。 ? 可以分為通用、智能
    的頭像 發表于 02-06 00:08 ?6443次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發布于 :2024年01月25日 14:54:52

    是德科技智能‘芯’技術研討會回顧

    2023年12月20日,是德科技成功舉辦了智能‘芯’技術研討會。此次研討會由是德科技的行業市場經理周巍策劃并主持,研討會聚焦網絡,
    的頭像 發表于 01-17 09:34 ?768次閱讀
    主站蜘蛛池模板: 羞羞视频靠逼视频大全| 黄视频免费在线看| 日本xxxx色视频在线观看免| 中文字幕1区2区| 欧美五月婷婷| sis色中色| 亚洲成人aaa| 99久热只有精品视频免费观看17| 伊人网站在线观看| 新版天堂中文网| 久久精品在| 国产黄色在线| 亚洲资源最新版在线观看| 亚洲夂夂婷婷色拍ww47| 老师叫我揉她内裤越快越好| 在线看av的网址| 在线看av网址| 女a男o肉文| 亚洲宅男天堂a在线| 手机看片a永久免费看大片| 在线网站你懂得| 小说老卫陈红张敏陈法蓉| 三级理论在线观看| 四虎影城库| 欧美成人观看免费全部完小说| 四虎亚洲国产成人久久精品| 日韩一级在线观看| 四虎4hu影库永久地址| 欧美一区二区三区在线观看 | 丁香色婷婷| 天堂最新在线资源| bt天堂在线最新版在线| 色偷偷亚洲综合网亚洲| 亚洲色图21p| 欧美日韩中文字幕| 免费毛片网站在线观看| 国产精品视频永久免费播放| 天天射日| 黄色男人的天堂| 亚洲人成影网站~色| 你懂的亚洲|