光計算研究始于20世紀(jì)60年代,但受到當(dāng)時應(yīng)用范圍有限以及電子計算技術(shù)快速發(fā)展的影響,光計算處理器未能成功邁向商用。時過境遷,人工智能(AI)飛速發(fā)展,以ChatGPT為代表的大語言模型所展現(xiàn)的強大能力引發(fā)全球關(guān)注,紫東太初、悟道、混元、文心、通義、盤古、言犀等一大批千億級乃至萬億級參數(shù)的國產(chǎn)大模型不斷涌現(xiàn),大有引發(fā)新一輪科技與產(chǎn)業(yè)變革之勢。
高性能大模型擁有龐大參數(shù)規(guī)模、要求海量數(shù)據(jù)高效處理和高速傳輸,即使是當(dāng)前最先進(jìn)的電子計算平臺也開始出現(xiàn)計算、存儲和傳輸?shù)钠款i。大模型的創(chuàng)新發(fā)展和迭代,離不開海量數(shù)據(jù)及高質(zhì)量數(shù)據(jù)集的構(gòu)建,更要依靠大算力集群來支撐訓(xùn)練和推理。近期,大模型訓(xùn)練計算量平均每2個月就要翻倍,激增的算力需求已遠(yuǎn)超摩爾定律。因此,光子計算近年來又重新受到廣泛關(guān)注。
硅光計算芯片是AI芯片國產(chǎn)化和彎道超車的有效途徑
當(dāng)前,大模型訓(xùn)練和推理的硬件以通用圖形處理單元(GPU)為主,2022年全球GPU市場規(guī)模達(dá)到448.3億美元,美國AI芯片巨頭英偉達(dá)公司占有80%的市場份額并仍在持續(xù)攀升。目前,中國仍以英偉達(dá)的產(chǎn)品作為主流算力平臺,只有較小規(guī)模的算力來自國產(chǎn)神經(jīng)網(wǎng)絡(luò)加速平臺。然而,自2021年起,美國對中國集成電路領(lǐng)域?qū)嵭辛俗顬閲?yán)苛的技術(shù)封鎖,限制向我國出口最先進(jìn)的AI芯片和軟件。英偉達(dá)向我國提供的AI芯片是傳輸帶寬受限的特別版本,使用該版本GPU組成的超算集群的訓(xùn)練和推理效率均落后于國外同期產(chǎn)品。
因此,算力基建亟需向自主可控的國產(chǎn)化邁進(jìn)。 寒武紀(jì)、燧原科技、壁仞科技和昆侖芯等國產(chǎn)AI芯片廠商,均提供了深度學(xué)習(xí)訓(xùn)練和推理的專用芯片,其主要使用專用集成電路(ASIC)硬件架構(gòu),用于特定算法或應(yīng)用場景的優(yōu)化,計算能力在特定情況下優(yōu)于英偉達(dá)產(chǎn)品,但通用性、靈活性有待提升。基于電子計算的AI芯片的國產(chǎn)化之路受技術(shù)封鎖影響仍需突破重重阻礙,尤其是受限于先進(jìn)工藝制程,國產(chǎn)同類芯片在能耗、算力、帶寬等方面難以在短期內(nèi)趕超。
此外,電子計算技術(shù)還存在固有的計算延時高和內(nèi)存墻等問題。 光子器件具有高速、大帶寬和低功耗的特點,在信息傳輸和處理方面具有重要優(yōu)勢,而且光信號可以在光子器件中并行傳輸和處理。這使得光子計算可以更好地實現(xiàn)海量數(shù)據(jù)的高效處理,也可以避免電子信號傳輸帶來的噪聲和時延等問題,更好地實現(xiàn)高帶寬的傳輸互連,從而為大模型提供關(guān)鍵支撐。
此外,與最先進(jìn)的電子神經(jīng)網(wǎng)絡(luò)架構(gòu)及數(shù)字電子系統(tǒng)相比,光子計算架構(gòu)在速度和能效上優(yōu)勢突出。因此,光子計算能夠有效突破傳統(tǒng)電子器件的性能瓶頸,滿足高速、低功耗通信和計算的需求。需要指出的是,光子計算的發(fā)展目標(biāo)不是要取代傳統(tǒng)計算機,而是要輔助已有計算技術(shù)在基礎(chǔ)物理研究、非線性規(guī)劃、機器學(xué)習(xí)加速和智能信號處理等應(yīng)用場景更高效地實現(xiàn)低延遲、大帶寬和低能耗。
硅光計算芯片通過在單個芯片上集成多種光子器件實現(xiàn)了更高的集成度,還能兼容現(xiàn)有半導(dǎo)體制造工藝,降低成本。光子計算芯片包括激光器、光波導(dǎo)、光調(diào)制器、光探測器等主要元件,運行過程大致如圖1所示:激光器產(chǎn)生的光,經(jīng)過光波導(dǎo)傳輸?shù)焦庹{(diào)制器實現(xiàn)對光信號的控制和處理,最后傳輸?shù)焦馓綔y器將光信號轉(zhuǎn)換為電信號,再進(jìn)行后續(xù)的處理和輸出。 ?
光子計算芯片利用成熟的硅基工藝平臺(產(chǎn)業(yè)界通常為45~180nm制程),有望在短期內(nèi)實現(xiàn)低功耗、高性能的計算系統(tǒng),解決后摩爾時代AI硬件的性能需求,突破馮·諾依曼架構(gòu)的速度和功耗瓶頸。因此,硅光計算芯片是實現(xiàn)AI芯片國產(chǎn)化和彎道超車的有效途徑。
基于硅光平臺的神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)是現(xiàn)有AI大模型的重要基礎(chǔ),由人工神經(jīng)元相互連接組成,連接強弱由權(quán)重大小決定,權(quán)重即模型參數(shù)。利用光計算在信息傳輸、處理和并行計算等方面以及光通信在片內(nèi)、片間和板級系統(tǒng)間數(shù)據(jù)傳輸?shù)确矫娴膬?yōu)勢,硅光計算芯片可對神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理過程中的大規(guī)模矩陣運算、神經(jīng)元非線性運算進(jìn)行加速;還可通過對不同神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行硬件結(jié)構(gòu)映射,來提高芯片的通用性和靈活性。
在人工神經(jīng)網(wǎng)絡(luò)計算加速方面,基于硅光平臺的神經(jīng)網(wǎng)絡(luò)已取得多項進(jìn)展。例如,2017年沈亦晨等人提出一種基于硅光平臺的全光前饋神經(jīng)網(wǎng)絡(luò)架構(gòu),采用馬赫-曾德干涉儀(MZI)進(jìn)行神經(jīng)元線性部分的計算,非線性激活函數(shù)則通過電域仿真的方法實現(xiàn);2022年阿什蒂亞尼等人采用可調(diào)光衰減器實現(xiàn)權(quán)重調(diào)節(jié)。隨著技術(shù)的發(fā)展,基于硅光平臺的神經(jīng)網(wǎng)絡(luò)也逐步走向商業(yè)化。例如,美國AI芯片公司Lightmatter推出通用光子AI加速器方案“Envise”;曦智科技于2021年發(fā)布光子計算處理器“PACE”。
人工神經(jīng)網(wǎng)絡(luò)是大腦神經(jīng)元的極簡數(shù)學(xué)模型,目前仍無法實現(xiàn)推理歸納、聯(lián)想想象、學(xué)習(xí)記憶等大腦的高級功能,而且現(xiàn)有AI大模型的功耗水平遠(yuǎn)高于人類大腦。受腦科學(xué)和神經(jīng)科學(xué)研究的啟發(fā),學(xué)界提出了下一代AI基礎(chǔ)——脈沖神經(jīng)網(wǎng)絡(luò)(SNN)。其利用與大腦神經(jīng)元表現(xiàn)極為近似的脈沖神經(jīng)元搭建整個網(wǎng)絡(luò)結(jié)構(gòu),具備模擬生物大腦的網(wǎng)絡(luò)結(jié)構(gòu)和信息處理的潛能,通過部署到模擬計算硬件上,可以發(fā)揮低延時、低功耗等特性,為類腦大模型的訓(xùn)練和推理提供了可能性。
目前,圍繞基于硅光平臺的脈沖神經(jīng)網(wǎng)絡(luò),已有科研團(tuán)隊利用硅波導(dǎo)和相變材料集成等方式實現(xiàn)了光學(xué)突觸、光子脈沖神經(jīng)元乃至全光脈沖神經(jīng)網(wǎng)絡(luò)的構(gòu)建。例如,2019年費爾德曼等人構(gòu)建基于集成可塑突觸的全光脈沖神經(jīng)網(wǎng)絡(luò),將可塑突觸上的相變材料晶化程度作為權(quán)重,將微環(huán)諧振器上的相變材料胞體相變閾值能量作為神經(jīng)元閾值調(diào)控激活函數(shù),實現(xiàn)有監(jiān)督和無監(jiān)督學(xué)習(xí)。
光計算核心器件:
非易失性高消光比硅光開關(guān)研究
在片上和片間光互連、高速光通信、集成傳感和智能計算等應(yīng)用場景,光開關(guān)都是硅光集成所需的核心器件。當(dāng)前,硅光集成開關(guān)器件主要采用馬赫-曾德干涉儀或微環(huán)諧振器的結(jié)構(gòu)設(shè)計,這些器件存在占用空間大、對外界溫度敏感以及因需要持續(xù)外部電源維持開關(guān)狀態(tài)導(dǎo)致的高靜態(tài)功耗等問題,為高密度的硅光集成帶來了額外的困難。
2022年,中國科學(xué)院上海微系統(tǒng)與信息系統(tǒng)研究所(以下簡稱上海微系統(tǒng)所)武愛民研究員團(tuán)隊研制出基于亞波長相變結(jié)構(gòu)的超小尺寸、高消光比、低能耗和良好結(jié)構(gòu)穩(wěn)定性的片上光子開關(guān)。這一新的光開關(guān)器件結(jié)構(gòu),由單模硅光波導(dǎo)和3個級聯(lián)的鍺銻碲化合物Ge2Sb2Te5(以下簡稱GST)納米盤組成,見圖2a,總體積僅為0.229μm2×35nm。在通信波段,GST是一種具有高光學(xué)對比度的相變材料(PCM),非晶態(tài)下的折射率與硅相近,具有較低的消光系數(shù),而晶態(tài)下的折射率則會增大兩倍。通過改變GST納米盤的相態(tài)可以調(diào)制沿波導(dǎo)傳輸?shù)墓鈴姟ST處于非晶態(tài)時,波導(dǎo)中的光可以正常通過;而處于晶態(tài)時,沿波導(dǎo)輸入的入射光被級聯(lián)的GST納米盤吸收或散射,實現(xiàn)對入射光的截止,見圖2b。
受益于GST的非易失性,光開關(guān)的開關(guān)狀態(tài)是可持續(xù)的,在施加控制脈沖后不會產(chǎn)生額外的能量消耗。在實驗中,通過對光開關(guān)施加不同能量的泵浦脈沖光,精確地加熱GST納米盤以切換其相位,從而實現(xiàn)對相變材料的調(diào)控,圖2c展示了波導(dǎo)中傳輸率的變化和脈沖能量的關(guān)系。實驗測得,該器件在C波段實現(xiàn)了高達(dá)27dB的超高消光比,并能在70nm的寬帶范圍內(nèi)保持20dB以上的高消光性能,見圖2d;通過施加特定能量的光脈沖,可對非同級狀態(tài)的光開關(guān)實現(xiàn)復(fù)位操作,見圖2e。由于GST材料已具備在互補金屬氧化物半導(dǎo)體(CMOS)平臺上的加工能力,與單模波導(dǎo)制備的光開關(guān)結(jié)合能夠直接應(yīng)用于規(guī)模化集成的光子芯片中,該工作有望在大規(guī)模集成的光互連和光計算新型架構(gòu)等方面發(fā)揮重要作用。相關(guān)成果以《基于結(jié)構(gòu)化相變材料的超緊湊高消光比非易失性片上開關(guān)》
Ultracompact High-Extinction-Ratio Nonvolatile On-Chip Switches Based on Structured Phase Change Materials為題發(fā)表在國際光學(xué)權(quán)威期刊《激光與光子學(xué)評論》(Laser & Photonics Reviews)。
上海微系統(tǒng)所李孟研究員團(tuán)隊長期從事腦科學(xué)與AI的交叉領(lǐng)域研究,研究方向主要包括兩個方面:一是應(yīng)用AI技術(shù)解決腦科學(xué)領(lǐng)域的重要問題,如使用深度神經(jīng)網(wǎng)絡(luò)對腦科學(xué)研究中動物的復(fù)雜行為進(jìn)行分析和建模,并建立生物大腦神經(jīng)網(wǎng)絡(luò)活動信號與動物行為模式的對應(yīng)關(guān)系,以理解生物復(fù)雜行為、內(nèi)在狀態(tài)是如何被大腦神經(jīng)網(wǎng)絡(luò)表達(dá)、計算和調(diào)控的;二是根據(jù)腦科學(xué)前沿發(fā)現(xiàn),將腦科學(xué)領(lǐng)域的最新成果和原理應(yīng)用于類腦算法研究,致力于研發(fā)更符合生物神經(jīng)系統(tǒng)特性的類腦算法和相應(yīng)硬件,建立面向應(yīng)用的類腦系統(tǒng)框架。在大腦破譯方向,尤其是大尺度群體神經(jīng)信號編解碼領(lǐng)域取得系列創(chuàng)新成果。2019年,解碼了十萬神經(jīng)元量級的全腦神經(jīng)信號,如圖3所示,揭示了大腦內(nèi)在狀態(tài)動態(tài)轉(zhuǎn)化的控制機理,建立了復(fù)雜高階行為與大腦神經(jīng)網(wǎng)絡(luò)內(nèi)在狀態(tài)間的關(guān)系,相關(guān)成果以《內(nèi)部狀態(tài)動態(tài)塑造了全腦活動和覓食行為》
Internal state dynamics shape brainwide activity and foraging behaviour為題發(fā)表在國際頂級期刊《自然》上。
當(dāng)前,兩個團(tuán)隊正在合作研究基于硅光平臺的受腦科學(xué)和神經(jīng)科學(xué)啟發(fā)的下一代AI計算芯片。目標(biāo)是使其具有網(wǎng)絡(luò)低功耗、低延時等性能優(yōu)勢,可執(zhí)行因果推理、在線學(xué)習(xí)、終身學(xué)習(xí)、長時記憶、聯(lián)想想象、行為決策等類腦復(fù)雜功能及高級智能行為,并能廣泛應(yīng)用于智能人形機器人、自動駕駛、仿生傳感器、智能安防與檢測、腦機接口等前沿領(lǐng)域。
AI創(chuàng)新時代,算力即為生產(chǎn)力。《2022—2023全球計算力指數(shù)評估報告》顯示,信息技術(shù)的支出每投入1美元,可以拉動29美元的國內(nèi)生產(chǎn)總值(GDP)產(chǎn)出。隨著AI和計算科學(xué)的發(fā)展,大模型訓(xùn)練和海量數(shù)據(jù)處理對于計算的需求將呈爆發(fā)式增長。
以光子計算技術(shù)為核心的硅光計算芯片,有望成為后摩爾時代AI算力基座。其主要優(yōu)勢在于:一是高速計算能力,即光計算具有快速傳輸和處理能力,可實現(xiàn)神經(jīng)網(wǎng)絡(luò)中所需的高速計算;二是低功耗特性,即相比于傳統(tǒng)的電子計算,光計算利用光信號進(jìn)行信息傳輸和處理,可降低能耗;三是并行計算能力,即光信號可在光子器件中并行傳輸,在光學(xué)神經(jīng)網(wǎng)絡(luò)中可實現(xiàn)更高效的并行計算。
硅光計算芯片在AI和計算科學(xué)領(lǐng)域走向廣泛應(yīng)用也面臨一定挑戰(zhàn)。例如,當(dāng)前單個光子矩陣運算規(guī)模較小,無法滿足大模型所需的計算需求;硅光計算芯片的設(shè)計尚未充分考慮集群化的應(yīng)用情形,限制了芯片的可擴(kuò)展能力;由于光信號是模擬信號,光子矩陣計算尚不支持浮點數(shù)運算,無法直接表示和處理浮點數(shù)據(jù)的精確值,而AI模型訓(xùn)練則需要浮點數(shù)運算作為支持。
對標(biāo)全球AI芯片行業(yè)翹楚,將硅光計算芯片打造成為未來AI和計算科學(xué)領(lǐng)域的主流計算平臺,需要構(gòu)建完整、可持續(xù)的軟硬件生態(tài)環(huán)境。例如,硅光計算芯片的底層設(shè)計需要引入可微分思想,使其具有可擴(kuò)展性;通過軟硬件協(xié)同,針對不同規(guī)模的硅光計算芯片和應(yīng)用場景,開發(fā)硅光計算芯片的底層編譯器、高級編程語言接口、硬件驅(qū)動,以及基于開源指令集(如RSIC-V等)的硅光芯片專用計算指令集;開發(fā)面向AI和計算科學(xué)的學(xué)習(xí)框架和計算加速庫,更廣泛地吸引各領(lǐng)域相關(guān)人員利用硅光計算芯片開展研發(fā)工作,建設(shè)硅光計算社群,助推硅光計算蓬勃發(fā)展。通過構(gòu)建硅光計算芯片的完整軟硬件生態(tài),硅光計算的核心競爭力將大幅提升,為未來AI芯片領(lǐng)域的國產(chǎn)化超越貢獻(xiàn)力量。 本文刊登于IEEE Spectrum中文版《科技縱覽》2023年11月刊。 專家簡介
何王吉:工程師。
魯若天:碩士研究生。 王碩:助理研究員。 李孟:研究員。 武愛民:研究員。 注:作者單位均為中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所。
審核編輯:黃飛
?
評論
查看更多