關(guān)鍵詞:PLM;NLP;Transformer;ChatGPT;BERT;RNN;CNN;自注意力機(jī)制;多頭注意力機(jī)制;Decoder Only ;Encoder Only;訊飛星火;百度文心一言;商湯商量;智譜AI-ChatGLM;昆侖萬維天工;阿里通義千問;瀾舟科技Mchat;360智腦;H100;H800;A100;A800;MI200;MI250;LaMA;OpenAI;GQA;RMSNorm;SFT;RTX 4090;A6000;AIGC;CHATGLM;LLVM;LLMs;GLM;AGI;HPC;GPU;CPU;CPU+GPU;英偉達(dá);Nvidia;英特爾;AMD;高性能計算;高性能服務(wù)器;藍(lán)海大腦;多元異構(gòu)算力;大模型訓(xùn)練;通用人工智能;GPU服務(wù)器;GPU集群;大模型訓(xùn)練GPU集群;大語言模型;深度學(xué)習(xí);機(jī)器學(xué)習(xí);計算機(jī)視覺;生成式AI;ML;DLC;圖像分割;預(yù)訓(xùn)練語言模型;AI服務(wù)器;GH200;L40S;HBM3e;Grace Hopper;gracehopper
摘要:近年來,預(yù)訓(xùn)練語言模型(PLM)的出現(xiàn)為AI語言技術(shù)發(fā)展提供了新的思路。PLM通過在大規(guī)模語料上預(yù)訓(xùn)練Transformer模型,在各類自然語言處理任務(wù)上展現(xiàn)出強(qiáng)大的語言理解和生成能力。
當(dāng)然,要實(shí)現(xiàn)語言AI的產(chǎn)業(yè)化應(yīng)用,還面臨一定難題。一方面,目前大規(guī)模模型仍需消耗大量算力進(jìn)行訓(xùn)練,這增加了應(yīng)用門檻。另一方面,從算法層面來說,PLM的表示學(xué)習(xí)和特征工程還需進(jìn)一步優(yōu)化,才能真正達(dá)到人類語言水平。業(yè)內(nèi)企業(yè)正在積極應(yīng)對這些挑戰(zhàn)。
以英偉達(dá)為例,其正調(diào)整產(chǎn)品策略,在保持GPU性能領(lǐng)先的同時,也開始布局AI芯片等產(chǎn)業(yè)。國內(nèi)初創(chuàng)公司如浪潮、聯(lián)想、華為、藍(lán)海大腦等,則致力于研發(fā)大模型訓(xùn)練平臺,以降低訓(xùn)練成本??梢钥闯?提升算力支持和算法創(chuàng)新正在成為當(dāng)前語言AI發(fā)展的兩個重要方向。各方共同努力將有助于突破技術(shù)瓶頸,加速PLM模型在復(fù)雜環(huán)境中的應(yīng)用,推動語言AI技術(shù)實(shí)現(xiàn)從實(shí)驗(yàn)室到實(shí)際場景的飛躍。
特征工程算法測評
Transformer算法是自然語言處理領(lǐng)域中的一項(xiàng)重要技術(shù),相較于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),采用自注意力機(jī)制可以更好地處理模型長距離依賴問題,并通過并行計算提高效率。其核心思路是首先將輸入映射到高維空間表示,然后通過多層自注意力網(wǎng)絡(luò)學(xué)習(xí)表示之間的關(guān)系,實(shí)現(xiàn)信息的傳遞和變換,最后再解碼回輸出。該結(jié)構(gòu)避免了循環(huán)神經(jīng)網(wǎng)絡(luò)中的順序計算限制,也沒有卷積神經(jīng)網(wǎng)絡(luò)對序列長度的限制。借助這種強(qiáng)大的表征學(xué)習(xí)能力,Transformer模型在機(jī)器翻譯、文本生成等任務(wù)上取得突破性進(jìn)展。
一、Transformer 工作流程
Transformer算法的工作流程可以概括為:獲取輸入序列——對輸入序列添加位置編碼,以表示其在序列中的位置信息——將編碼后的輸入序列輸入到Transformer模型中——Transformer模型內(nèi)部通過多頭注意力機(jī)制學(xué)習(xí)輸入序列的表示——經(jīng)過多層Transformer塊的處理,得到輸出序列。
Transformer是一個序列到序列的結(jié)構(gòu),通過自注意力來學(xué)習(xí)輸入序列的特征表示,然后生成對應(yīng)的輸出序列。相較于RNN和CNN,能更好地建模長序列的語義信息。輸入的位置編碼為模型提供序列順序的信息。多頭注意力允許同時關(guān)注不同位置的內(nèi)容。最終,Transformer可完成諸如翻譯、文本生成等從輸入序列到輸出序列的任務(wù)。
Transformer 框架
Transformer模型主要包含編碼器和解碼器兩個組件。編碼器負(fù)責(zé)分析輸入序列;解碼器負(fù)責(zé)生成輸出序列??筛鶕?jù)實(shí)際需要進(jìn)行靈活組合,構(gòu)建適用于不同NLP任務(wù)的Transformer模型。ChatGPT和BERT就是編碼器解碼器用法的代表案例。
Transformer 編碼器、解碼器結(jié)構(gòu)
Transformer模型中的編碼器-解碼器堆疊結(jié)構(gòu)指將多個編碼器塊和解碼器塊按順序疊加在一起,形成一個多層的結(jié)構(gòu)。具體來說,就是輸入序列經(jīng)過第一個編碼器塊處理后,輸出作為第二個編碼器塊的輸入,以此類推。編碼器最后輸出的表示向量作為第一個解碼器塊的輸入,然后依次通過每個解碼器塊。這種堆疊結(jié)構(gòu)增強(qiáng)了模型學(xué)習(xí)輸入輸出序列的特征表示能力。下層編碼器聚焦局部特征,上層編碼器聚焦全局特征。類似的下層解碼器關(guān)注細(xì)節(jié),上層解碼器關(guān)注全局結(jié)構(gòu)。
Encoders- Decoders 堆疊
Encoder 編碼器由兩個主要組件組成:自注意力機(jī)制(Self-Attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network)。自注意力機(jī)制是 Encoder 編碼器的核心部分,將在下文中進(jìn)行詳細(xì)介紹。前饋神經(jīng)網(wǎng)絡(luò)由兩個全連接層和一個激活函數(shù)組成,能夠?qū)斎胄蛄械谋硎具M(jìn)行映射和變換,以捕捉更豐富的特征和語義信息。
Transformer編碼器(Encoder)由自注意力機(jī)制和前饋全連接網(wǎng)絡(luò)兩個核心模塊組成。自注意力機(jī)制通過計算序列中不同位置之間的相關(guān)性,為模型提供輸入序列的全局信息。前饋全連接網(wǎng)絡(luò)提供一個非線性轉(zhuǎn)換,使模型能夠建模更復(fù)雜的特征表示。編碼器通過這兩個模塊的結(jié)合,實(shí)現(xiàn)對輸入序列語義信息的深層特征學(xué)習(xí)和表達(dá)。自注意力機(jī)制是編碼器的核心,前饋全連接網(wǎng)絡(luò)進(jìn)行特征映射和增強(qiáng),二者相互配合,構(gòu)成Transformer編碼器的基本框架。
Encoder 內(nèi)部結(jié)構(gòu)
自注意力機(jī)制是Transformer模型的核心組成部分,廣泛用于編碼器和解碼器中。主要作用是建模輸入序列不同位置之間的關(guān)聯(lián)關(guān)系,得到與整體上下文相關(guān)的表示。其工作流程可以概括為:計算查詢向量Q鍵向量K和值向量V(來自輸入序列的線性變換)——通過點(diǎn)積計算查詢向量和鍵向量之間的相關(guān)性,得到注意力權(quán)重——根據(jù)權(quán)重對值向量進(jìn)行加權(quán)求和,得到自注意力輸出——通過注意力權(quán)重分配不同及位置不同程度的關(guān)注,獲得整體上下文表示。自注意力通過學(xué)習(xí)輸入序列內(nèi)部的依賴關(guān)系,為模型提供序列的全局信息。
Query, key, Value 矩陣運(yùn)算
實(shí)際上,在自注意力機(jī)制中,需要通過機(jī)器學(xué)習(xí)來獲取的參數(shù)是 W_Q、W_K 和 W_V 這三個矩陣。在實(shí)踐中,注意力機(jī)制模塊可以在計算得到 O 矩陣后,對 O 矩陣進(jìn)行線性變換,因此會額外增加一個 W_O 矩陣需要進(jìn)行學(xué)習(xí)。
Transformer 算法流程圖
人工智能大模型體驗(yàn)報告
大型AI模型的發(fā)展正推動產(chǎn)業(yè)智能化升級。過去針對不同場景需要重復(fù)開發(fā)AI模型,效率較低。大型通用模型的出現(xiàn)改變了這一局面,使同一個模型可服務(wù)多場景,加速產(chǎn)業(yè)向全鏈路智能化方向發(fā)展?!渡墒饺斯ぶ悄芊?wù)管理暫行辦法》為大模型的發(fā)展指明方向,國家將致力于促進(jìn)創(chuàng)新與安全并重。
在各方共同努力下,中國大模型的產(chǎn)業(yè)生態(tài)已初步形成。未來企業(yè)可根據(jù)定位發(fā)揮優(yōu)勢,頭部企業(yè)可繼續(xù)自主研發(fā),解決方案企業(yè)可通過垂直細(xì)分積累特色。頭部企業(yè)還應(yīng)當(dāng)充分開放共享,幫助推廣大型模型,發(fā)揮技術(shù)的社會價值。
大模型與行業(yè)的融合也將發(fā)揮關(guān)鍵作用,在諸如金融、工業(yè)、醫(yī)療等領(lǐng)域已展現(xiàn)出巨大應(yīng)用潛力。持續(xù)探索行業(yè)解決方案是大模型企業(yè)的重要方向。新一代AI有望成為企業(yè)的競爭優(yōu)勢。各方攜手合作,推動大型模型落地應(yīng)用,將促進(jìn)人工智能產(chǎn)業(yè)進(jìn)步。
一、大模型成為AI大規(guī)模落地拐點(diǎn)
中國大模型發(fā)展勢頭強(qiáng)勁,獲得持續(xù)關(guān)注和資本追捧。天眼查數(shù)據(jù)顯示,2023年上半年直接與“大模型”相關(guān)的融資事件超過20起,熱點(diǎn)地區(qū)以北京、上海、杭州為主,反映出北京在人工智能領(lǐng)域的領(lǐng)先地位。越來越多企業(yè)和學(xué)術(shù)機(jī)構(gòu)開始關(guān)注大模型的應(yīng)用落地和商業(yè)化。主要進(jìn)展集中在:
研究層面:中國在理論、方法、軟硬件等方面形成體系化的大模型研發(fā)能力,學(xué)界和產(chǎn)業(yè)界共同推動,健全了理論框架。
應(yīng)用層面:大模型開始滲透各行各業(yè),并實(shí)現(xiàn)商業(yè)化應(yīng)用。超過半數(shù)大模型已開源。
可以看出,在資本的推動下中國大模型技術(shù)在研究和應(yīng)用方面都獲得長足發(fā)展,產(chǎn)業(yè)化進(jìn)程正在加速推進(jìn)。這為中國在人工智能領(lǐng)域的領(lǐng)先地位奠定了基礎(chǔ)。
1、大模型進(jìn)程過半,如何讓AI真正走進(jìn)千家萬戶成關(guān)注重點(diǎn)
人工智能發(fā)展的重點(diǎn)正在從追求模型規(guī)模向提升實(shí)用性和可持續(xù)性轉(zhuǎn)變。要實(shí)現(xiàn)AI大規(guī)模應(yīng)用,還需要在多方面進(jìn)行優(yōu)化:
1)降低訓(xùn)練成本。主要通過算法優(yōu)化、分布式訓(xùn)練、模型壓縮等方式來減少計算資源消耗。
2)提高易用性。采用友好的用戶交互方式,提供簡單的開發(fā)工具,加強(qiáng)用戶教育和運(yùn)營支持,降低使用門檻。
3)增強(qiáng)安全性。提高數(shù)據(jù)質(zhì)量,增強(qiáng)模型魯棒性,建立持續(xù)監(jiān)控機(jī)制及時發(fā)現(xiàn)和修復(fù)問題。
4)保護(hù)隱私。對用戶數(shù)據(jù)加密和脫敏,實(shí)施訪問控制和認(rèn)證機(jī)制,開展安全審計防止數(shù)據(jù)泄露。
總之,要促進(jìn)人類從AI獲益,需要讓技術(shù)更實(shí)用、易用、可解釋和可控。只有當(dāng)科技發(fā)展以人為本、造福社會,才能贏得廣泛認(rèn)可。
2、未來已來,大模型概念紅利逐漸消失,回歸到實(shí)際應(yīng)用
為推動大模型技術(shù)實(shí)現(xiàn)從實(shí)驗(yàn)室到實(shí)際應(yīng)用的飛躍,需要在以下幾個方面著力:
1)加強(qiáng)算力基礎(chǔ)設(shè)施建設(shè),實(shí)現(xiàn)集中高效的算力供給
2)融合跨領(lǐng)域知識和多模態(tài)數(shù)據(jù),建立綜合性知識體系,實(shí)現(xiàn)技術(shù)和數(shù)據(jù)的深度融合
3)提升模型的安全性和可解釋性,建立安全可靠的大模型應(yīng)用
4)將大模型應(yīng)用于實(shí)體經(jīng)濟(jì),探索商業(yè)化路徑
5)發(fā)展在線學(xué)習(xí)和增量學(xué)習(xí)技術(shù),提高模型的自主學(xué)習(xí)和適應(yīng)能力
只有系統(tǒng)性推進(jìn)大模型技術(shù)的產(chǎn)業(yè)化進(jìn)程持續(xù)強(qiáng)化基礎(chǔ)研究,才能加速人工智能走向深度融入經(jīng)濟(jì)社會發(fā)展的日常應(yīng)用,真正造福人類。
二、大模型廠商整體測評
通過對比Benchmark結(jié)果可以得出以下結(jié)論:在基礎(chǔ)能力方面,AI算法模型受人類編程思維影響,利用人類的智慧和知識進(jìn)行開發(fā),因此與人類在某些方面的能力相當(dāng)。在政策的積極引導(dǎo)下,AI在善良性和語言能力上表現(xiàn)出色,逐漸接近人類專家的水平。然而,大模型的安全可解釋性需要持續(xù)投入,以避免不受控制的現(xiàn)象出現(xiàn)。
盡管AI在某些方面能夠達(dá)到或超過人類的水平,但整體上人類在智商方面仍然具有明顯優(yōu)勢。人類通過善用工具和解決問題的能力以及通過互聯(lián)網(wǎng)等渠道獲取各方面的信息并進(jìn)行總結(jié)、積累和歸納,形成個人知識體系,展現(xiàn)了智商的高水平。
在情商方面,AI與人類之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類在情緒理解和處理方面通常具有更強(qiáng)的優(yōu)勢和更靈活的能力。人類的情感智慧是人類智能的重要組成部分,涉及到高級認(rèn)知和社交能力,而AI需要進(jìn)一步發(fā)展感知智能。
在工具效率提升方面,AI對人類提供有力的支持,處理速度遠(yuǎn)遠(yuǎn)超過人類。然而,在某些復(fù)雜和具有創(chuàng)新性的任務(wù)中,人類的智慧和想象力仍然無法替代。
1、基礎(chǔ)能力指數(shù)及測評
大型AI模型具備多個基礎(chǔ)能力,其中最重要的是語言能力。語言是人類智慧的體現(xiàn),也是人工智能系統(tǒng)需要理解和模仿的重要領(lǐng)域。大型AI模型通過學(xué)習(xí)和訓(xùn)練,能夠理解和生成自然語言文本,并在多語言翻譯和多語言對話方面展現(xiàn)出強(qiáng)大的能力。
除了語言能力,大型AI模型還具備AI向善能力。AI向善指的是人工智能系統(tǒng)在運(yùn)行過程中,能夠遵循道德和倫理原則保護(hù)人類的利益和安全。此外,大型AI模型還具備跨模態(tài)和多輪對話的能力??缒B(tài)能力指的是在不同模態(tài)之間進(jìn)行轉(zhuǎn)換和遷移,例如將圖像轉(zhuǎn)換為文字描述或?qū)⒄Z音轉(zhuǎn)換為文字,這些能力有助于大型AI模型在自動駕駛、智能家居等領(lǐng)域的應(yīng)用中更好地理解和處理不同模態(tài)的信息。多輪對話能力則使大型AI模型能夠在多個對話回合中保持連續(xù)性和邏輯性,從而完成更復(fù)雜的任務(wù)和問題解答。
2、智商指數(shù)及述評
評估大模型的智能水平可以從三個方面進(jìn)行考察:常識知識、邏輯能力和專業(yè)知識。
1)常識知識
指大模型對于世界、社會和文化等基本信息的認(rèn)知能力。具備常識知識,大模型能夠更好地理解人類的語言和行為,并在各種情境下做出正確的推理和決策。
2)邏輯能力
邏輯能力是大模型不可或缺的能力之一,使大模型在處理復(fù)雜問題時能夠提供嚴(yán)謹(jǐn)?shù)乃季S邏輯和強(qiáng)大的分析決策能力,從而推動人工智能從認(rèn)知層面向感知層面的發(fā)展。
3)專業(yè)知識
指大模型需要具備特定領(lǐng)域的專業(yè)知識和技能。例如,在醫(yī)療領(lǐng)域,大模型需要了解醫(yī)學(xué)知識和診斷技能;在法律領(lǐng)域,需要了解法律知識和法律推理能力。這些專業(yè)知識有助于大模型在特定領(lǐng)域中進(jìn)行準(zhǔn)確、高效的問題處理。
3、情商指數(shù)及述評
大模型的情商考察涉及評估其在情感和人際交往方面的能力。包括對日常尷尬事項(xiàng)的反應(yīng)、處理一語雙關(guān)問題以及應(yīng)對人際關(guān)系難題等方面的表現(xiàn)。這些情商考察涉及與朋友、家人、同事等各種場景下的交往問題。
具體而言,日常尷尬事項(xiàng)的反饋指的是大模型在處理一些尷尬或棘手問題時,能否給出合適的回答或解決方案。例如,當(dāng)被問及一些私人或敏感問題時,大模型需要具備足夠的情商和應(yīng)變能力,以避免造成不必要的尷尬和誤解。在中國語言中,常常出現(xiàn)一語雙關(guān)的情況,大模型需要通過敏銳的洞察力、判斷力和感知能力等,準(zhǔn)確理解當(dāng)前環(huán)境和詞語的含義,并做出恰當(dāng)?shù)幕貞?yīng)。
另一方面,人際關(guān)系相處難題指的是大模型在與人類進(jìn)行交互時,能否幫助人類處理各種人際關(guān)系問題,例如解決沖突、進(jìn)行情感交流和表達(dá)同理心等。這些問題的處理需要大模型具備高超的人際交往能力和情商,以建立和維護(hù)良好的人際關(guān)系。
在情商方面,商湯商量、百度文心一言、瀾舟科技Mchat和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;360智腦、訊飛星火、阿里通義千問和昆侖萬維天工表現(xiàn)良好。
4、工具提效指數(shù)及述評
工作提效的考察主要涉及工具提效和創(chuàng)新推動兩個方面。
1)工具提效
指的是大模型是否能夠提供有效的工具來提高工作效率。包括代碼自動生成、數(shù)據(jù)分析與可視化工具、自然語言處理、文件整理、關(guān)鍵內(nèi)容總結(jié)整合以及機(jī)器翻譯工具等。
2)創(chuàng)新推動
指的是大模型是否能夠提供新的思路和方法,推動工作方式的改進(jìn)和升級。這些創(chuàng)新可以涉及新的業(yè)務(wù)流程、創(chuàng)新選題、內(nèi)容創(chuàng)新等。
測評中工作提效的考察包括工具提效和創(chuàng)新推動兩個方面,其中工具提效占50%的權(quán)重,創(chuàng)新推動占50%的權(quán)重。在工作提效方面,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;昆侖萬維天工、阿里通義千問、瀾舟科技Mchat和360智腦表現(xiàn)良好。
三、各大廠商優(yōu)秀答案展示
1、科大訊飛-星火
科大訊飛推出名為"訊飛星火認(rèn)知大模型"的新一代認(rèn)知智能大模型,具備七大核心能力,包括文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、代碼能力和多模態(tài)能力。該模型擁有跨領(lǐng)域的知識和語言理解能力,能夠通過自然對話方式理解并執(zhí)行各種任務(wù)。通過不斷學(xué)習(xí)海量數(shù)據(jù)和大規(guī)模知識,實(shí)現(xiàn)從問題的提出、規(guī)劃到解決的全流程閉環(huán)。
2、百度-文言一新
百度開發(fā)的人工智能大語言模型——文心一言,具有跨模態(tài)和跨語言的深度語義理解與生成能力。文心一言擁有五大核心能力,包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解以及多模態(tài)生成。
3、商湯-商量
商湯-商量以"堅(jiān)持原創(chuàng),讓AI引領(lǐng)人類進(jìn)步"為使命,是首家將人臉支付技術(shù)成功應(yīng)用于地鐵售票系統(tǒng)的公司。同時還為北京大興國際機(jī)場提供58套由商湯科技AI技術(shù)支持的"智能旅客安檢系統(tǒng)",為全球旅客提供高效便捷的服務(wù)。這些舉措展示了商湯科技在推動人工智能應(yīng)用和為人類帶來進(jìn)步方面的領(lǐng)導(dǎo)地位。
4、智譜AI-ChatGLM
智譜AI是一家由清華大學(xué)計算機(jī)系技術(shù)成果轉(zhuǎn)化而成立的公司,專注于開發(fā)新一代認(rèn)知智能通用模型。其引入全新的"模型即服務(wù)(MaaS)"市場理念,并建立認(rèn)知大模型平臺以及數(shù)字人和科技情報產(chǎn)品,旨在為用戶提供更廣泛的認(rèn)知智能服務(wù),并推動科技成果的商業(yè)化應(yīng)用。
5、360-360智腦
360公司是中國領(lǐng)先的互聯(lián)網(wǎng)安全軟件與互聯(lián)網(wǎng)服務(wù)公司,主要經(jīng)營360安全衛(wèi)士。自主研發(fā)了名為"360智腦"的千億參數(shù)大語言模型。360的創(chuàng)始人周鴻祎表示,公司將堅(jiān)持"兩翼齊飛"的大模型戰(zhàn)略,一方面致力于自主研發(fā)核心技術(shù),另一方面通過大模型在城市、政府和企業(yè)領(lǐng)域的應(yīng)用,進(jìn)一步推動產(chǎn)業(yè)數(shù)字化和智能化發(fā)展。
6、昆侖萬維-天工
昆侖萬維是中國領(lǐng)先的互聯(lián)網(wǎng)平臺出海企業(yè),深耕海外市場十余載?!疤旃ぁ贝竽P褪怯衫鋈f維主導(dǎo)研發(fā)的雙千億級大語言模型。目前“天工”最高已能支持1萬字以上文本對話,實(shí)現(xiàn)20輪次以上用戶交互,在多類問答場景中都能實(shí)現(xiàn)較高的輸出水平。
7、阿里-通義千問
阿里通義大模型是阿里云推出的一款超大規(guī)模語言模型,具備多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解和多語言支持等功能。它是阿里云在人工智能領(lǐng)域的重要成果之一,已經(jīng)在多個領(lǐng)域廣泛應(yīng)用。阿里通義為業(yè)務(wù)提供強(qiáng)大的基礎(chǔ)框架和工具,推動人工智能技術(shù)的發(fā)展和應(yīng)用。這一模型為用戶提供了豐富的功能和靈活性,助力各行各業(yè)實(shí)現(xiàn)創(chuàng)新發(fā)展。
8、瀾舟科技-MChat
瀾舟科技是一家由創(chuàng)新工場孵化的認(rèn)知智能公司,成立于2021年6月。專注于AI 2.0大模型的研發(fā),并以自然語言處理(NLP)技術(shù)為基礎(chǔ),提供新一代的認(rèn)知智能平臺。瀾舟科技的主要產(chǎn)品是一系列基于"孟子大模型"核心技術(shù)打造的能力平臺和垂直場景應(yīng)用。致力于為用戶提供先進(jìn)的智能解決方案,以推動行業(yè)的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。
各大龍頭企業(yè)如何應(yīng)對大模型發(fā)展?
NVIDIA 已成為 AI 大模型開發(fā)的首選,但 GPU 短缺問題短期內(nèi)難以解決。NVIDIA 在 AI 芯片領(lǐng)域的長期積累,使其在生成式AI浪潮中占據(jù)主導(dǎo)地位,其GPU也成為各大科技公司爭相采購的對象。但 GPU供應(yīng)有限,制約了人工智能的快速發(fā)展,OpenAI CEO表示GPU短缺限制了他們在模型調(diào)優(yōu)和上下文窗口等方面的進(jìn)展。目前最強(qiáng)的GPU NVIDIA H100也面臨嚴(yán)重缺貨。從供給角度看,H100供應(yīng)直接受制于臺積電產(chǎn)能,短時間內(nèi)難以找到替代的代工廠,出貨量有限。從需求端看,市場對H100的需求約在43.2萬張左右,總價值將超過150億美元,還沒有考慮中國對H800的需求。NVIDIA正在提升產(chǎn)能,但GPU短缺可能還會持續(xù)一段時間。
國產(chǎn)算力板塊仍具潛力,算力產(chǎn)業(yè)鏈值得關(guān)注。當(dāng)前算力板塊景氣度較高,H800將批量供應(yīng)中國,相關(guān)的AI服務(wù)器企業(yè)有望迎來放量。此外各地智能算力中心建設(shè)也在推進(jìn),國內(nèi)對AI芯片的需求快速增長,國產(chǎn)化替代的需求隨之提升。根據(jù)測算,中國AI芯片市場規(guī)模到2027年將達(dá)到2164億元。目前在AI加速卡出貨量上,NVIDIA在中國市場份額超過80%,國產(chǎn)化的需求持續(xù)增長。
中國 AI 芯片市場規(guī)模及增速
一、行業(yè)變化
1、SIGGRAPH 2023 召開,英偉達(dá) AI 布局持續(xù)演進(jìn)
1) AI 芯片再度升級,英偉達(dá)鞏固 AI 算力領(lǐng)域主導(dǎo)地位
在SIGGRAPH 2023世界計算機(jī)圖形學(xué)大會上,英偉達(dá)創(chuàng)始人兼CEO黃仁勛做主題演講,重點(diǎn)介紹下一代AI超級芯片GH200。他將生成式AI比喻為AI的“iPhone時刻”,自然語言是新的編程語言,使計算機(jī)科學(xué)實(shí)現(xiàn)民主化,人人皆可成為“程序員”。他認(rèn)為大語言模型是新型計算平臺,將賦能各類新應(yīng)用,并讓舊平臺帶來諸如Office和Copilot等好處。演講中,英偉達(dá)宣布推出下一代GH200 Grace Hopper超級芯片,搭載全球首個HBM3e內(nèi)存。黃仁勛的演說充分展現(xiàn)出英偉達(dá)對大語言模型計算平臺前景的信心和領(lǐng)先視野,也預(yù)示著英偉達(dá)將繼續(xù)通過創(chuàng)新芯片產(chǎn)品,推動大模型技術(shù)的發(fā)展。
生成式 AI 是 AI 的“iPhone 時刻”
英偉達(dá)計劃于2024年第二季度開始生產(chǎn)GH200芯片,該芯片將取代H100 GPU,性能大幅提升。在2022年3月,英偉達(dá)首次推出Grace Hopper超級芯片,該芯片將CPU和GPU融合在一塊主板上,直到今年5月才開始正式量產(chǎn)。而此次推出的GH200芯片則采用新型的HBM3e內(nèi)存。GH200芯片專為高性能計算和生成式AI時代而設(shè)計,將在今年年底左右進(jìn)行樣片測試,并于2024年第二季度末開始投入生產(chǎn)。GH200芯片由72核的Grace CPU和4 PFLOPS的Hopper GPU組成,通過NVLink C2C技術(shù)連接,搭載141GB的HBM3e內(nèi)存,提供每秒5TB的帶寬。每個GPU的容量是NVIDIA H100 GPU的1.7倍,帶寬是H100的1.55倍。通過將兩個GH200芯片連接在一起,可以獲得更高性能的計算服務(wù)。與前一代相比,雙配置的內(nèi)存容量增加了3.5倍,帶寬增加3倍。
由兩個 GH200 芯片組成的計算平臺
該芯片具備出色的可擴(kuò)展性,最多支持將256個芯片連接在一起,形成DGX GH200計算平臺。通過NV Link Switch技術(shù),可以將256塊GH200芯片組裝成DGX GH200 SuperPod,提供高達(dá)1 EFLOPS的計算能力和144TB的高速內(nèi)存。通過NVIDIA Quantum-2 InfiniBand Switch技術(shù),可以使用高速、低延遲的網(wǎng)絡(luò)連接多個DGX GH200 SuperPod,從而構(gòu)建出面向生成式AI時代的Grace Hopper AI超級計算機(jī)。
由 256 張 GH200 組成的 DGX GH200 系統(tǒng)
隨著芯片的升級,數(shù)據(jù)中心在同等預(yù)算和工作負(fù)載條件下的能效顯著提高,相較以往以CPU為主的數(shù)據(jù)中心有巨大的改進(jìn)。在過去的60年中通用計算是主流,1億美元可以構(gòu)建一個由8800塊x86 CPU組成的數(shù)據(jù)中心,功耗為5MW。然而,在當(dāng)前和未來的加速計算和AI計算時代,同樣1億美元可以構(gòu)建一個由2500塊GH200芯片組成的數(shù)據(jù)中心,功耗僅為3MW。而且,這個AI推理性能相當(dāng)于之前提到的CPU系統(tǒng)的12倍,能效提高20倍。如果想要達(dá)到和1億美元的x86 CPU數(shù)據(jù)中心相同的AI性能,只需要210塊GH200芯片構(gòu)成的計算平臺,功耗僅為0.26MW,成本也只需800萬美元。
同等預(yù)算下 GH200 數(shù)據(jù)中心的能效是 x86 CPU 數(shù)據(jù)中心的 20 倍
為滿足生成式AI、大模型開發(fā)、內(nèi)容創(chuàng)作和數(shù)據(jù)科學(xué)等領(lǐng)域的需求,NVIDIA推出全新的桌面級AI GPU系列。其中包括RTX 6000、RTX 5000、RTX 4500和RTX 4000四款產(chǎn)品,基于最強(qiáng)大的是RTX 6000。NVIDIA還提供一站式解決方案RTX Workstation,專為企業(yè)級用戶設(shè)計。RTX Workstation支持最多4張RTX 6000 GPU,可以在15小時內(nèi)完成對GPT3-40B模型的8.6億個token的微調(diào),同時還能讓Stable Diffusion XL每分鐘生成40張圖片,比RTX 4090快了5倍。
英偉達(dá)推出基于 RTX 6000 的 RTX Workstation
為滿足數(shù)據(jù)中心的需求,英偉達(dá)推出OVX服務(wù)器,其搭載L40S Ada GPU。這款服務(wù)器經(jīng)過圖形、計算、存儲和網(wǎng)絡(luò)的優(yōu)化,每臺服務(wù)器最多可搭載8個L40S GPU,每個GPU配備48GB GDDR6內(nèi)存,提供1.45 PFLOPS的算力。OVX服務(wù)器令人驚嘆的是,僅需7小時就能完成對GPT3-40B模型的8.6億個token的微調(diào),其性能表現(xiàn)甚至超過A100的1.7倍。
英偉達(dá)推出基于 L40S GPU 的 OVX 服務(wù)器
英偉達(dá)在AI基礎(chǔ)設(shè)施領(lǐng)域依然穩(wěn)居主導(dǎo)地位。自從ChatGPT引領(lǐng)生成式AI浪潮以來,NVIDIA GPU已經(jīng)成為支持生成式AI和大模型訓(xùn)練的首選芯片,功不可沒。隨著GH200超級AI芯片的升級和多款GPU、服務(wù)器產(chǎn)品的推出,英偉達(dá)展現(xiàn)了其在AI基礎(chǔ)設(shè)施領(lǐng)域的絕對主導(dǎo)地位。
2、AI 生態(tài)持續(xù)拓展,助力生成式 AI 開發(fā)與多領(lǐng)域應(yīng)用
英偉達(dá)與Hugging Face合作,使得在NVIDIA DGX Cloud上訓(xùn)練模型變得更加便捷。Hugging Face是目前最受AI開發(fā)者喜愛的平臺之一,擁有超過200萬用戶、超過25萬個模型和5萬個數(shù)據(jù)集。通過與英偉達(dá)的合作,開發(fā)人員可以利用DGX Cloud的超級計算能力來構(gòu)建大語言模型和其他高級AI應(yīng)用程序。每個DGX Cloud實(shí)例配備了8個NVIDIA H100或A100 80GB Tensor Core GPU,每個節(jié)點(diǎn)的GPU內(nèi)存總計達(dá)到640GB。
英偉達(dá)與 Hugging Face 達(dá)成合作
NVIDIA 推出的 AI Workbench是一個統(tǒng)一的工作空間,可以加速定制生成式 AI 應(yīng)用的開發(fā)。它可以幫助開發(fā)者在 PC 或工作站上快速創(chuàng)建、測試和調(diào)優(yōu)模型并無縫擴(kuò)展到數(shù)據(jù)中心、公有云或 NVIDIA DGX Cloud。AI Workbench 還與 GitHub、NVIDIA NGC、Hugging Face 等服務(wù)集成,開發(fā)者可以在不同的平臺和基礎(chǔ)設(shè)施上進(jìn)行開發(fā),并可以一鍵遷移。在現(xiàn)場演示視頻中開發(fā)者在搭載 RTX 4090 的筆記本電腦上使用 AI Workbench 對 Stable Diffusion-XL 模型進(jìn)行了微調(diào)。AI Workbench 可以自動創(chuàng)建項(xiàng)目環(huán)境、構(gòu)建容器,方便地訪問服務(wù)器以及部署到應(yīng)用中。
NVIDIA AI Workbench 工作流程
NVIDIA 推出AI Enterprise 4.0 版本為企業(yè)級生成式AI開發(fā)帶來更強(qiáng)的安全性和穩(wěn)定性。AI Enterprise 4.0 新增支持多款軟件和工具,簡化生成式AI的部署。其中一個重要亮點(diǎn)是引入NVIDIA NeMo框架,它是一套云原生框架,可以用來構(gòu)建、定制和部署大語言模型,為創(chuàng)建和定制大語言模型應(yīng)用提供了端到端的支持。AI Enterprise支持用戶跨云、數(shù)據(jù)中心和邊緣構(gòu)建及運(yùn)行基于NVIDIA AI的解決方案,經(jīng)過認(rèn)證可以在主流的NVIDIA認(rèn)證系統(tǒng)、NVIDIA DGX系統(tǒng)、所有主要的云平臺以及新發(fā)布的NVIDIA RTX工作站上運(yùn)行。此外,AI Enterprise 4.0還將集成到其他合作伙伴如Google Cloud、Microsoft Azure和Oracle等。
英偉達(dá)升級 AI Enterprise 4.0
NVIDIA 為 OpenUSD 進(jìn)行了升級,為開發(fā)者和企業(yè)提供了更多的框架和資源服務(wù)。OpenUSD 由皮克斯發(fā)明并在2016年開源的通用場景描述格式,用于創(chuàng)建和描述3D世界,使不同的3D設(shè)計軟件可以無障礙地協(xié)作。目前已有50多種設(shè)計工具原生支持了USD標(biāo)準(zhǔn)。NVIDIA從5年前就開始與皮克斯合作,全力支持OpenUSD的發(fā)展。
NVIDIA提供了Omniverse Cloud和多種API,帶給開發(fā)者和企業(yè)更多的框架和資源。最引人關(guān)注的兩個API是:基于大語言模型的ChatUSD,可以像Copilot一樣在Omniverse中回答問題和生成代碼;以及基于大語言模型的語義3D搜索服務(wù)DeepSearch,可以通過文本或圖像快速搜索大量未標(biāo)注的數(shù)據(jù)集。在AI的推動下協(xié)作式3D和數(shù)字化的時代正在到來。
英偉達(dá) Omniverse 采用 OpenUSD 標(biāo)準(zhǔn),提供多種 API 服務(wù)
二、各大廠商如何布局?
1、Stability AI 推出 StableCode,一款用于寫代碼的大型語言模型
8 月 9 日,Stability AI 發(fā)布其新的開放大型語言模型(LLM)StableCode ,該模型旨在幫助用戶生成編程語言代碼,基于 transformer 神經(jīng)網(wǎng)絡(luò)打造。Stability AI 以其 Stable Diffusion 文本生成圖像模型而聞名,現(xiàn)在開始涉足代碼生成領(lǐng)域。 StableCode 模型訓(xùn)練數(shù)據(jù)則來自 BigCode 項(xiàng)目的初始編程語言數(shù)據(jù)集,并用 Stability AI 進(jìn)行篩選和微調(diào), 將首先支持 Python、Go、Java、JavaScript、C、markdown 和 C++ 等編程語言的開發(fā)。
同時,提供三個層級的模型,分別為用于通用領(lǐng)域的基礎(chǔ)模型、指令模型和一個支持多達(dá) 16,000 個 tokens 的長上下文窗口模型。Stability AI 稱長上下文窗口模型版本比其他大模型都要大,支持更專業(yè)和更復(fù)雜的代碼生成提示,用戶可以使用 StableCode 查看一個包含多個文件的中等大小的代碼庫,以幫助理解和生成新代碼。
2、OpenAI 在中國申請注冊“GPT-5”商標(biāo),此前已在美國申請
8月10日,據(jù)國家知識產(chǎn)權(quán)局顯示,OpenAI的運(yùn)營公司最近申請注冊兩枚“GPT-5”商標(biāo),分別用于科學(xué)儀器和設(shè)計研究領(lǐng)域。此前OpenAI已在上月向美國專利商標(biāo)局申請注冊“GPT-5”商標(biāo)。從商標(biāo)信息看,GPT-5將提供文本生成、自然語言理解、語音轉(zhuǎn)錄、翻譯、分析等功能。OpenAI此前在6月表示還未開始訓(xùn)練GPT-5。另外,OpenAI的GPT-4今年上半年也在中國申請了相關(guān)商標(biāo)以及一個“WHISPER”的網(wǎng)站服務(wù)商標(biāo)。這表明OpenAI正在積極布局GPT-5等新模型,中國也是其重要的商業(yè)化市場。
3、小米 AI 大模型 MiLM-6B 首次曝光:64 億參數(shù),C-Eval 總榜排名第 10
最近小米的大語言模型MiLM-6B首次出現(xiàn)在C-Eval和CMMLU兩大AI模型評測榜單上。GitHub項(xiàng)目顯示MiLM-6B是一個參數(shù)規(guī)模達(dá)64億的大規(guī)模預(yù)訓(xùn)練語言模型,由小米自主開發(fā)。截至8月11日在C-Eval總榜MiLM-6B排名第10,同參數(shù)量級模型排名第一;在CMMLU中文向大模型排名第一。C-Eval數(shù)據(jù)顯示,在STEM科目中MiLM-6B在計量、物理、化學(xué)、生物等準(zhǔn)確率較高。在社科科目中除教育和地理外,均獲得較理想的準(zhǔn)確率。在人文科目中,MiLM-6B的歷史和法律準(zhǔn)確率較佳??傮w來說,MiLM-6B在多數(shù)文科科目已具備相對良好的準(zhǔn)確度,但在涉及“抽象思維”的法學(xué)、數(shù)學(xué)、編程等科目仍有進(jìn)步空間。這表明小米自主研發(fā)的大模型MiLM-6B具有較強(qiáng)的通用語言能力。
4、微軟亞洲研究院推出工業(yè)場景用大模型,利用 GPT-4 控制空調(diào)系統(tǒng)
日前微軟亞洲研究院在論文中提出用GPT-4模型來控制工業(yè)場景中的空調(diào)系統(tǒng),稱此方法僅需少量樣本就能在成本和效率上優(yōu)于傳統(tǒng)工控系統(tǒng)。微軟表示對工業(yè)場景傳統(tǒng)工控軟件處理異構(gòu)任務(wù)、樣本利用率低,適應(yīng)新場景需要大量時間和預(yù)算而用預(yù)訓(xùn)練大模型控制相關(guān)設(shè)備,在高準(zhǔn)確率下可降低部署成本。微軟使用GPT-4在虛擬空調(diào)環(huán)境進(jìn)行了實(shí)驗(yàn),開發(fā)出一種基礎(chǔ)模型應(yīng)用于工控但無需大量訓(xùn)練的方法,獲得了積極結(jié)果。該研究旨在探索直接用預(yù)訓(xùn)練大模型進(jìn)行工業(yè)控制任務(wù)的潛力逐步取代容錯率較高的工業(yè)環(huán)境。這表明預(yù)訓(xùn)練語言模型在工業(yè)控制等領(lǐng)域也展現(xiàn)出廣闊的應(yīng)用前景。
5、明略科技開源 TensorBoard.cpp,助力大模型預(yù)訓(xùn)練
近日明略科技集團(tuán)實(shí)現(xiàn)了機(jī)器學(xué)習(xí)可視化工具TensorBoard的C++接口,進(jìn)一步豐富了基于C++的大模型項(xiàng)目工具集,使大模型預(yù)訓(xùn)練過程監(jiān)控更便捷高效,加速了營銷領(lǐng)域大模型的預(yù)訓(xùn)練。TensorBoard是谷歌開發(fā)的機(jī)器學(xué)習(xí)可視化工具,常用于監(jiān)測機(jī)器學(xué)習(xí)過程的各項(xiàng)指標(biāo)。據(jù)介紹TensorBoard通過可視化模型中的參數(shù)和結(jié)果,如記錄訓(xùn)練過程中的Loss變化、驗(yàn)證集的PPL變化、學(xué)習(xí)率變化等,幫助分析訓(xùn)練狀態(tài)發(fā)現(xiàn)問題并及時采取措施。此前TensorBoard僅支持Python。明略科技通過C++實(shí)現(xiàn)TensorBoard將進(jìn)一步豐富基于C++的大模型項(xiàng)目工具集,大幅提升監(jiān)測效率加速模型訓(xùn)練。改寫接口后的工具將以多種數(shù)據(jù)模式展示訓(xùn)練指標(biāo),包括標(biāo)量、直方圖、圖像等。該工具包在GitHub上開源,助力更多研究者和開發(fā)者參與大模型研發(fā),推動人工智能多領(lǐng)域應(yīng)用。
藍(lán)海大腦大模型訓(xùn)練平臺
藍(lán)海大腦大模型訓(xùn)練平臺提供強(qiáng)大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)?滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強(qiáng)制系統(tǒng)的CPU進(jìn)入ULFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。
一、為什么需要大模型?
1、模型效果更優(yōu)
大模型在各場景上的效果均優(yōu)于普通模型
2、創(chuàng)造能力更強(qiáng)
大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)模化生產(chǎn)
3、靈活定制場景
通過舉例子的方式,定制大模型海量的應(yīng)用場景
4、標(biāo)注數(shù)據(jù)更少
通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求
二、平臺特點(diǎn)
1、異構(gòu)計算資源調(diào)度
一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運(yùn)行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。
2、穩(wěn)定可靠的數(shù)據(jù)存儲
支持多存儲類型協(xié)議,包括塊、文件和對象存儲服務(wù)。將存儲資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。
3、高性能分布式網(wǎng)絡(luò)
提供算力資源的網(wǎng)絡(luò)和存儲,并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。
4、全方位安全保障
在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時,在模型分發(fā)和運(yùn)行過程中,提供全面的賬號認(rèn)證和日志審計功能,全方位保障模型和數(shù)據(jù)的安全性。
三、常用配置
目前大模型訓(xùn)練多常用H100、H800、A800、A100等GPU顯卡,以下是一些常用的配置。
1、H100服務(wù)器常用配置
英偉達(dá)H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點(diǎn)加速每個 GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴(kuò)展性。
搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性,憑借高性能應(yīng)對數(shù)據(jù)分析以及通過擴(kuò)展支持龐大的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺能夠以出色的性能和效率加速這些大型工作負(fù)載。
CPU:英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2
內(nèi)存:動態(tài)隨機(jī)存取存儲器64GB DDR5 4800兆赫 *24
存儲:固態(tài)硬盤3.2TB U.2 PCIe第4代 *4
GPU :Nvidia Vulcan PCIe H100 80GB *8
平臺 :HD210 *1
散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1
網(wǎng)絡(luò) :英偉達(dá)IB 400Gb/s單端口適配器 *8
電源:2000W(2+2)冗余高效電源 *1
2、A800服務(wù)器常用配置
NVIDIA A800 的深度學(xué)習(xí)運(yùn)算能力可達(dá) 312 teraFLOPS(TFLOPS)。其深度學(xué)習(xí)訓(xùn)練的Tensor 每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)和推理的 Tensor 每秒萬億次運(yùn)算次數(shù)(TOPS)皆為NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch 結(jié)合使用時,此技術(shù)可將多達(dá) 16 個 A800 GPU 互聯(lián),并將速度提升至 600GB/s,從而在單個服務(wù)器上實(shí)現(xiàn)出色的應(yīng)用性能。NVLink 技術(shù)可應(yīng)用在 A800 中:SXM GPU 通過 HGX A100 服務(wù)器主板連接,PCIe GPU 通過 NVLink 橋接器可橋接多達(dá) 2 個 GPU。
CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2
內(nèi)存:DDR4 3200 64G *32
數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2
硬盤:3.84T 2.5-E4x4R SSD *2
網(wǎng)絡(luò):雙口10G光纖網(wǎng)卡(含模塊)*1
雙口25G SFP28無模塊光纖網(wǎng)卡(MCX512A-ADAT )*1
GPU:HV HGX A800 8-GPU 8OGB *1
電源:3500W電源模塊*4
其他:25G SFP28多模光模塊 *2
單端口200G HDR HCA卡(型號:MCX653105A-HDAT) *4
2GB SAS 12Gb 8口 RAID卡 *1
16A電源線纜國標(biāo)1.8m *4
托軌 *1
主板預(yù)留PCIE4.0x16接口 *4
支持2個M.2 *1
原廠質(zhì)保3年 *1
3、A100服務(wù)器常用配置
NVIDIA A100 Tensor Core GPU 可針對 AI、數(shù)據(jù)分析和 HPC 應(yīng)用場景,在不同規(guī)模下實(shí)現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺的引擎。A100 的性能比上一代產(chǎn)品提升高達(dá) 20 倍,并可劃分為七個 GPU 實(shí)例,以根據(jù)變化的需求進(jìn)行動態(tài)調(diào)整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過 2 萬億字節(jié) [TB/s]),可處理超大型模型和數(shù)據(jù)集。
CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2
RAM:64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16
SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1
SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2
GPU:NVIDIA TESLA A100 80G SXM *8
網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2
網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1
4、H800服務(wù)器常用配置
H800是英偉達(dá)新代次處理器,基于Hopper架構(gòu),對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學(xué)、復(fù)雜數(shù)字孿生等任務(wù)的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達(dá)到3 TB/s。
雖然論性能,H800并不是最強(qiáng)的,但由于美國的限制,性能更強(qiáng)的H100無法供應(yīng)給中國市場。有業(yè)內(nèi)人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。
CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2
內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32
系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4
GPU: NVIDIA Tesla H800 -80GB HBM2 *8
GPU網(wǎng)絡(luò): NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8
存儲網(wǎng)絡(luò) :雙端口 200GbE IB *1
網(wǎng)卡 :25G網(wǎng)絡(luò)接口卡 雙端口 *1
5、A6000服務(wù)器常用配置
CPU:AMD EPYC 7763 64C 2.45GHz 256MB 280W*2
內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8
固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1
數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:NVIDIA RTX A6000 48GB*8
平臺:機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。
6、AMD MI210服務(wù)器常用配置
CPU:AMD EPYC 7742 64C 2.25GHz 256MB 225W *2
內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8
固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1
數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:AMD MI210 64GB 300W*8
平臺:機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。
7、AMD MI250服務(wù)器常用配置
CPU: AMD EPYC? 7773X 64C 2.2GHz 768MB 280W *2
內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8
固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1
數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1
GPU:AMD MI250 128GB 560W*6
平臺:機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。
2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。
審核編輯 黃宇
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100772 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269108 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91111 -
Transformer
+關(guān)注
關(guān)注
0文章
143瀏覽量
6007 -
大模型
+關(guān)注
關(guān)注
2文章
2451瀏覽量
2714
發(fā)布評論請先 登錄
相關(guān)推薦
評論