8年后,在中國(guó)再談開(kāi)放計(jì)算,不論是技術(shù)原動(dòng)力還是整個(gè)產(chǎn)業(yè)生態(tài),都有了翻天覆地的變化。
時(shí)間撥回2011年,F(xiàn)acebook 主導(dǎo)發(fā)起了OCP(Open Compute Project; 開(kāi)放計(jì)算項(xiàng)目),旨在以開(kāi)源開(kāi)放的方式,重構(gòu)當(dāng)時(shí)的數(shù)據(jù)中心硬件,發(fā)展面向下一代數(shù)據(jù)中心的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、基礎(chǔ)設(shè)施等。
當(dāng)時(shí),我國(guó)互聯(lián)網(wǎng)技術(shù)正以驚奇世界的姿態(tài)飛速發(fā)展著。軟件開(kāi)源已經(jīng)成為趨勢(shì),但如果你提到硬件開(kāi)源,那年剛剛出現(xiàn)的從英文“Maker”翻譯過(guò)來(lái)的“創(chuàng)客”,會(huì)和你聊聊樹(shù)莓派,聊聊包括電路原理圖、設(shè)計(jì)圖在內(nèi)的開(kāi)源許可。
但這并不是OCP的著眼點(diǎn),IT基礎(chǔ)設(shè)施才是。
同年,阿里巴巴、百度、騰訊三家發(fā)起ODCC組織的前身“天蝎計(jì)劃”,并在同年年底確立了最初的技術(shù)規(guī)范。
百度從2011到2014年間,幾乎花了3年的時(shí)間與OCP社區(qū)進(jìn)行溝通,試圖推動(dòng)在數(shù)據(jù)中心的分享與合作。但現(xiàn)實(shí)的反差是巨大的,由于國(guó)內(nèi)外數(shù)據(jù)中心的巨大差異、地區(qū)的差異、認(rèn)知的差異等限制,最終沒(méi)有達(dá)成共識(shí)。
時(shí)間來(lái)到2019年,國(guó)內(nèi)互聯(lián)網(wǎng)和泛互聯(lián)網(wǎng)產(chǎn)業(yè)取得長(zhǎng)足發(fā)展,也使得更多的中國(guó)企業(yè)共同站在這個(gè)舞臺(tái)上面向未來(lái)進(jìn)行深入探討。今年也是繼2014年之后,百度重新回歸OCP。此時(shí),OCP的成員企業(yè)大約達(dá)到200家,包括英特爾、谷歌、微軟、Facebook、LinkedIn以及中國(guó)的阿里巴巴、百度、騰訊、浪潮等,囊括了全球服務(wù)器采購(gòu)量最大的企業(yè)用戶。
浪潮與OCP聯(lián)合主辦的首屆OCP China Day(開(kāi)放計(jì)算中國(guó)日)6月25日在北京舉行,那么,現(xiàn)在在中國(guó)聊起開(kāi)放計(jì)算,我們都在關(guān)注什么?
關(guān)注一:OAM——簡(jiǎn)化AI基礎(chǔ)架構(gòu)設(shè)計(jì),加速創(chuàng)新設(shè)計(jì)
AI是OCP China Day上多次被提及的話題之一。伴隨著AI的火熱,有越來(lái)越多的AI芯片出現(xiàn)。但是在推動(dòng)芯片落地時(shí)卻發(fā)現(xiàn)很大的問(wèn)題,需要從零開(kāi)始進(jìn)行板卡兼容等工作。AI加速器越來(lái)越多,技術(shù)更新也越來(lái)越快,AI硬件系統(tǒng)的技術(shù)挑戰(zhàn)和設(shè)計(jì)復(fù)雜度在增加,將加速器集成到系統(tǒng)中通常需要大約6-12個(gè)月。這種延遲阻礙了AI加速器的快速采用。
基于此,OCP社區(qū)在服務(wù)器項(xiàng)目組下設(shè)立了OAI(OpenAccelerator Infrastructure)小組,負(fù)責(zé)開(kāi)發(fā)OAM(OCP Accelerator Module)規(guī)范,將加速器模塊標(biāo)準(zhǔn)化,簡(jiǎn)化AI基礎(chǔ)架構(gòu)的設(shè)計(jì),縮短硬件設(shè)計(jì)周期。OAM規(guī)范的內(nèi)容包括電源/冷卻,穩(wěn)健性,可維護(hù)性,配置,編程,管理和調(diào)試,以及模塊間通信,以擴(kuò)展和輸入/輸出帶寬。OAM目前仍在開(kāi)發(fā)階段,已經(jīng)在3月14日公布了第一個(gè)非正式版本V0.85,4月30日公布了第二個(gè)非正式版本0.9。OAM標(biāo)準(zhǔn),就是針對(duì)上述問(wèn)題設(shè)計(jì)的一套指導(dǎo)AI硬件加速模塊和系統(tǒng)設(shè)計(jì)的標(biāo)準(zhǔn),它集合定義了AI硬件加速模塊本身、主板、互聯(lián)拓?fù)洹C(jī)箱、供電、散熱以及系統(tǒng)管理等系列設(shè)計(jì)規(guī)范,主要目標(biāo)是通過(guò)模塊化、標(biāo)準(zhǔn)化來(lái)增強(qiáng)不同AI硬件加速模塊和系統(tǒng)的互操作性,加速新的AI硬件加速模塊的落地和應(yīng)用。
為什么需要OAM?
先從典型的AI加速系統(tǒng)設(shè)計(jì)來(lái)看,它通常由三部分構(gòu)成,包括承載多個(gè)OAI模塊的基板,控制整個(gè)系統(tǒng)執(zhí)行流程的CPU,連接AI芯片和CPU的PCIe開(kāi)關(guān)。由于PCIe供電能力有限,無(wú)法很好地支持高速互聯(lián),所以出現(xiàn)了很多新的解決方案,這樣就出現(xiàn)了非標(biāo)準(zhǔn)系統(tǒng)。由于AI芯片之間和CPU之間需要互聯(lián)起來(lái),由于計(jì)算節(jié)點(diǎn)的限制,包括對(duì)于存儲(chǔ)的需求、I/O互聯(lián)的需求不一樣,所以在設(shè)計(jì)PCIe拓?fù)涞臅r(shí)候有差異,導(dǎo)致硬件系統(tǒng)適應(yīng)新的需求比較困難。
同時(shí),大規(guī)模的AI的爆發(fā)需要很強(qiáng)大的算力,一個(gè)節(jié)點(diǎn)不夠用時(shí),需要更好的擴(kuò)展能力。有兩種典型方式:一是通過(guò)傳統(tǒng)的以太網(wǎng)交換機(jī)實(shí)現(xiàn)互聯(lián),但是這個(gè)license費(fèi)用比較高,互聯(lián)的帶寬也是有限的;二是通過(guò)新興技術(shù)實(shí)現(xiàn)AI加速芯片之間私有的互聯(lián),這是一種更高速的互聯(lián),有更低的延時(shí),可以大幅提升大規(guī)模訓(xùn)練的性能。從一個(gè)單機(jī)擴(kuò)展到多機(jī),構(gòu)建了典型的大規(guī)模訓(xùn)練系統(tǒng)。除此之外還有基礎(chǔ)設(shè)施,包括供電、散熱這些很有挑戰(zhàn)的問(wèn)題。系統(tǒng)內(nèi)不同模塊之間的組合能夠?qū)崿F(xiàn)不同目標(biāo),取決于系統(tǒng)整體的權(quán)衡。
針對(duì)場(chǎng)景眾多的AI應(yīng)用,不論是系統(tǒng)本身的設(shè)計(jì),還是在系統(tǒng)的擴(kuò)展方面,一家公司單槍匹馬攻克了一個(gè)目標(biāo)之后,下一個(gè)目標(biāo)可能又要重新設(shè)計(jì)方案。從這個(gè)角度看,長(zhǎng)期快速跟進(jìn)甚至引領(lǐng)市場(chǎng)比較困難,所以需要協(xié)作,開(kāi)放AI加速的基礎(chǔ)架構(gòu),采用模塊化的思路,增強(qiáng)不同的模塊與系統(tǒng)之間的互操作性,加速相關(guān)技術(shù)的創(chuàng)新,推動(dòng)新的AI芯片快速落地。
在這一過(guò)程中,OCP定義了AI加速的基礎(chǔ)架構(gòu)規(guī)范,把相關(guān)模塊之間的邊界定義清楚,只要滿足相關(guān)接口都可以在系統(tǒng)中共存,這樣可以很好地將共性需求抽離出來(lái),將特定的需求通過(guò)模塊化的形式去滿足,能夠更好地加速相關(guān)創(chuàng)新。
當(dāng)前公布的OAM標(biāo)準(zhǔn),是由參與OCP開(kāi)放計(jì)算項(xiàng)目的百度、微軟、Facebook三家國(guó)際AI領(lǐng)先企業(yè)聯(lián)合定義,已經(jīng)得到包括Google、阿里、騰訊等互聯(lián)網(wǎng)企業(yè),英偉達(dá)、英特爾、AMD、高通、賽靈思等AI芯片企業(yè),Graphcore、Habana Labs等AI芯片及處理器初創(chuàng)企業(yè),以及IBM、浪潮等廠商的參與和支持。
關(guān)注二:邊緣計(jì)算的應(yīng)用實(shí)踐
伴隨著5G的到來(lái),邊緣計(jì)算也來(lái)了。目前看來(lái),似乎只有自動(dòng)駕駛、VR/AR等應(yīng)用場(chǎng)景提出了低延遲、高帶寬的需求,智慧城市、工業(yè)互聯(lián)網(wǎng)等提出了高帶寬、低延時(shí)以及安全方面的要求。在此基礎(chǔ)上,如何發(fā)展邊緣計(jì)算?如何滿足邊緣計(jì)算的需求?仍然不清楚。
針對(duì)邊緣計(jì)算的實(shí)踐,百度提出了“DEC”(Device、Edge、Cloud)算力部署,中國(guó)移動(dòng)認(rèn)為運(yùn)營(yíng)商提供分流管道,邊緣計(jì)算業(yè)務(wù)由行業(yè)客戶自營(yíng)。提到邊緣計(jì)算,勢(shì)必要考慮邊緣服務(wù)器的特性。它需要緊湊、可擴(kuò)展的功能,并且提供短期高溫環(huán)境。
但是,服務(wù)器的研發(fā)周期很長(zhǎng),從研發(fā)到批量供貨需要1年時(shí)間,此后還會(huì)難以避免的進(jìn)行部分升級(jí)換代,比如,主板升級(jí)、PCI-E模塊的升級(jí)等,這些升級(jí)很可能會(huì)帶來(lái)服務(wù)器主體設(shè)計(jì)的重構(gòu),很多時(shí)候不得不從頭開(kāi)始研發(fā)新一代服務(wù)器。
對(duì)邊緣服務(wù)器的看法,中國(guó)移動(dòng)主要看到三方面:業(yè)務(wù)需求、機(jī)房條件和本身的可維護(hù)性??赡茉谖磥?lái)邊緣計(jì)算的大規(guī)模部署的時(shí)候,如果確定了一個(gè)比較具體的場(chǎng)景,會(huì)有一種模塊化的交付方式,使得能夠非常快速,大批量的跟軟件一起來(lái)交付。
騰訊與浪潮研發(fā)的T-Flex2.0架構(gòu)就是為了解決上述問(wèn)題,對(duì)空間進(jìn)行有效規(guī)劃, 通過(guò)I/O池化技術(shù)(支持PCI-E交換和Gen-z兩類互聯(lián)協(xié)議)支持未來(lái)模塊化迭代和靈活組合, 服務(wù)器可以單獨(dú)升級(jí)部分模塊并不影響其他模塊,T-Fle2.0x是一個(gè)更為靈活的架構(gòu)。
從前向后,T-Flex2.0高度為2OU,分為A、B、C等3個(gè)區(qū),每個(gè)區(qū)域可以放置不同的模塊,實(shí)現(xiàn)服務(wù)器的主體功能,覆蓋各類應(yīng)用場(chǎng)景,甚至可以去掉A區(qū)或者C區(qū),減少長(zhǎng)度成為一款邊緣計(jì)算服務(wù)器。
作為OCP、Open19和ODCC全球三大開(kāi)放計(jì)算標(biāo)準(zhǔn)組織的共同成員,浪潮從貢獻(xiàn)IP,參與開(kāi)發(fā)標(biāo)準(zhǔn)到主導(dǎo)標(biāo)準(zhǔn)制定,在開(kāi)放硬件社區(qū)中的參與度越來(lái)越高,先后貢獻(xiàn)了首批基于Open19標(biāo)準(zhǔn)的服務(wù)器、第一款OCP標(biāo)準(zhǔn)基于Intel Skylake平臺(tái)的主板、第一款Olympus四路服務(wù)器。同時(shí),浪潮還參與了OCP OAM項(xiàng)目,牽頭成立了OpenRMC項(xiàng)目,開(kāi)發(fā)完成了全球第一個(gè)基于OCP標(biāo)準(zhǔn)的整機(jī)柜管理架構(gòu)。
關(guān)注三:OpenRMC項(xiàng)目,下一代數(shù)據(jù)中心的管理框架
OpenRMC是OCP社區(qū)硬件管理項(xiàng)目組下的子項(xiàng)目組,由浪潮牽頭成立。該項(xiàng)目目標(biāo)是完成OpenBMC與Redfish的融合,形成下一代數(shù)據(jù)中心管理的統(tǒng)一框架。OpenBMC是Facebook發(fā)起的開(kāi)源項(xiàng)目,希望解決閉源的BMC(Baseboard Management Controller,基板管理控制器)以及相關(guān)的軟件包標(biāo)準(zhǔn)不一的問(wèn)題,這個(gè)問(wèn)題給數(shù)據(jù)中心統(tǒng)一管理帶來(lái)了很多技術(shù)障礙。DMTF(Distributed Management Task Force,分布式管理任務(wù)組)制定了下一代服務(wù)器管理技術(shù)標(biāo)準(zhǔn)Redfish,以取代當(dāng)前IPMI 2.0,Redfish具有擴(kuò)展性好、功能豐富、針對(duì)地址不同和供應(yīng)商不同的基礎(chǔ)設(shè)施向客戶提供規(guī)范化管理接口的優(yōu)點(diǎn),能夠滿足現(xiàn)代數(shù)據(jù)中心的管理需求。
OpenRMC項(xiàng)目希望能夠解決兩個(gè)標(biāo)準(zhǔn)之間的互操作性等一系列問(wèn)題,并建立協(xié)同機(jī)制,形成規(guī)范,推進(jìn)下一代數(shù)據(jù)中心管理技術(shù)和產(chǎn)業(yè)的發(fā)展。
未來(lái),數(shù)據(jù)中心繼續(xù)充滿挑戰(zhàn),數(shù)據(jù)中心整合將繼續(xù)推進(jìn)。邊緣計(jì)算也將以更快的速度實(shí)現(xiàn)增長(zhǎng)。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
OCP
+關(guān)注
關(guān)注
0文章
80瀏覽量
16457 -
5G
+關(guān)注
關(guān)注
1355文章
48487瀏覽量
565061 -
邊緣計(jì)算
+關(guān)注
關(guān)注
22文章
3109瀏覽量
49223
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
NVIDIA加速計(jì)算如何推動(dòng)醫(yī)療健康
近日,NVIDIA 企業(yè)平臺(tái)副總裁 Bob Pette 在 AI Summit 一場(chǎng)演講中重點(diǎn)談?wù)摿?NVIDIA 加速計(jì)算如何推動(dòng)醫(yī)療健康、網(wǎng)絡(luò)安全和制造等行業(yè)實(shí)現(xiàn)轉(zhuǎn)型。他表示,
AI高性能計(jì)算平臺(tái)是什么
AI高性能計(jì)算平臺(tái)不僅是AI技術(shù)發(fā)展的基石,更是推動(dòng)AI應(yīng)用落地、
研華科技邊緣AI平臺(tái)榮獲2024年IoT邊緣計(jì)算卓越獎(jiǎng)
的 2024 年物聯(lián)網(wǎng)邊緣計(jì)算卓越獎(jiǎng)。研華提供全棧式AI應(yīng)用產(chǎn)品,以滿足從邊緣到云的工業(yè) AI 應(yīng)用的多樣化需求,致力于
邊緣計(jì)算在醫(yī)療行業(yè)的應(yīng)用
邊緣計(jì)算在醫(yī)療行業(yè)的應(yīng)用正在不斷崛起,并展現(xiàn)出巨大的潛力和價(jià)值。以下是對(duì)邊緣計(jì)算在醫(yī)療行業(yè)應(yīng)用的分析: 一、應(yīng)用背景與需求 醫(yī)療行業(yè)是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的行業(yè),數(shù)據(jù)來(lái)源廣泛,包括醫(yī)療儀器、健
邊緣計(jì)算在工業(yè)自動(dòng)化中的應(yīng)用
邊緣計(jì)算在工業(yè)自動(dòng)化中的應(yīng)用日益廣泛,它通過(guò)將數(shù)據(jù)處理和計(jì)算能力移至靠近數(shù)據(jù)源的邊緣設(shè)備,實(shí)現(xiàn)了更高效、實(shí)時(shí)的工業(yè)自動(dòng)化控制。以下是邊緣
邊緣計(jì)算的未來(lái)發(fā)展趨勢(shì)
的網(wǎng)絡(luò)環(huán)境。未來(lái),邊緣計(jì)算將與5G技術(shù)進(jìn)一步融合,推動(dòng)更多創(chuàng)新應(yīng)用的落地。 同時(shí),邊緣計(jì)算與人工
邊緣計(jì)算在智慧城市中的應(yīng)用
邊緣計(jì)算在智慧城市中的應(yīng)用非常廣泛,它為城市管理和公共服務(wù)帶來(lái)了革命性的變化。以下是對(duì)邊緣計(jì)算在智慧城市中應(yīng)用的分析: 一、智能交通管理 實(shí)時(shí)交通監(jiān)控 通過(guò)在交通路口、高速公路等關(guān)鍵位
邊緣計(jì)算架構(gòu)設(shè)計(jì)最佳實(shí)踐
邊緣計(jì)算架構(gòu)設(shè)計(jì)最佳實(shí)踐涉及多個(gè)方面,以下是一些關(guān)鍵要素和最佳實(shí)踐建議: 一、核心組件與架構(gòu)設(shè)計(jì) 邊緣設(shè)備與網(wǎng)關(guān)
邊緣計(jì)算在物聯(lián)網(wǎng)中的作用
邊緣計(jì)算在物聯(lián)網(wǎng)(IoT)中發(fā)揮著至關(guān)重要的作用,具體體現(xiàn)在以下幾個(gè)方面: 一、實(shí)時(shí)數(shù)據(jù)處理與分析 邊緣計(jì)算能夠在網(wǎng)絡(luò)邊緣即靠近數(shù)據(jù)源的地方
安富利Edgeboard AI Box解決方案推動(dòng)邊緣智能落地
全球數(shù)字化、智能化進(jìn)程地不斷加速,正在促使計(jì)算架構(gòu)向邊緣端下沉。與此同時(shí),AI作為推動(dòng)一切智能化的核心引擎,與
Imagination 引領(lǐng)邊緣計(jì)算和AI創(chuàng)新,擁抱AI未來(lái)發(fā)展
6月25日,2024“N+”AI互動(dòng)創(chuàng)新論壇在南京舉辦,Imagination中國(guó)資深副總裁張曉波受邀出席。在主題演講中,張曉波表示,Imagination作為圖形、計(jì)算和邊緣人工智能
ai邊緣盒子有哪些用途?ai視頻分析邊緣計(jì)算盒子詳解
近年來(lái),隨著人工智能和邊緣計(jì)算的發(fā)展,一種名為AI邊緣盒子的新型設(shè)備正逐漸引起廣泛關(guān)注。作為一種集成了邊緣
英特爾發(fā)布全新邊緣計(jì)算平臺(tái),解決AI邊緣落地難題
2030年,至少一半的邊緣計(jì)算部署將納入AI。 ? 英特爾全新商用邊緣計(jì)算平臺(tái) ? 英特爾認(rèn)為,我們已經(jīng)進(jìn)入了
什么是AI邊緣計(jì)算,AI邊緣計(jì)算的特點(diǎn)和優(yōu)勢(shì)介紹
隨著人工智能的迅猛發(fā)展,AI邊緣計(jì)算成為了熱門(mén)話題。那么什么是AI邊緣計(jì)算呢?簡(jiǎn)單來(lái)說(shuō),它是將人
邊緣計(jì)算的應(yīng)用場(chǎng)景介紹(邊緣計(jì)算在哪些領(lǐng)域能得到應(yīng)用)
邊緣計(jì)算是世界上的一項(xiàng)備受關(guān)注的新興技術(shù),并且在近年來(lái)迅速崛起得到了很多應(yīng)用。邊緣計(jì)算是什么?就是通過(guò)將計(jì)算和存儲(chǔ)功能從云端轉(zhuǎn)移到網(wǎng)絡(luò)
評(píng)論