導(dǎo)讀:沒(méi)有足夠的高性能GPU數(shù)量,或者性能欠佳,都將造成AI推理和模型訓(xùn)練的準(zhǔn)確度不足,即使有類(lèi)似的對(duì)話機(jī)器人, 它的“智商”也會(huì)遠(yuǎn)低于ChatGPT
國(guó)內(nèi)云廠商高性能GPU芯片的短缺,正在成為限制生成式AI在中國(guó)誕生的最直接因素。
2022年12月,微軟投資的AI創(chuàng)業(yè)公司OpenAI推出了聊天機(jī)器人ChatGPT。這是生成式人工智能在文本領(lǐng)域的實(shí)際應(yīng)用。所謂生成式AI,是指依靠AI大模型和AI算力訓(xùn)練來(lái)生成內(nèi)容。ChatGPT的本質(zhì)是OpenAI自主研發(fā)的GPT-3.5語(yǔ)言大模型。大型模型包含近 1800 億個(gè)參數(shù)。
微軟的 Azure 云服務(wù)為 ChatGPT 構(gòu)建了超過(guò) 10,000 個(gè) Nvidia A100 GPU 芯片的 AI 計(jì)算集群。
美國(guó)市場(chǎng)研究公司TrendForce在3月1日的一份報(bào)告中計(jì)算得出,要處理1800億參數(shù)的GPT-3.5大型模型,需要的GPU芯片數(shù)量高達(dá)2萬(wàn)顆。未來(lái)GPT大模型商業(yè)化所需的GPU芯片數(shù)量甚至?xí)^(guò)3萬(wàn)顆。此前在 2022 年 11 月,英偉達(dá)在其官網(wǎng)的公告中提到,數(shù)萬(wàn)顆 A100/H100 高性能芯片部署在微軟 Azure 上。這是第一個(gè)使用 NVIDIA 高端 GPU 構(gòu)建的大規(guī)模 AI 計(jì)算集群。
鑒于英偉達(dá)在高性能GPU方面的技術(shù)領(lǐng)先地位,國(guó)內(nèi)云計(jì)算專(zhuān)業(yè)人士普遍認(rèn)為,10000顆英偉達(dá)A100芯片是一個(gè)好的AI模型的算力門(mén)檻。
目前國(guó)內(nèi)云廠商擁有的GPU主要是英偉達(dá)的中低端性能產(chǎn)品(如英偉達(dá)A10)。擁有超過(guò) 10,000 個(gè) GPU 的公司不超過(guò) 5 家,而擁有 10,000 個(gè) Nvidia A100 芯片的公司最多只有一家。也就是說(shuō),單從算力來(lái)看,短期內(nèi)能夠部署ChatGPT的國(guó)內(nèi)玩家非常有限。
聊天GPT看似只是一個(gè)聊天機(jī)器人,但這卻是微軟AI算力、AI大模型和生成AI在云計(jì)算的實(shí)力展示。在企業(yè)市場(chǎng),這是云計(jì)算新一輪的增長(zhǎng)點(diǎn)。Microsoft Azure ML(深度學(xué)習(xí)服務(wù))擁有 200 多家客戶(hù),其中包括制藥公司拜耳和審計(jì)公司畢馬威。Azure ML 連續(xù)四個(gè)季度收入增長(zhǎng)超過(guò) 100%。這是微軟云三大業(yè)務(wù)中增長(zhǎng)最快的板塊,即云、軟件、AI。
今年2月,包括阿里巴巴和百度在內(nèi)的中國(guó)企業(yè)宣布將開(kāi)發(fā)類(lèi)似ChatGPT的產(chǎn)品,或?qū)⑼顿Y研發(fā)生成式人工智能。在國(guó)內(nèi),AI算力、AI大模型、生成式AI被認(rèn)為只有云廠商才有資格。華為、阿里、騰訊、字節(jié)跳動(dòng)、百度都有云業(yè)務(wù),理論上都有跑通AI算力、AI大模型、生成AI應(yīng)用的能力。
但是有能力不代表可以跑到終點(diǎn)線。這需要長(zhǎng)期的高成本投資。GPU芯片的價(jià)格是公開(kāi)的,算力成本也很容易衡量。大型模型需要數(shù)據(jù)收集、手動(dòng)標(biāo)記和模型訓(xùn)練。這些軟成本很難簡(jiǎn)單計(jì)算。生成式人工智能的投資規(guī)模通常高達(dá)數(shù)百億。
多位云計(jì)算廠商和服務(wù)器廠商的技術(shù)人員表示,高性能GPU芯片短缺,硬件采購(gòu)成本和運(yùn)營(yíng)成本高,國(guó)內(nèi)市場(chǎng)短期商用困難。這三個(gè)問(wèn)題才是真正的挑戰(zhàn)。在他們看來(lái),有資本儲(chǔ)備、戰(zhàn)略意愿和實(shí)踐能力的公司不會(huì)超過(guò)3家。
GPU芯片數(shù)量決定了“智商”
決定AI大模型“智商”的核心因素有三個(gè),計(jì)算能力的規(guī)模、算法模型的復(fù)雜程度、數(shù)據(jù)的質(zhì)量和數(shù)量。
AI大模型的推理和訓(xùn)練高度依賴(lài)英偉達(dá)的GPU芯片。缺少芯片會(huì)導(dǎo)致算力不足。計(jì)算能力不足意味著無(wú)法處理龐大的模型和數(shù)據(jù)量。最終的結(jié)果是AI應(yīng)用存在智商差距。
3月5日,十四屆全國(guó)人大一次會(huì)議開(kāi)幕式后,科技部部長(zhǎng)王志剛在全國(guó)兩會(huì)“部長(zhǎng)通道”在接受媒體采訪時(shí)表示,ChatGPT作為大模型,將大數(shù)據(jù)、大算力、強(qiáng)算法有效結(jié)合。其計(jì)算方法有所改進(jìn),特別是在保證算法的實(shí)時(shí)性和算法質(zhì)量的有效性方面?!熬拖癜l(fā)動(dòng)機(jī)一樣,每個(gè)人都可以造發(fā)動(dòng)機(jī),只是質(zhì)量不一樣。踢球就是運(yùn)球和射門(mén),但要做到像梅西那么好并不容易?!?/p>
Nvidia是全球知名的半導(dǎo)體廠商,占據(jù)了數(shù)據(jù)中心GPU市場(chǎng)90%以上的份額。英偉達(dá)A100芯片在2020年推出,致力于自動(dòng)駕駛、高端制造、醫(yī)療醫(yī)藥行業(yè)等AI推理或訓(xùn)練場(chǎng)景。2022年,英偉達(dá)推出了性能更強(qiáng)的新一代產(chǎn)品——H100。A100/H100是目前最強(qiáng)大的數(shù)據(jù)中心專(zhuān)用GPU,市場(chǎng)上幾乎沒(méi)有可擴(kuò)展的替代品。包括特斯拉、Facebook在內(nèi)的企業(yè)已經(jīng)使用A100芯片搭建AI計(jì)算集群,采購(gòu)規(guī)模超過(guò)7000顆。
多位云計(jì)算技術(shù)人員告訴記者,運(yùn)行ChatGPT至少需要1萬(wàn)顆英偉達(dá)A100芯片。但是,擁有超過(guò)10,000顆GPU芯片的公司不超過(guò)5家。其中,最多只有一家公司擁有 10,000 個(gè) Nvidia A100 GPU。
另一位大型服務(wù)器廠商人士表示,即使樂(lè)觀估計(jì),GPU儲(chǔ)備最大的公司也不超過(guò)5萬(wàn)片,并以來(lái)自英偉達(dá)的中低端數(shù)據(jù)中心芯片(如英偉達(dá)A10) ) 為主。這些GPU芯片分散在不同的數(shù)據(jù)中心,一個(gè)數(shù)據(jù)中心通常只配備數(shù)千顆GPU芯片。
此外,由于去年8月美國(guó)政府開(kāi)始實(shí)施貿(mào)易限制,中國(guó)企業(yè)長(zhǎng)期無(wú)法獲得NVIDIA A100芯片。現(xiàn)有A100芯片儲(chǔ)備全部為存貨,剩余使用壽命約4-6年。
2022年8月31日,英偉達(dá)和AMD兩家半導(dǎo)體公司生產(chǎn)的GPU產(chǎn)品被美國(guó)納入限制范圍。Nvidia 的受限產(chǎn)品包括 A100 和 H100,AMD受監(jiān)管的 GPU 產(chǎn)品包括 MI250。根據(jù)美國(guó)政府的要求,未來(lái)峰值性能等于或超過(guò)A100的GPU產(chǎn)品也被限制銷(xiāo)售。
中國(guó)企業(yè)目前可以獲得的最佳替代品是英偉達(dá)的A800芯片。A800被認(rèn)為是A100的“閹割版”。2022年8月,在A100被禁止在中國(guó)市場(chǎng)銷(xiāo)售后,英偉達(dá)在當(dāng)年第三季度推出了專(zhuān)供中國(guó)市場(chǎng)使用的A800芯片。這款產(chǎn)品的計(jì)算性能與A100基本持平,但數(shù)據(jù)傳輸速度降低了30%。這會(huì)直接影響AI集群的訓(xùn)練速度和效果。
不過(guò)目前A800芯片在中國(guó)市場(chǎng)嚴(yán)重缺貨。雖然是A100的“閹割版”,但A800在京東官網(wǎng)的售價(jià)卻超過(guò)了8萬(wàn)元/件,甚至超過(guò)了A100的官方售價(jià)(1萬(wàn)美元/件)。即便如此,A800在京東官網(wǎng)依然處于斷貨狀態(tài)。
一位云廠商人士告訴記者,A800的實(shí)際售價(jià)甚至高于10萬(wàn)元/片,而且價(jià)格還在上漲。A800目前在浪潮、新華三等國(guó)內(nèi)服務(wù)器廠商手中屬于稀缺產(chǎn)品,一次只能采購(gòu)數(shù)百枚。
GPU 數(shù)量或性能不足直接導(dǎo)致 AI 推理和模型訓(xùn)練的準(zhǔn)確性不足。其結(jié)致使中國(guó)企業(yè)做出類(lèi)似的對(duì)話機(jī)器人,機(jī)器人的“智商”也會(huì)遠(yuǎn)低于ChatGPT。國(guó)內(nèi)云廠商高性能GPU芯片的短缺,正成為限制中國(guó)版ChatGPT誕生的最直接因素。
成本高企
AI算力和大模型是比云還燒錢(qián)的吞金猛獸。
即使有足夠的高性能GPU,中國(guó)云廠商也將面臨高昂的硬件采購(gòu)成本、模型訓(xùn)練成本和日常運(yùn)營(yíng)成本。面對(duì)以上成本,有資本儲(chǔ)備、戰(zhàn)略選擇和實(shí)際能力的企業(yè)不超過(guò)3家。
OpenAI 可以做 ChatGPT,背后微軟提供資金和算力。2019 年,微軟向 OpenAI 投資了 10 億美元。2021年,微軟又進(jìn)行一輪新投資,金額不詳。今年 1 月,微軟宣布未來(lái)幾年將向 OpenAI 投資 100 億美元。
對(duì)于云廠商來(lái)說(shuō),AI算力和大模型需要面臨高昂的硬件采購(gòu)成本、模型訓(xùn)練成本和日常運(yùn)營(yíng)成本。
一是硬件采購(gòu)成本和智能計(jì)算集群建設(shè)成本。如果以10000顆英偉達(dá)A800 GPU為標(biāo)配打造智能算力集群,以10萬(wàn)元/顆的價(jià)格計(jì)算,光是GPU的采購(gòu)成本就高達(dá)10億元。一臺(tái)服務(wù)器通常需要4-8顆GPU,一臺(tái)搭載A800的服務(wù)器成本超過(guò)40萬(wàn)元。國(guó)產(chǎn)服務(wù)器均價(jià)在4萬(wàn)-5萬(wàn)元。GPU服務(wù)器的成本是普通服務(wù)器的10倍以上。服務(wù)器采購(gòu)成本通常占數(shù)據(jù)中心建設(shè)成本的30%,一個(gè)智能計(jì)算集群的建設(shè)成本超過(guò)30億元。
第二,模型訓(xùn)練的成本。如果算法模型要足夠準(zhǔn)確,則需要進(jìn)行多輪算法模型訓(xùn)練。一家外資云廠商的資深技術(shù)人員告訴記者,ChatGPT一個(gè)完整的模型訓(xùn)練成本超過(guò)1200萬(wàn)美元(約合人民幣8000萬(wàn)元)。如果進(jìn)行10次完整的模型訓(xùn)練,成本將高達(dá)8億元。GPU芯片的價(jià)格是公開(kāi)的,算力成本相對(duì)容易衡量。但是,大型AI模型還需要進(jìn)行數(shù)據(jù)采集、人工標(biāo)注、模型訓(xùn)練等一系列工作。這些軟成本很難簡(jiǎn)單計(jì)算。具有不同效果的模型具有不同的最終成本。
第三,日常運(yùn)營(yíng)成本。數(shù)據(jù)中心的模型訓(xùn)練會(huì)消耗網(wǎng)絡(luò)帶寬和電力資源。此外,模型訓(xùn)練還需要算法工程師負(fù)責(zé)調(diào)優(yōu)。上述成本也以數(shù)十億美元計(jì)算。
也就是說(shuō),進(jìn)入AI算力和AI規(guī)模化賽道,前期的硬件采購(gòu)和集群建設(shè)成本高達(dá)數(shù)十億元。后期的模型訓(xùn)練、日常運(yùn)營(yíng)、產(chǎn)品研發(fā)等成本也高達(dá)數(shù)十億元。某管理咨詢(xún)公司的技術(shù)戰(zhàn)略合作伙伴告訴記者,生成人工智能的投資規(guī)模高達(dá)百億。
微軟大規(guī)模采購(gòu)GPU構(gòu)建智能計(jì)算集群,在業(yè)務(wù)邏輯上是可行的。2022年,微軟在云計(jì)算基礎(chǔ)設(shè)施上的支出超過(guò)250億美元。當(dāng)年微軟的營(yíng)業(yè)利潤(rùn)達(dá)到828億美元,而微軟的云營(yíng)業(yè)利潤(rùn)超過(guò)400億美元。微軟的云盈利超過(guò)支出,在AI算力和大規(guī)模模型業(yè)務(wù)上的大規(guī)模投入與微軟的財(cái)務(wù)狀況相匹配。
微軟AI計(jì)算有產(chǎn)品、有客戶(hù)、有收入,形成新的增長(zhǎng)點(diǎn)。微軟客戶(hù)通常會(huì)在云上租用數(shù)千個(gè)高性能 GPU 進(jìn)行語(yǔ)言模型學(xué)習(xí),以此使用他們自己的生成 AI。
微軟擁有 Azure ML 和 OpenAI。Azure ML 有 200 多家客戶(hù),包括制藥公司拜耳和審計(jì)公司畢馬威。Azure ML 連續(xù)四個(gè)季度收入增長(zhǎng)超過(guò) 100%。微軟云甚至形成了“云-企業(yè)軟件-AI計(jì)算”三個(gè)旋轉(zhuǎn)的增長(zhǎng)曲線。其中,公有云Azure營(yíng)收增速約為30%-40%,軟件業(yè)務(wù)營(yíng)收增速約為50%-60%,AI算力營(yíng)收增速超過(guò)100%。
中國(guó)企業(yè)對(duì)云基礎(chǔ)設(shè)施的資本支出有限,投資智能計(jì)算集群和AI大模型需要分流有限的預(yù)算支出。更大的挑戰(zhàn)不僅是中短期內(nèi)無(wú)法盈利,還會(huì)虧損更多。
科技公司的資本支出通常用于購(gòu)買(mǎi)服務(wù)器、建設(shè)數(shù)據(jù)中心、購(gòu)買(mǎi)園區(qū)用地等固定資產(chǎn)。以亞馬遜為例,2022年的資本支出為580億美元,其中超過(guò)50%用于投資云基礎(chǔ)設(shè)施。阿里、騰訊、百度最近一個(gè)財(cái)年的資本支出情況,發(fā)現(xiàn)3家公司的數(shù)據(jù)分別為533億元、622億元、112億元。
三家公司均未披露投資云基礎(chǔ)設(shè)施的資本支出。假設(shè)這3家公司和亞馬遜一樣,50%的資本支出用于投資云基礎(chǔ)設(shè)施,數(shù)據(jù)分別為266億元、311億元、56億元。資本支出充裕的公司投資數(shù)十億美元能負(fù)擔(dān)得起,但對(duì)于資本支出不足的企業(yè)來(lái)說(shuō)是一種負(fù)擔(dān)。
國(guó)內(nèi)已經(jīng)宣布建設(shè)智能計(jì)算集群的企業(yè)有阿里云、華為、百度等,但智能計(jì)算集群的GPU芯片數(shù)量未知。2022年,各大云廠商都把增加毛利、減少虧損作為戰(zhàn)略重點(diǎn)?,F(xiàn)階段購(gòu)買(mǎi)高性能GPU和構(gòu)建智能計(jì)算集群需要巨大的投資。不僅會(huì)加重?fù)p失,還需要依靠群體輸血。這考驗(yàn)企業(yè)管理層的戰(zhàn)略意志。
大模型高昂,先做小模型
華為、阿里、騰訊、字節(jié)跳動(dòng)、百度都有云服務(wù),理論上有中國(guó)版ChatGPT的實(shí)力。
云計(jì)算業(yè)內(nèi)人士指出,幾家有能力的公司也會(huì)有實(shí)際的戰(zhàn)略考慮。比如騰訊、百度、字節(jié)跳動(dòng)有云,數(shù)據(jù)量也很大,但云業(yè)務(wù)虧損,長(zhǎng)期資金儲(chǔ)備和戰(zhàn)略意志存疑。華為依靠自研升騰芯片建立了大模型技術(shù),但受“斷供”影響,無(wú)法獲得英偉達(dá)的GPU芯片,作為硬件廠商,缺乏互聯(lián)網(wǎng)公司的數(shù)據(jù)積累。
由于以上限制,目前能夠?qū)崿F(xiàn)AI大模型商業(yè)化的公司寥寥無(wú)幾。到最后,同時(shí)具備資本儲(chǔ)備、戰(zhàn)略意志和實(shí)踐能力的企業(yè)將屈指可數(shù)。
目前,沒(méi)有一家中國(guó)云廠商像微軟那樣擁有數(shù)萬(wàn)顆A100/H100芯片。目前中國(guó)云廠商的高性能GPU算力不足。更務(wù)實(shí)的觀點(diǎn)是,即使中國(guó)云廠商真的獲得了10000顆NVIDIA高性能GPU,也不應(yīng)該簡(jiǎn)單地投入中國(guó)版ChatGPT這一熱門(mén)應(yīng)用場(chǎng)景。
在算力資源緊缺的情況下,可以?xún)?yōu)先投資行業(yè)市場(chǎng),為企業(yè)客戶(hù)提供服務(wù)。一位管理咨詢(xún)公司的技術(shù)戰(zhàn)略合作伙伴認(rèn)為,ChatGPT只是一個(gè)對(duì)話機(jī)器人,商業(yè)應(yīng)用場(chǎng)景的展示暫時(shí)有限。用戶(hù)規(guī)模越大,成本越高,損失越大。如何在細(xì)分領(lǐng)域?qū)I算力和大模型商業(yè)化,是獲得正現(xiàn)金流的關(guān)鍵。
中國(guó)市場(chǎng)AI算力規(guī)?;虡I(yè)模式仍處于起步階段。目前,國(guó)內(nèi)已有少量自動(dòng)駕駛、金融等領(lǐng)域客戶(hù)開(kāi)始使用AI算力。例如,小鵬汽車(chē)目前使用阿里云的智能計(jì)算中心進(jìn)行自動(dòng)駕駛模型訓(xùn)練。
一位數(shù)據(jù)中心產(chǎn)品經(jīng)理認(rèn)為,國(guó)內(nèi)銀行金融客戶(hù)在反欺詐中大量使用模型訓(xùn)練技術(shù),通常只需要租用數(shù)百個(gè)性能較低的GPU訓(xùn)練模型即可。也是AI計(jì)算和模型訓(xùn)練,是一種成本更低的方案。事實(shí)上,通用的大規(guī)模模型并不能解決特定行業(yè)的問(wèn)題,金融、汽車(chē)、消費(fèi)等各個(gè)領(lǐng)域都需要行業(yè)模型。
中國(guó)沒(méi)有足夠的高性能 GPU 來(lái)進(jìn)行大規(guī)模 AI 模型訓(xùn)練,所以可以先在細(xì)分領(lǐng)域做小模型。人工智能技術(shù)的飛速發(fā)展已經(jīng)超出了人們的認(rèn)知。對(duì)于中國(guó)企業(yè)來(lái)說(shuō),根本之道還是要堅(jiān)持持續(xù)布局從而達(dá)成戰(zhàn)略性發(fā)力。
審核編輯 :李倩
-
芯片
+關(guān)注
關(guān)注
455文章
50817瀏覽量
423676 -
云計(jì)算
+關(guān)注
關(guān)注
39文章
7808瀏覽量
137412 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1561瀏覽量
7674
原文標(biāo)題:ChatGPT算力成本巨大,成為云廠商的一大門(mén)檻,大廠如何選擇
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論