在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

卡都去哪了?AI超算成了GPU的無底黑洞

E4Life ? 來源:電子發燒友 ? 作者:周凱揚 ? 2024-06-26 09:03 ? 次閱讀

電子發燒友網報道(文/周凱揚)AI大模型似乎陷入了一個怪圈,盡管對于深度學習、數據優化和爆款應用的研究從來沒有終止,但大多數人開口問的第一句話就是,“你有卡嗎”?從行業對GPU的狂熱追求來看,未來繼續擴展大模型的機會,似乎只會被大公司掌握在手中。

xAI拉攏戴爾和超微打造AI超算,馬斯克繼續買買買

xAI作為2023年3月才成立的一家初創公司,在構建算力基礎設施的投入上卻一點也不含糊,不過這也多虧了背后的金主埃隆馬斯克。近日,戴爾CEO Michael Dell宣布他們正在打造一個由英偉達GPU驅動的AI工廠,為xAI的Grok模型提供動力。不過馬斯克隨即表示,戴爾只是其中一半服務器集群的供應商,另外一半的超算系統則是由超微打造。

由此推測,這一AI工廠應該就是馬斯克在月初提到的10萬塊H100液冷訓練集群了,盡管有兩家供應商同時為xAI打造服務器,但市面上的GPU需求依然維持在高位,還需要幾個月這一集群才會正式上線,用于Grok的下一代大模型迭代。

H100這張2023年發布的GPU可以說是目前全球大模型算力供應的主力,無論是OpenAI還是xAI,其最新模型都是基于該GPU訓練迭代的。H100無論是顯存容量、帶寬和算力性能都實現了一輪新的突破,甚至可以說H100帶動了這一代AI大模型的發展,然而在GTC之后,馬斯克已經開始眼饞最新的B200了。他認為考慮到目前的技術演進速度,實在不值得把1GW的電力供應給H100。

為此xAI也已經開始在規劃下一代系統,據馬斯克透露,該系統將由30萬塊B200 GPU組成,但上線時間需要等到明年夏天了。B200速度高達H100的4倍,更是可以輕松做到單機柜1exaflop的算力表現,更何況在能耗成本上,B200相比H100改善了20多倍,即便是大規模部署,也不會讓廠商面臨供電和碳足跡的雙重困擾。

盡管xAI的AI超算目標已經明確,但對于馬斯克旗下的另一家公司特斯拉而言,其技術路線依舊不算明朗。雖然特斯拉也開啟了新一輪的英偉達GPU采購潮,但其內部也在繼續發展自研的Dojo超算。只不過近年來Dojo的情報越來越少,就連馬斯克自己也將其列入“遠景計劃”之列。

OpenAI與微軟,“鯨級”超算已在全速運轉中

相信不少人都還記得去年11月首度上榜TOP500的微軟超算Eagle,這臺空降第三的AI超算憑借14400個英偉達H100和561PFlop/s的算力,不僅讓Azure系統再次闖進了前十,還拿下了當下云端超算最高的排名。而當時的Azure還未部署完成,雖然最新的排名中Eagle依然維持在第三的位置,但其核心數已經近乎翻倍。

這臺超算為OpenAI的GPT-4訓練和推理提供了極大的助力,但這遠沒有達到微軟的財力極限。早在3月底,就有消息傳出微軟和OpenAI正在打造一個代號名為“星門”的AI超算,耗資高達1000億美元。微軟CTO Kevin Scott稱不少有關其超算計劃的推測簡直錯得可笑,但也指出他們確實會為這一計劃付出不少努力和成本。

在上個月舉辦的Microsoft Build中,Kevin Scott公開透露了他們未來的超算擴展計劃。2020年,微軟為OpenAI打造了第一臺AI超算,正是因為這臺機器才孕育了GPT-3。而他們構建的下一個系統,也就是Eagle,則用于訓練GPT-4。Kevin Scott選擇了用海洋生物來描述這些超算的規模,比如首臺超算可以用鯊魚來描述,Eagle則是虎鯨,而他們的下一臺超算規模則可以比擬藍鯨。

Kevin Scott更是強調,別看現在Eagle可以排到第三名的位置,從現在開始微軟每個月都會部署五臺同樣規模的超算,也就是說每月都有至少搭載72000個H100 GPU或同等規模系統投入應用,每月帶來2.8exaflops的算力增長。同時,他們用來連接GPU的高速和InfiniBand線纜可以繞地球至少五周,也就是說長度在20萬公里以上總線纜長度。

很明顯,作為已經憑借OpenAI獲得成功的微軟來說,接下來需要贏下的就是這場Scaling之戰。

TPU和GPU并用,谷歌的Hypercomputer

盡管不少巨頭都在考慮如何自研芯片來降低購置海量GPU帶來的成本,但真的成功將其用于大模型的訓練中去的,已經迭代至第六代的谷歌TPU,恰好就為谷歌解決了這個問題。TPU作為谷歌和博通聯合設計了幾代的產品,在谷歌自己推出的各種新模型訓練與推理中,重要性已經等同于英偉達的GPU了。

谷歌本身作為在AI算法和大模型上耕耘了諸多時間的巨頭,從設計芯片之初就知道他們需要何種計算資源,正因如此,TPU幾乎將所有的面積都分給了低精度的張量計算單元。這種ASIC方案也讓谷歌大幅降低了打造AI Hypercomputer的成本。

但谷歌作為云服務廠商巨頭還是逃不開通用性的問題,谷歌的TPU更多是為Gemini的模型做了優化,盡管TPU支持PyTorch、Tensorflow等常見AI模型,但在追求極致性能的選擇上,還是難以媲美GPU。正因如此,在谷歌和其他大模型開發者的眼中,TPU固然性能不弱,但更像是一個性價比之選。用于已經成功商業化模型的降本增效屬于不錯的選擇,但如果想要在這個競爭激烈的大模型市場殺出重圍,那就只有谷歌能將TPU物盡其用。

在不少AI芯片廠商的宣傳中,為了抬高自己的專用產品定位,將英偉達的GPU還是定性為圖形處理單元。可在H100這種規模的GPU上,無論是性能和能效,也毫不輸某些專用開發環境下的ASIC,至于未來更復雜的圖形處理,英偉達也推出了L4 GPU這樣的對應方案。

在今年GTC上,谷歌的云服務部門也宣布和英偉達達成深度合作關系,通過英偉達的H100和L4 GPU支持使用其云服務的AI開發者。同時谷歌也將購置GB200 NVL72系統,基于谷歌云的A3實例為開發者提供DGX Cloud的云端LLM托管方案,這也是對現有H100機器的升級。除此之外,就連谷歌自己的JAX框架,也在雙方的合作之下,在英偉達的GPU上得到了支持。可以看出,谷歌還是采取兩手抓的策略,TPU和GPU一并重要。

全力追逐Scaling Laws的大廠們

對于AI大模型而言,模型大小、數據集大小和計算成本之間不僅組成了三元關系,也代表了模型性能。而Scaling Laws這一擴展法則定義了三者之間勢必會存在某種比例擴展,只不過如今看來,其邊際效應已經變得越來越大。以GPT為例,如果GPT-6繼續按照這樣的比例擴展下去,且不說性能提升有限,即便微軟這樣的商業巨頭也很難撐起成本的劇增。

可就是這樣微不可察的差距,甚至對于AI大模型的常見應用聊天機器人來說只是速度和精度上的一些差距,卻決定了他們在之后的十幾年里能否繼續制霸下去。微軟作為已經在操作系統上實現霸權地位的廠商,自然也明白先入為主的重要性。

在邊際效應的影響下,即便后入局的巨頭,也有不少迎頭趕上的機會,比如近期傳出正在秘密研發Metis聊天機器人的亞馬遜。亞馬遜同樣擁有自研服務器芯片的技術積累,但主要優勢還是在CPU上,AI加速器相關的產品(Inferentia和Trainium)依舊有比較大的改進空間,而且與亞馬遜自己的業務還沒有緊密結合起來。如果亞馬遜愿意去打造這樣一個聊天機器人應用,很有可能后續也會加強在GPU上的投入,而不再緊緊作為云托管方案。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4742

    瀏覽量

    128980
  • AI
    AI
    +關注

    關注

    87

    文章

    30979

    瀏覽量

    269253
收藏 人收藏

    評論

    相關推薦

    AIGPU開始騰飛,背后是電源管理的持續支持

    AI PC元年。 ? 不僅是AI PC,還包括AI服務器、AI手機、AI汽車等,眾多AI實際應
    的頭像 發表于 03-30 00:12 ?4626次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算</b>力<b class='flag-5'>GPU</b>開始騰飛,背后是電源管理的持續支持

    小米加速布局AI大模型,搭建GPU集群

    近日,有消息稱小米正在緊鑼密鼓地搭建自己的GPU集群,旨在加大對AI大模型的投入力度。據悉,小米的大模型團隊在成立之初就已經擁有6500張GP
    的頭像 發表于 12-28 14:25 ?180次閱讀

    力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    在數據挖掘工作中,我經常需要處理海量數據的深度學習任務,這讓我對GPU架構和張量運算充滿好奇。閱讀《力芯片》第7-9章,讓我對這些關鍵技術有全新認識。 GPU架構從早期的固定功能流
    發表于 11-24 17:12

    一文梳理:如何構建并優化GPU力中心?

    目前最常見的AI力中心部署的GPU集群大小為 2048、1024、512 和 256,且部署成本隨 GPU 數量線性增長。本文將以相對折中的1024
    的頭像 發表于 11-15 11:59 ?367次閱讀
    一文梳理:如何構建并優化<b class='flag-5'>GPU</b>云<b class='flag-5'>算</b>力中心?

    GPU力開發平臺是什么

    隨著AI技術的廣泛應用,力需求呈現出爆發式增長。AI力租賃作為一種新興的服務模式,正逐漸成為企業獲取力資源的重要途徑。
    的頭像 發表于 10-31 10:31 ?190次閱讀

    【一文看懂】大白話解釋“GPUGPU力”

    隨著大模型的興起,“GPU力”這個詞正頻繁出現在人工智能、游戲、圖形設計等工作場景中,什么是GPU,它與CPU的區別是什么?以及到底什么是GPU
    的頭像 發表于 10-29 08:05 ?701次閱讀
    【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b><b class='flag-5'>算</b>力”

    【「力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    GPU、NPU,給我們剖析力芯片的微架構。書中有對芯片方案商處理器的講解,理論聯系實際,使讀者能更好理解力芯片。 全書共11章,由淺入深,較系統全面進行講解。下面目錄對全書
    發表于 10-15 22:08

    名單公布!【書籍評測活動NO.43】 力芯片 | 高性能 CPU/GPU/NPU 微架構分析

    這個想法被否決,因為投入較大、難以落地,且客戶對力的認同遠不及今天這種高度。 這幾年間其實我們聯系甚少,但是作者一直沒有脫離對芯片的應用和關注。特別是目睹GPU從消費電子轉向力芯
    發表于 09-02 10:09

    力服務器為什么選擇GPU

    隨著人工智能技術的快速普及,力需求日益增長。智中心的服務器作為支撐大規模數據處理和計算的核心設備,其性能優化顯得尤為關鍵。而GPU服務器也進入了大眾的視野,成為高性能計算的首選。那么,為什么
    的頭像 發表于 07-25 08:28 ?649次閱讀
    <b class='flag-5'>算</b>力服務器為什么選擇<b class='flag-5'>GPU</b>

    摩爾線程與師者AI攜手完成70億參數教育AI大模型訓練測試

    近日,國內知名的GPU制造商摩爾線程與全學科教育AI大模型“師者AI”聯合宣布,雙方已成功完成了一項重要的大模型訓練測試。此次測試依托摩爾線程夸娥(KUAE)千
    的頭像 發表于 06-14 16:31 ?597次閱讀

    集群解決大模型訓力需求,建設面臨哪些挑戰

    解決大模型訓練對力需求的巨大增長問題,尤其是現在模型參數量從百億級、千億級邁向萬億級。 ? 國內外企業積極構建萬集群 ? 目前,在國際上,包括微軟、Google、Meta等AI領域的巨頭,都已落子
    的頭像 發表于 06-02 06:18 ?4764次閱讀
    萬<b class='flag-5'>卡</b>集群解決大模型訓<b class='flag-5'>算</b>力需求,建設面臨哪些挑戰

    科學計算的下一輪創新,AI與數字孿生

    應用的行列中來。 ? AI 與數字孿生 ? 在過去通用計算負載的時代,我們難以采用更大規模的計算集群來打造數字孿生。可隨著AI技術,尤其是生成式
    的頭像 發表于 05-07 00:16 ?2012次閱讀
    科學計算的下一輪創新,<b class='flag-5'>AI</b><b class='flag-5'>超</b><b class='flag-5'>算</b>與數字孿生

    “捷智”正式入駐國家互聯網平臺

    ABSTRACT摘要2024年4月2日,本公司旗下力服務品牌“捷智”正式入駐國家互聯網平臺,開設云gpu旗艦店。我們將借助國家
    的頭像 發表于 04-12 08:26 ?598次閱讀
    “捷智<b class='flag-5'>算</b>”正式入駐國家<b class='flag-5'>超</b><b class='flag-5'>算</b>互聯網平臺

    千億美元打造一個系統,成本越來越高的AI

    電子發燒友網報道(文/周凱揚)從近年來新發布的算機器和新的HPC AI性能榜單可以看出,AI力已經在
    的頭像 發表于 04-09 00:19 ?3065次閱讀

    gpu服務器評測

    GPU服務器進行評測。 一、GPU服務器概述 GPU服務器是一種基于微服務器平臺與
    的頭像 發表于 01-10 10:37 ?1409次閱讀
    主站蜘蛛池模板: 在线最新版www资源网| 国产视频分类| 1024免费永久福利视频| 高清一级做a爱视频免费| 国产精品热久久毛片| 欧美一级高清免费播放| 亚洲特级aaaaaa毛片| 很黄的网站在线观看| 国产yw855.c免费视频| 亚洲激情网站| xxxx人成高清免费图片| 一区二区三区四区无限乱码在线观看| 中文字幕一区二区在线观看| 在线观看免费午夜大片| 免费理论片在线观看播放| 夜夜夜夜曰天天天天拍国产| 国模精品| 美女教师一级毛片| 日本三级网址| 色综合久久久高清综合久久久 | 国产国产人免费人成免费视频| 99精品国产高清自在线看超| 国产片一级特黄aa的大片| hs网站免费| 大尺度在线| 国产精品五月天| 午夜100| 久久久久国产精品免费免费| 色婷婷狠狠干| 天天澡天天摸天天爽免费| 又大又粗又爽黄毛片| 日日操天天射| 欧美系列在线观看| a欧美视频| 日本色图网站| www.亚洲天堂.com| 国产亚洲papapa| 嘿嘿嘿视频在线观看| 在线免费日韩| 亚洲+国产+图片| 嫩草影院国产|