在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發燒友網 ? 作者:周凱揚 ? 2023-07-18 00:15 ? 次閱讀

電子發燒友網報道(文/周凱揚)雖說最近靠著GPT大語言模型的熱度,英偉達之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM的繼續發展,訓練與推理如果要花費同樣的硬件成本,那么即便是大廠也難以負擔。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網絡結構出發,有的從自研ASIC出發的,但收效甚微,到最后還是得花大價錢購置更多的GPU。而來自華盛頓大學和悉尼大學的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構,卻有可能顛覆這一現狀。

TCO居高不下的因素

對于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關注的是同一性能下如何實現更低的TCO。當下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內存帶寬。

比如在更小的batch size和普通的推理序列長度下,內存帶寬就會限制對模型參數的讀取,比如把參數從HBM加載到片上寄存器,因為全連接層中的GeMM(通用矩陣乘)計算強度不高,幾乎每次計算都需要加載新的參數。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部內存方案,將所有模型參數和中間數據(比如K和V向量等)緩存到片上內存中去,從而實現了比傳統的DDR、HBM2e更好的單Token TCO表現,同時也獲得了更大的內存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構,正是專為LLM減少生成單個Token所需的TCO成本設計的。從他們給出的評估數據對比來看,與目前主流的GPU和TPU對比,只有Chiplet Cloud對于TCO/Token做了極致的優化。比如在GPT-3上,32個Chiplet Cloud服務器相較32個DGX A100服務器的TCO成本改善了94倍,在PaLM 540B上,30個Chiplet Cloud服務器相較64個TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個極端的堆片上內存的例子,也就是直接選擇晶圓級的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個晶體管,面積達到46255mm2,片上內存更是達到了40GB。

但這樣的巨芯設計意味著高昂的制造成本,所以Chiplet Cloud的研究人員認為更大的SRAM應該與相對較小的芯片對應,這樣才能減少制造成本,所以他們選擇了chiplet的設計方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統層級上進行設計的重復利用。

以臺積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個750mm2芯片的單價是一個150mm2芯片單價的兩倍,所以Chiplet的小芯片設計成本更低。重復利用的設計也可以進一步降低成本,加快設計周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優點,但這依然是一個尚未得到實際產品驗證的架構,擁有驗證實力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設計實力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺計算負載需要哪些優化,還得是云服務廠商自己。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51012

    瀏覽量

    425285
  • asic
    +關注

    關注

    34

    文章

    1205

    瀏覽量

    120600
  • chiplet
    +關注

    關注

    6

    文章

    434

    瀏覽量

    12609
  • LLM
    LLM
    +關注

    關注

    0

    文章

    295

    瀏覽量

    356
收藏 人收藏

    評論

    相關推薦

    小白學大模型:構建LLM的關鍵步驟

    隨著大規模語言模型(LLM性能、成本和應用前景的快速發展,越來越多的團隊開始探索如何自主訓練LLM模型。然而,是否從零開始訓練一個
    的頭像 發表于 01-09 12:12 ?255次閱讀
    小白學大模型:構建<b class='flag-5'>LLM</b>的關鍵步驟

    Neuchips展示大模型推理ASIC芯片

    領先的AI專用集成電路(ASIC)解決方案提供商NeuchipsCES 2024展示了其革命性的Raptor Gen AI加速芯片(以前稱為N3000)和Evo PCIe加速卡LLM
    的頭像 發表于 01-06 17:30 ?115次閱讀

    NVIDIA TensorRT-LLM Roadmap現已在GitHub公開發布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 公開發布!
    的頭像 發表于 11-28 10:43 ?309次閱讀
    NVIDIA TensorRT-<b class='flag-5'>LLM</b> Roadmap現已在GitHub<b class='flag-5'>上</b>公開發布

    Chiplet技術有哪些優勢

    Chiplet技術,就像樂高積木拼搭玩具一樣,將芯片的不同功能模塊,例如CPU、GPU、內存等,分別制造成獨立的小芯片。
    的頭像 發表于 11-27 15:53 ?408次閱讀

    什么是LLMLLM自然語言處理中的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本中的長距離依賴關系。
    的頭像 發表于 11-19 15:32 ?731次閱讀

    LLM和傳統機器學習的區別

    人工智能領域,LLM(Large Language Models,大型語言模型)和傳統機器學習是兩種不同的技術路徑,它們處理數據、模型結構、應用場景等方面有著顯著的差異。 1. 模型結構
    的頭像 發表于 11-08 09:25 ?625次閱讀

    創新型Chiplet異構集成模式,為不同場景提供低成本、高靈活解決方案

    顆是原生支持Transformer全系算子的AI Chiplet“大熊星座”。 ? Chiplet 集成模式提供低成本、高靈活解決方案 ? 隨著摩爾定律逐步放緩以及先進封裝等技術的發展,高性能計算芯片的迭代無需再僅僅圍繞摩爾定律
    的頭像 發表于 08-19 00:02 ?3385次閱讀

    LLM模型的應用領域

    本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?650次閱讀

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,文本
    的頭像 發表于 07-02 11:45 ?8227次閱讀

    英特爾攜手騰訊云CPU打造LLM時代數據中樞,共筑AGI基建

    英特爾攜手騰訊云CPU打造LLM時代數據中樞,共筑AGI基建
    的頭像 發表于 05-27 11:53 ?548次閱讀
    英特爾攜手騰訊云<b class='flag-5'>用</b>CPU打造<b class='flag-5'>LLM</b>時代數據中樞,共筑AGI基建

    fpga與asic概念上有什么區別

    FPGA(現場可編程門陣列)和ASIC(應用特定集成電路)概念存在明顯的區別。
    的頭像 發表于 03-27 14:12 ?948次閱讀

    100%樹莓派上執行的LLM項目

    ChatGPT的人性口語化回復相信許多人已體驗過,也因此掀起一波大型語言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運作技術,但LLM運作需要龐大運算力,因此目前多是
    的頭像 發表于 02-29 16:29 ?1404次閱讀
    100%<b class='flag-5'>在</b>樹莓派上執行的<b class='flag-5'>LLM</b>項目

    什么是Chiplet技術?

    什么是Chiplet技術?Chiplet技術是一種半導體設計和制造中將大型芯片的不同功能分解并分散實現在多個較小和專用的芯片(Chiplets)的方法。這些較小的芯片隨后通過高速互
    的頭像 發表于 01-25 10:43 ?2265次閱讀
    什么是<b class='flag-5'>Chiplet</b>技術?

    到底什么是ASIC和FPGA?

    它。數據中心之前DPU等部件,也。 后來,很多技術成熟了、定型了,通信設備商們就開始ASIC替代,以此減少
    發表于 01-23 19:08

    使用基于Transformers的APICPU實現LLM高效推理

    英特爾 Extension for Transformers是英特爾推出的一個創新工具包,可基于英特爾 架構平臺,尤其是第四代英特爾 至強 可擴展處理器(代號 SapphireRapids,SPR)顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。
    的頭像 發表于 01-22 11:11 ?2748次閱讀
    使用基于Transformers的API<b class='flag-5'>在</b>CPU<b class='flag-5'>上</b>實現<b class='flag-5'>LLM</b>高效推理
    主站蜘蛛池模板: 黄色大片a级| 成人在线免费电影| 色激情网| 日韩精品视频免费在线观看| 三级日韩| 久草亚洲视频| 国产日本三级| 91久久精品青青草原伊人| 亚洲日本久久久午夜精品| 天天操天天添| 放荡的俄罗斯美女bd| xxxx久久| 在线观看亚洲天堂| 五月婷婷七月丁香| 日本吻胸抓胸激烈视频网站| 乱子伦xxx欧美| 艹逼视频免费看| 人人做人人看| 美国69bj| 高hnp汁水bl总受软萌受| 无遮挡高清一级毛片免费| 欧美一级欧美三级在线| 国产美女在线免费观看| 午夜视频在线看| 国产午夜精品理论片在线| 亚洲一区二区视频在线观看| 这里只有精品视频| 人操人摸| av成人在线播放| 国产亚洲欧美成人久久片| xxxx大片| 婷婷综合亚洲| 狠狠色丁香婷婷综合| 五月天婷婷免费视频观看| 成人黄色免费网站| 男人一级片| 色多多福利| 丁香花在线影院观看在线播放| 免费观看成年欧美1314www色| 亚洲一区色| 四虎国产精品永久在线看|