在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型將會推動手機內存和AI加速器革新?

jf_BPGiaoE5 ? 來源:半導體行業觀察 ? 2023-07-19 09:52 ? 次閱讀

人工智能已經成為半導體行業過去幾年最重要的新推動力。而去年以ChatGPT為代表的大模型更是進一步點燃了人工智能以及相關的芯片市場,ChatGPT背后的大模型正在成為下一代人工智能的代表并可望進一步推進新的應用誕生。

說起大模型,一般我們想到的往往是在云端服務器上運行模型。然而,事實上大模型已經在走入終端設備。一方面,目前已經有相當多的工作證明了大模型經過適當處理事實上可以運行在終端設備上(而不局限于運行在云端服務器);另一方面,大模型運行在終端設備上也會給用戶帶來很大的價值。因此,我們認為在未來幾年內,大模型將會越來越多地運行在終端設備上,而這也會推動相關芯片技術和行業的進一步發展。

智能汽車是大模型運行在終端的第一個重要市場。從應用角度來看,大模型運行在智能汽車的首要推動力就是大模型確實能給智能駕駛相關的任務帶來客觀的性能提升。去年,以BEVformer為代表的端到端鳥瞰攝像頭大模型可以說是大模型在智能汽車領域的第一個里程碑,它把多個攝像頭的視頻流直接輸入使用transformer模塊的大模型做計算,最后的性能比之前使用傳統卷積神經網絡(CNN)模型的結果好了接近10個點,這個可謂是革命性的變化。而在上個月召開的CVPR上,商湯科技發布的UniAD大模型更是使用單個視覺大模型在經過統一訓練后去適配多個不同的下游任務,最后在多個任務中都大大超越了現有最好的模型:例如,多目標跟蹤準確率超越了20%,車道線預測準確率提升 30%,預測運動位移和規劃的誤差則分別降低了 38% 和 28%。

目前,汽車企業(尤其是造車新勢力)已經在積極擁抱這些智能汽車的大模型,BEVformer(以及相關的模型)已經被不少車企使用,我們預計下一代大模型也將會在未來幾年逐漸進入智能駕駛。如果從應用角度考慮,智能汽車上的大模型必須要在終端設備上運行,因為智能汽車對于模型運行的可靠性和延遲要求非常高,在云端運行大模型并且使用網絡把結果傳送到終端無法滿足智能汽車的需求。

wKgaomS3QkCAStKFAAOzw2nWy1w295.jpg

商湯科技提出的UniAD大模型架構,使用統一模型去適配多個任務

除了智能汽車之外,手機也是大模型進入終端的另一個重要市場。以ChatGPT為代表的語言類大模型事實上已經成為了下一代用戶交互的重要組成部分,因此在手機上使用大語言模型將會能把這樣的新用戶交互體驗帶入手機操作系統中。而在手機設備終端直接運行大語言模型的主要好處在于能夠在保護用戶隱私的情況下給用戶帶來個性化的體驗(例如歸納和某個用戶的聊天記錄等等)。目前,開源社區已經可以把Llama大語言模型能夠運行在安卓手機CPU,回答一個問題大約需要5-10秒的時間,我們認為未來的潛力巨大。

智能汽車芯片加速大模型:算力與功耗成為關鍵

目前,人工智能已經在智能汽車的輔助駕駛應用中得到了廣泛應用,因此大多數智能汽車上使用的芯片也有對于人工智能的支持,例如加入人工智能加速器等。然而,這些人工智能加速器主要考慮的加速對象模型仍然是上一代以卷積神經網絡為代表的模型,這些模型往往參數量比較小,對于算力的需求也比較低。

為了適配下一代大模型,智能汽車芯片會有相應的改動。下一代大模型對于智能汽車芯片的要求主要包括:

1 大算力:由于智能汽車上的相關感知和規劃任務都必須在實時完成,因此相關芯片必須能夠提供足夠的算力來支持這樣的計算
2 低功耗:智能汽車上的計算功耗仍然有限制,考慮到散熱等因素,芯片不可能做到像GPU一樣有幾百瓦的功耗
3 合理的成本:智能汽車上的芯片不能像GPU一樣成本高達數千美元。因此,智能汽車上的大模型加速芯片主要考慮的就是如何在功耗和成本的限制下,實現盡可能高的算力。

我們可以從目前最成功的大模型加速芯片(即GPU)出發去推測支持大模型智能汽車芯片的具體架構,考慮GPU上有哪些設計思路需要進一步發揚光大,另外有哪些應該考慮重新設計。

首先,GPU上有海量的矩陣計算單元,這些計算單元是GPU算力的核心支撐(與之相對的,CPU上缺乏這些海量的矩陣計算單元因此算力無論如何不可能高上去),這些計算單元在智能汽車芯片上同樣也是必須的;但是由于智能汽車芯片上的計算不用考慮GPU上對于數據流和算子通用性的支持,因此智能汽車芯片上無需做GPU上這樣的大量stream core,因此從控制邏輯的角度可以做簡化以減少芯片面積成本。

第二,GPU能成功運行大模型的另一個關鍵在于有超高速的內存接口和海量的內存,因為目前大模型的參數量動輒千億級,這些模型必須有相應的內存支持。這一點在智能車芯片上同樣需要,只是智能汽車芯片未必能使用GPU上的HBM這樣的超高端(同時也是高成本)內存,而是會考慮和架構協同設計來盡可能地利用LPDDR這樣的接口的帶寬。

第三,GPU有很好的規模化和分布式計算能力,當模型無法在一個GPU上裝下時,GPU可以方便地把模型分割成多個子模型在多個GPU上做計算。智能車芯片也可以考慮這樣的架構,從而確保汽車可以在使用周期內滿足日新月異的模型的需求。

綜合上述考慮,我們推測針對大模型的智能車芯片架構中,可能會有多個人工智能加速器同時運行,每個加速器都有簡單的設計(例如一個簡單的控制核配合大量計算單元),搭配大內存和高速內存接口,并且加速器之間通過高速互聯互相通信從而可以以本地分布計算的方法來加速大模型。從這個角度,我們認為智能駕駛芯片中的內存和內存接口將會扮演決定性的角色,而另一方面,這樣的架構也非常適合使用chiplet的方式來實現每個加速器并且使用高級封裝技術(包括2.5D和3D封裝)來完成多個加速器的整合,換句話說大模型在智能汽車的應用將會進一步推動下一代內存接口和高級封裝技術的普及和演進。

大模型將會推動手機內存和AI加速器革新

如前所述,大模型進入手機將會把下一代用戶交互范式帶入手機。我們認為,大模型進入手機將會是一個漸進的過程:例如,目前的大語言模型,即使是小版本的Llama 70億參數的模型,也沒法完全裝入手機的內存中,而必須部分放在手機的閃存中運行,這就導致了運行速度比較慢。在未來的幾年中,我們認為手機上面的大語言模型會首先從更小的版本(例如10億參數以下的模型)開始進入應用,然后再逐漸增大參數量。

從這個角度來看,手機上運行大模型仍然會加速推動手機芯片在相關領域的發展,尤其是內存和AI加速器領域——畢竟目前主流運行在手機上的模型參數量都小于10M,大語言模型的參數量大了兩個數量級,而且未來模型參數量會快速增大。這一方面將會推動手機內存以及接口技術以更快的速度進化——為了滿足大模型的需求,未來我們可望會看到手機內存芯片容量增長更快,而且手機內存接口帶寬也會加快發展速度,因為目前來看內存實際上是大模型的瓶頸。

除了內存之外,手機芯片上的人工智能加速器也會為了大模型而做出相關的改變。目前手機芯片上的人工智能加速器(例如各種NPU IP)幾乎已經是標配,但是這些加速器的設計基本上是針對上一代卷積神經網絡設計,因此在設計上并不完全針對大模型。為了適配大模型,人工智能加速器首先必須能有更大的內存訪問帶寬并減少內存訪問延遲,這一方面需要人工智能加速器的接口上做出一些改變(例如分配更多的pin給內存接口),另一方面需要片上數據互聯做出相應的改變來滿足人工智能加速器訪存的需求。

除此之外,在加速器內部邏輯設計上,我們認為可能會更加激進地推進低精度量化計算(例如4bit甚至2bit)和稀疏計算,目前的學術界研究表明大語言模型有較大的機會可以做這樣的低精度量化/稀疏化,而如果能量化到例如4bit的話,就會大大減小相關計算單元需要的芯片面積,同時也能減小模型在內存中需要的空間(例如4bit量化精度相對于之前的標準8bit精度就會內存需求減半),這預計也會是未來針對手機端人工智能加速器的設計方向。

根據上述分析,我們預計從市場角度手機內存芯片將會借著手機大模型的東風變得更重要,預計會在未來看到相比之前更快的發展,包括大容量內存以及高速內存接口。另一方面,手機端人工智能加速器IP也會迎來新的需求和發展,我們預計相關市場會變得更加熱鬧一些。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 半導體
    +關注

    關注

    334

    文章

    27515

    瀏覽量

    219791
  • 人工智能
    +關注

    關注

    1792

    文章

    47425

    瀏覽量

    238957
  • 智能汽車
    +關注

    關注

    30

    文章

    2870

    瀏覽量

    107363
  • 卷積神經網絡

    關注

    4

    文章

    367

    瀏覽量

    11882
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7814

原文標題:大模型走向終端,芯片怎么辦?

文章出處:【微信號:光刻人的世界,微信公眾號:光刻人的世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    拋棄8GB內存,端側AI模型加速內存升級

    電子發燒友網報道(文/黃晶晶)端側AI模型的到來在存儲市場產生了最直接的反應。年初在我們對旗艦智能手機的存儲容量統計中,16GB內存+512GB存儲成為幾乎所有旗艦機型都提供的選擇。
    的頭像 發表于 11-03 00:02 ?4463次閱讀
    拋棄8GB<b class='flag-5'>內存</b>,端側<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b><b class='flag-5'>加速</b><b class='flag-5'>內存</b>升級

    英偉達AI加速器新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM 內存

    冷板。 在英偉達給出的模型中,每個 AI 加速器復合體包含 4 個 GPU 模塊,每個 GPU 模塊與 6 個小型 DRAM 內存
    的頭像 發表于 12-13 11:37 ?248次閱讀
    英偉達<b class='flag-5'>AI</b><b class='flag-5'>加速器</b>新藍圖:集成硅光子I/O,3D垂直堆疊 DRAM <b class='flag-5'>內存</b>

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創意加速器

    加速器
    龍智DevSecOps
    發布于 :2024年11月26日 13:42:47

    IBM與AMD攜手部署MI300X加速器,強化AI與HPC能力

    舉措預計將于2025年上半年正式推出。 此次合作的核心目標是提升通用人工智能(AI)模型的性能與能效,并為企業客戶提供高性能計算(HPC)應用的強大支持。AMD的Instinct MI300X加速器憑借其
    的頭像 發表于 11-21 11:07 ?253次閱讀

    IBM將在云平臺部署AMD加速器

    IBM與AMD近期宣布了一項重要合作協議,根據協議,IBM將在其云平臺上部署AMD Instinct MI300X加速器。這一舉措旨在提升企業客戶在生成式AI模型方面的性能和能效,進一步推動
    的頭像 發表于 11-19 16:24 ?237次閱讀

    AMD Alveo V80計算加速器網絡研討會

    歡迎參加本次網絡研討會,我們將深入探討 AMD Alveo V80 計算加速器如何幫助您處理高性能計算、數據分析、金融科技、網絡安全、存儲加速AI 計算等領域的內存密集型工作負載。A
    的頭像 發表于 11-08 09:35 ?218次閱讀

    SiFive發布MX系列高性能AI加速器IP

    AI技術日新月異的今天,RISC-V IP設計領域的領軍企業SiFive再次引領行業潮流,正式推出了其革命性的SiFive Intelligence XM系列高性能AI加速器IP。這一創新產品專為
    的頭像 發表于 09-24 14:46 ?374次閱讀

    KAIST開發出高性能人工智能加速器技術

    在人工智能(AI)技術日新月異的今天,大規模AI模型的部署與應用正以前所未有的速度推動著科技進步與產業升級。然而,隨著模型復雜度和數據量的爆
    的頭像 發表于 07-12 09:59 ?558次閱讀

    美國限制向中東AI加速器出口,審查國家安全

    AI加速器能協助數據中心處理大量人工智能聊天機器人和其他工具的開發信息。如今,它們已然成為構建AI基礎設施的企業和政府的必需品。
    的頭像 發表于 05-31 09:20 ?601次閱讀

    Arm發布新一代Ethos-U AI加速器 Arm旨在瞄準國產CPU市場

    Arm發布的新一代Ethos-U AI加速器確實在業界引起了廣泛關注。
    的頭像 發表于 04-18 15:59 ?777次閱讀

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構,性能提升四倍

    電子發燒友網報道(文/黃晶晶)在嵌入式領域,邊緣與端側AI推理需求不斷增長,Arm既有Helium 技術使 CPU 能夠執行更多計算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器
    的頭像 發表于 04-16 09:10 ?4647次閱讀
    Arm<b class='flag-5'>推動</b>生成式<b class='flag-5'>AI</b>落地邊緣!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架構,性能提升四倍

    瑞薩發布下一代動態可重構人工智能處理加速器

    瑞薩最新發布的動態可重構人工智能處理(DRP-AI加速器,在業界引起了廣泛關注。這款加速器擁有卓越的10 TOPS/W高功率效率,相比傳統技術,效率提升了驚人的10倍。其獨特之處在
    的頭像 發表于 03-08 13:45 ?789次閱讀

    AMD MI300加速器將支持HBM3E內存

    手機資訊網站IT之家了解,MI300加速器配備了HBM3內存模塊,并面向HBM3E進行了重新設計。另外,該公司在供應鏈交付合作方面頗為深入,不僅與主要的存儲供應商建立了穩固的聯系,
    的頭像 發表于 02-27 15:45 ?685次閱讀

    家居智能化,推動AI加速器的發展

    提高了系統的運算能力和數據處理能力,還為用戶帶來了更加智能化、個性化的生活體驗。 ? AI 加速器的發展 ? 在人工智能和機器學習任務變得日益復雜和密集之前,傳統的CPU和GPU已經足以處理這些任務。然而,隨著深度學習模型的出現
    的頭像 發表于 02-23 00:18 ?4613次閱讀

    回旋加速器原理 回旋加速器的影響因素

    回旋加速器(Cyclotron)是一種用于加速帶電粒子的可再生粒子加速器。它的工作原理基于帶電粒子在恒定強磁場中的運動。本文將詳細介紹回旋加速器的原理以及影響因素。 一、回旋
    的頭像 發表于 01-30 10:02 ?4191次閱讀
    主站蜘蛛池模板: 天天操人人爱| 国产精品久久久久网站| 午夜视频黄色| 天天视频黄| 国产主播精品在线| 色婷婷精品| 国产成人一级片| 天天摸天天操天天爽| 成年男人永久免费看片| 久久精品国产精品亚洲毛片| 欧美午夜激情影院| 色多视频| 四虎黄色| 四虎永久免费网站入口2020| 在线亚洲色图| 久久精品国产精品亚洲婷婷| 亚洲综合激情另类专区| www天天操| 国产高清免费不卡观看| 91牛牛| 高清成年美女黄网站色大| 亚洲啪啪| 亚洲精品国产自在久久出水| 26uuu影院亚洲欧美综合| 日本69xxxx| 99精品在免费线视频| 爱逼色| 亚洲不卡视频在线观看| 一区二区中文字幕在线观看| h视频在线观看免费网站| 日韩dv| 激情久久婷婷| 伊人精品网| 一级特黄aaa大片在线观看| 正在播放一区二区| 福利三区| 亚洲视频欧美视频| 亚洲国产成人精品女人久久久| 性生交大片免费一级| 性欧美视频| 美女张开大腿让男人捅|