在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPU成為輔助完成深度學習算法的主流計算工具

我快閉嘴 ? 來源:腦極體 ? 作者:腦極體 ? 2020-10-09 16:10 ? 次閱讀

CPU 芯片領域,延續至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導體芯片的計算也正在從通用走向專用,其中AI 計算正是其中增長最快的一種專用計算。

現在,AI 計算正在接棒摩爾定律,延續并超越其倍增神話。2019 年,OpenAI 發布了 AI 算力的增長情況,結果顯示 AI 算力以 3.4 個月的倍增時間實現了指數增長,從 2012 年起,該指標已經增長了 30 萬倍。

在 AI 算力爆炸式增長的過程中,英偉達GPU 功不可沒。廣為人知的一個故事就是 2012 年,來自多倫多大學的 Alex 和他的團隊設計了 AlexNet 的深度學習算法,并用了 2 個英偉達的 GTX580 GPU 進行訓練后,打敗了其他所有計算機視覺團隊開發的算法,成為那一屆 ImageNet 的冠軍。

此后,在計算機視覺和自然語言處理領域,GPU 的高并行計算能力得到了充分的發揮,英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發展。與此同時,更多為機器學習而專門定制的專用芯片開始出現,比如專用集成電路ASIC)的張量處理單元 TPU、神經網絡單元 NPU 以及半定制芯片 FPGA 等等。

2018 年底,英國一家名為 Graphcore 的創業公司推出了一種專門用于 AI 計算的處理器芯片IPU(Intelligence Processing Unit)。一經問世,IPU就受到 AI 界越來越多的關注。

ARM 創始人,被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價,將其譽為“計算機史上三次革命中,繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產業的地位自然不容置疑,但由于 Graphcore 是英國芯片產業中為數不多的新生力量,難免赫曼有“護犢子”的打廣告之嫌。

IPU 出道 2 年時間,現已推出了量產第二代型號為 GC2 的 IPU。那么,IPU 的表現如何,與 GPU 相比有哪些優勢之處,這是本文要重點探討的問題。

GPU 所開啟的深度學習

一個廣為人們熟知的例子就是,在計算機視覺發展初期的 2011 年,谷歌大腦想要在 YouTube 的視頻中識別人類和貓,當時這樣一個簡單的任務,谷歌要動用一家大型數據中心內的 2,000 顆服務器 CPU,這些 CPU 的運行會產生大量的熱量和能耗,關鍵是代價不菲,很少能有研究人員可以用得起這種規模的服務器。

不過在當時,研究人員注意到了英偉達的 GPU,斯坦福大學的吳恩達團隊開始和英偉達合作,將 GPU 應用于深度學習。后來證明,只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經網絡 (DNN)的訓練。

現在我們都知道,GPU 能夠在深度學習的訓練中大顯身手,正是源于 GPU 的計算架構正好適用于深度學習的計算模式。深度學習是一種全新的計算模式,其采用的 DNN 算法包含數十億個網絡神經元和數萬億個連接來進行并行訓練,并從實例中自己學習規律。

深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而 GPU 多核架構在原本圖像渲染中可以大規模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務,使得 DNN 訓練速度大幅提升。

此后,GPU 成為輔助完成深度學習算法的主流計算工具,大放異彩。但 GPU 本身并非是專門為 AI 計算而設計的芯片,其中有大量的邏輯計算對于 AI 算法來說毫無用處,所以行業自然也需要專門針對 AI 算法的專用 AI 芯片。

近幾年,全球已經有上百家公司投入到新型 AI 芯片的研發和設計當中,當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數實力雄厚的獨角獸公司。

這其中,2017 年初創成立的 Graphcore 所研發的 AI 芯片 IPU,則成為這些 AI 芯片當中的另類代表,因其不同于 GPU 架構的創新得到了業內的關注。而這正是我們要著重介紹的部分。

更適合 AI 計算的 IPU 芯片

近兩年,AI 芯片出現了各種品類的井噴,其中甚至出現一些堪稱瘋狂的另類產品

比如一家同樣創立四年的 AI 芯片創業公司 Cerebras Systems 就發布了史上最大的半導體芯片 Wafer Scale Engine(WSE),號稱“晶圓級發動機”,擁有 1.2 萬億個晶體管,比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場,其創新之處在于一體化的芯片設計大幅提高了內部的數據通信數據,但其架構仍然類似于 GPU 的計算架構。

而 Graphcore 的 IPU 與 GPU 的架構差異非常大,代表的是一種新的技術架構,可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設計的。

IPU 為 AI 計算提供了全新的技術架構,同時將訓練和推理合二為一,兼具處理二者工作的能力。

我們以目前已經量產的 IPU 的 GC2 處理器來看,IPU GC2 采用臺積電的 16nm 工藝,擁有 236 億個晶體管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 內存的帶寬、8TB/s 片上多對多交換總線,2.5 TB/s 的片間 IPU-Links。

其中,片內有 1216 個 IPU-Tiles 獨立處理器核心,每個 Tile 中有獨立的 IPU 核,作為計算以及 In-Processor-Memory(處理器內的內存)。對整個 GC2 來說共有 7296 個線程(每個核心最多可以跑 6 個線程),能夠支持 7296 個程序并行運行,處理器內的內存總共可以達到 300MB,其設計思路就是要把所有模型放在片內處理。

首先,IPU 作為一個標準的神經網絡處理芯片,可以支持多種神經網絡模型,因其具備數以千計到數百萬計的頂點數量,遠遠超過 GPU 的頂點規模,可以進行更高潛力的并行計算工作。此外,IPU 的頂點的稀疏特性,令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數的復用,這些復用特性可以獲取數據中的空間或時間不變性,對于訓練與推理的性能會有明顯幫助。

其次,為解決芯片內存的寬帶限制,IPU 采用了大規模并行 MIMD(多指令流多數據流)眾核架構,同時,IPU 架構做了大規模分布式的片上 SRAM。片內 300MB 的 SRAM,相對于 GPU 的 GDDR、HBM 來說,可以做到數十倍的性能提升,而且與訪問外存相比,SRAM 的片內時延基本可以忽略不計。

第三,IPU 采用了高效的多核通信技術 BSP(Bulk Synchronous Parallel)。IPU 是目前世界上第一款采用 BSP 通信的處理器,支持內部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協議,并通過 BSP 協議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發工作。

基于以上 IPU 的差異化特點,IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網絡收斂。片內的 SRAM 相對于片外存儲,也有高帶寬和低延時的優勢。

今年 7 月,Graphcore 發布了二代的 Colossus MK2 IPU (MK2),以及包含四顆 MK2 芯片系統方案的 IPU-Machine:M2000 (IPU-M2000),其核心數增加了 20%,達到 1472 個,8832 個可并行執行的線程。片內 SRAM 則多出 3 倍,增加到 900MB,互聯擴展性能是上一代的 16 倍。顯然在計算、數據和通信擴展層面,MK2 都算是延續了第一代 IPU 堆料狂魔的作風。

由 4 個 IPU 芯片構成的 IPU-M2000 系統,可以提供大約 1 PetaFLOPs 的算力。基于 IPU 的多層級存儲結構,與 IPU Exchange Memory 等技術優化,整體與 GPU 的 HBM2 存儲比較,可以提供超過 100 倍的帶寬以及大約 10 倍的容量,可以適用于更復雜的 AI 模型和程序。

計算加上數據的突破可以讓 IPU 在原生稀疏計算中展現出領先 GPU 10-50 倍的性能優勢,在通信上,Graphcore 專為為 AI 橫向擴展設計了 IPU-Fabric,解決數據中心大規模計算橫向擴展的關鍵問題。Graphcore 將計算、數據、通信三者的突破技術結合,構建了大規模可擴展的 IPU-POD 系統,最終可以提供一個 AI 計算和邏輯進行解耦、系統易于部署、超低網絡延時、高可靠的 AI 超算集群。

可以預計,未來 IPU 在各類 AI 應用中將具有更大的優勢,而這也必然會引起英偉達的注意。那么,相較于英偉達 GPU 所占據的 AI 行業生態位的霸主地位,IPU 會有哪些前景,也會遭遇哪些困境呢?

走向通用 AI 計算的“另辟蹊徑”

如果回顧下 AI 芯片的發展經歷,我們看到在經過這幾年專用 AI 芯片的井噴之后,也開始面臨一個尷尬困境,那就是 ASIC 芯片的靈活性或者說可編程性很差,對應的專用 AI 芯片只能應對一種算法應用,而算法本身則在 3-6 個月的時間就有可能變化一次,或許出現很多 AI 芯片還未上市,算法就已經發生進化的問題,一些 AI 芯片注定無法生產。當然,專用 AI 芯片的優勢也很明顯,在性能、功耗和效率上遠勝更加通用的 GPU,對于一些非常具體的 AI 應用場景,這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達的 GPU,走的也是相當于 ASIC 的技術路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現,英偉達的 GPU 也在向著 GPGPU(General Purpose GPU)的方向演進。為保持其在 GPU 領域的寡頭地位,使得英偉達必須一直保持先進的制程工藝,保持其通用性,但是要犧牲一定的效能優勢。

這給后來者一定的啟發,那就是 AI 芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優勢。這為 IPU 找到了一個新的細分市場,也就是介入 GPU 不能很好發揮效能的神經網絡模型,比如強化學習等類型,同時又避免的專用 AI 芯片的不可擴展性,能夠部署在更大規模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。

目前來看,IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺,基于 IPU 的應用已經覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應用場景。

典型的如通過 IPU 可以訓練胸片,幫助醫學人員快速進行新冠肺炎的診斷;如在金融領域,對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷;此外在生命科學領域、通信網絡等方面,都可以同 IPU 實

當然,IPU 想要在 AI 計算中擁有挑戰 GPU 地位的資格,除了在性能和價格上面證明自己的優勢之外,還需要在為機器學習框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持,在標準生態、操作系統上也需要有廣泛的支持,對于開發者有更方便的開發工具和社區內容的支持,才能從實際應用中壯大 IPU 的開發生態。

今年, AI 芯片產業正在遭遇洗牌期,一些 AI 芯片企業黯然退場,但這并不意味著 AI 計算遭遇寒冬,反而 AI 算力正在得到大幅提升,以今年數量級提升 GPT-3 的出場就可以看出這樣的趨勢。

一個 AI 芯片從產出到大規模應用必須要經過一系列的中間環節,包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態等等,打通這樣一條鏈條都會面臨一個巨大挑戰。

現在,GPU 已經形成一個非常完整的 AI 算力生態鏈路,而 IPU 則仍然在路上,是否能真正崛起,還需要整個 AI 產業和開發者用實際行動來投票。
責任編輯:tzh

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51021

    瀏覽量

    425421
  • 半導體
    +關注

    關注

    334

    文章

    27573

    瀏覽量

    220502
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4760

    瀏覽量

    129133
  • AI
    AI
    +關注

    關注

    87

    文章

    31267

    瀏覽量

    269632
收藏 人收藏

    評論

    相關推薦

    深度學習工作負載中GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務中的順序性問題,是構建AI應用不可或缺的一環。 本文旨在探討深度學習工作負載中GPU
    的頭像 發表于 12-09 11:01 ?381次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>工作負載中<b class='flag-5'>GPU</b>與LPU的主要差異

    GPU深度學習中的應用 GPUs在圖形設計中的作用

    隨著人工智能技術的飛速發展,深度學習作為其核心部分,已經成為推動技術進步的重要力量。GPU(圖形處理單元)在深度
    的頭像 發表于 11-19 10:55 ?614次閱讀

    NPU在深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器,它與傳統的CPU和
    的頭像 發表于 11-14 15:17 ?726次閱讀

    PyTorch GPU 加速訓練模型方法

    深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度
    的頭像 發表于 11-05 17:43 ?593次閱讀

    GPU深度學習應用案例

    GPU深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是
    的頭像 發表于 10-27 11:13 ?440次閱讀

    深度學習GPU加速效果如何

    圖形處理器(GPU)憑借其強大的并行計算能力,成為加速深度學習任務的理想選擇。
    的頭像 發表于 10-17 10:07 ?215次閱讀

    FPGA做深度學習能走多遠?

    。例如,在數據中心中,可以將 FPGA 與 CPU 或 GPU 結合使用,根據不同的任務需求進行靈活的資源分配和協同計算,提高整個系統的性能和效率。 ? 算法優化和創新:隨著深度
    發表于 09-27 20:53

    深度學習算法在嵌入式平臺上的部署

    隨著人工智能技術的飛速發展,深度學習算法在各個領域的應用日益廣泛。然而,將深度學習算法部署到資源
    的頭像 發表于 07-15 10:03 ?1555次閱讀

    深度學習算法在集成電路測試中的應用

    隨著半導體技術的快速發展,集成電路(IC)的復雜性和集成度不斷提高,對測試技術的要求也日益增加。深度學習算法作為一種強大的數據處理和模式識別工具,在集成電路測試領域展現出了巨大的應用潛
    的頭像 發表于 07-15 09:48 ?1100次閱讀

    新手小白怎么學GPU云服務器跑深度學習?

    新手小白想用GPU云服務器跑深度學習應該怎么做? 用個人主機通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不動,如何實現更經濟便捷的實現GPU云服務器
    發表于 06-11 17:09

    深度學習編譯工具鏈中的核心——圖優化

    等,需要調整優化網絡中使用的算子或算子組合,這就是深度學習編譯工具鏈中的核心——圖優化。圖優化是指對深度學習模型的
    的頭像 發表于 05-16 14:24 ?1016次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>編譯<b class='flag-5'>工具</b>鏈中的核心——圖優化

    深度解析深度學習下的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入
    發表于 04-23 17:18 ?1334次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b>下的語義SLAM

    FPGA在深度學習應用中或將取代GPU

    基礎設施,人們仍然沒有定論。如果 Mipsology 成功完成了研究實驗,許多正受 GPU 折磨的 AI 開發者將從中受益。 GPU 深度學習
    發表于 03-21 15:19

    為什么深度學習的效果更好?

    導讀深度學習是機器學習的一個子集,已成為人工智能領域的一項變革性技術,在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成
    的頭像 發表于 03-09 08:26 ?651次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的效果更好?

    【技術科普】主流深度學習模型有哪些?AI開發工程師必備!

    深度學習在科學計算中獲得了廣泛的普及,其算法被廣泛用于解決復雜問題的行業。所有深度學習
    的頭像 發表于 01-30 15:26 ?655次閱讀
    【技術科普】<b class='flag-5'>主流</b>的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>模型有哪些?AI開發工程師必備!
    主站蜘蛛池模板: 亚洲免费观看在线视频| 欧美色图亚洲自拍| 久久午夜精品| 国产精品午夜在线观看| 丁香六月综合网| 免费观看激色视频网站bd| 91视频三级| 清冷双性被cao的合不拢腿| 韩漫免费网站无遮挡羞羞漫画| 成人久久网| 丁香婷婷亚洲| 美女国产视频| 黄色aa毛片| china国语对白刺激videos| 午夜久久久久久久| 免费看片免费播放| 天天干狠狠插| 久久久久大香线焦| 欧美极品第1页专区| 免费大片看黄在观看| 性欧美护士18xxxxhd视频| 色偷偷亚洲男人| 久操福利视频| 亚洲最新黄色网址| 九九久久九九久久| 亚洲偷偷| 午夜爱爱免费视频| 男人天堂伊人网| 成年人一级毛片| 人人干人人玩| 91视频www| 亚洲精品久久久久影| 欧美两性网| brazzersvideosex欧美高清| 欧美一级视频在线高清观看| 国产欧美日韩haodiaose| 亚洲综合香蕉| 一级欧美一级日韩| 日本aaaa视频| 中国特黄一级片| 1024毛片|