在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CPU在人工智能應用中有什么獨特優勢?

中科院半導體所 ? 來源:老石談芯 ? 作者:老石談芯 ? 2021-04-01 09:37 ? 次閱讀

在過去的數年間,人工智能技術實現了前所未有的爆發式成長。這主要歸功于萬物互聯的浪潮帶來的海量數據、芯片技術革新帶來的算力飛躍,以及計算機和數據科學領域對算法的不斷優化。這也是我們常說的驅動AI技術發展的三大要素:數據、算力和算法,而且這三大要素是相互促進、缺一不可的。

作為芯片來說,它是承載這三大要素最重要的力量。除了人工智能專用芯片之外,其實很多通用的芯片類型,比如GPUFPGA,還有中央處理器CPU,都在人工智能時代針對性的進行了架構優化,并且再次煥發新生。

在這篇文章里,我們就以英特爾的至強可擴展處理器為例,一起來看一下在云計算和數據中心領域,CPU在人工智能應用里的獨特優勢。

至強可擴展處理器的技術特點

2020年6月,英特爾正式發布了第三代至強可擴展處理器(Xeon Scalable Processor),代號為Cooper Lake。

和前一代產品Cascade Lake相比,Cooper Lake單芯片集成了最高28個處理器核心,每個8路服務器平臺最高可以支持224個處理器核心。每個核心的基礎頻率可達3.1GHz,單核最高頻率可達4.3GHz。此外它還集成了一些其他的架構升級,比如增強了對傳統DDR4內存帶寬和容量的支持,并且將英特爾UPI(超級通道互聯)的通道數量增加到了6個,將CPU之間的通信帶寬和吞吐量提升了一倍,達到20.8GT/s;此外也提升了對硬件安全性、虛擬化、網絡連接等等這些數據中心常用技術的硬件支持。

889e6d58-9248-11eb-8b86-12bb97331649.png

至強可擴展處理器的UPI通道示意圖

值得注意的是,這個Cooper Lake是特別針對4路或者8路的服務器產品進行打造的第三代至強可擴展處理器。對于更加常見的單路和雙路服務器,英特爾也即將推出代號為Ice Lake的處理器,它將基于英特爾最新的10納米工藝進行制造,內核采用了Sunny Cove微架構。

在去年的HotChips大會上,英特爾就對Ice Lake和Sunny Cove微架構做了比較詳細的介紹。關于這部分內容,會在今后的文章里繼續解讀,敬請關注。

Cooper Lake作為英特爾第三代至強可擴展處理器,針對人工智能應用做了特別的架構優化和設計。一個就是在上一代產品的基礎上,進一步優化了英特爾的深度學習加速技術DL-Boost,首次引入了對BF16指令集的支持。另外一個就是增加了對第二代英特爾傲騰持久內存、也就是Optane Persistent Memory的支持。接下來我們就具體來看一下為什么這兩點提升對于AI應用來說特別的重要。

英特爾深度學習加速技術

首先來看DL-Boost,也就是英特爾的深度學習加速技術。從第二代至強開始,英特爾就在這個CPU里加入了深度學習加速技術,它的核心就是擴展了AVX-512矢量神經網絡指令的用途,進一步提升了對AI應用的加速。

AVX-512是一個算力上的加速指令集,它是通過增加數據位寬來處理更多數據的,通過支持512位寬度的數據寄存器,它能在每個時鐘周期內進行32次雙精度和64次單精度浮點數運算、或者8個64位和16個32位的整數運算。這樣的能力本身就可以在CPU上為AI應用提供更好的性能支持,而DL-Boost對它的擴展,目的就是要通過降低數據精度的方式來進一步加速AI應用。

簡單來說,DL-Boost的本質有兩點,一個是低精度的數據表示不會對深度學習的推理結果和精度造成太大影響,但是會極大的提升硬件性能和效率。第二個就是可以為某些類型的AI應用、比如這里說的推理應用,專門設計更有效的指令集和硬件,來支持這些應用的高效運行。

在深度神經網絡應用里使用低精度的數據表示,已經是一個研究比較成熟的領域了。相比使用32位浮點數進行運算,我們可以采用更低的數據精度,甚至也可以采用整形數來進行運算。

有很多研究表明,當使用16位乘法器與32位累加器進行訓練和推理時,對準確性幾乎沒有影響。當使用8位乘法器與32位累加器進行推理計算時,對準確性的影響也非常小。比如對于很多應用來說、特別是涉及我們人類感官的應用,比如看一個圖片或者聽一段聲音等等,由于我們人類的感知能力并沒有那么精確,所以推理精確度的稍許差別并沒有太大關系。

但是降低數據精度會對AI芯片的設計和性能帶來很多的好處,比如可以在芯片面積不變的情況下,大幅提升運算單元的數量,或者在性能要求不變的情況下,采用更少的芯片面積,從而降低功耗。此外這樣也會減少數據傳輸的數據量,節約了帶寬,提升了吞吐量。

基于這個理論,也衍生出了很多非常有趣的AI芯片架構設計,比如一sa些AI專用芯片,還有之前介紹過的英特爾Stratix10 NX FPGA等等,都加入了對不同的數據精度的硬件支持,對于至強可擴展處理器來說也是如此。在第二代至強可擴展處理器里,深度學習加速技術第一次出現,主打INT8的加速,主攻的是推理加速。從第三代至強可擴展處理器開始,英特爾又在DL-Boost技術里引入了對BF16的硬件支持,兼顧推理和訓練的加速。

和8位整形數相比,BF16的精度更高,而且有著大得多的動態范圍。和32位浮點數相比,BF16雖然精度有所損失,但損失并不多,動態范圍類似,但所需數據位寬要小很多。可以說BF16這種數據表示,可以在精度、面積、性能等衡量標準里取得非常好的折中,這也是為什么要在第三代至強可擴展處理器里支持這種數據表示的主要原因。

8945f0be-9248-11eb-8b86-12bb97331649.png

BF16和浮點數數據格式的對比

和前一代CPU搭配32位浮點數的組合相比,第三代至強可擴展處理器加上BF16加速后的AI推理性能可提升到它的1.9倍,訓練性能可提升到它的1.93倍。

當然了,業界已經有很多公司在使用和部署第三代至強可擴展處理器,以及前面介紹的深度學習加速技術。比如阿里云就利用對BF16的支持,將BERT模型推理的性能提升到原來的1.8倍以上,并且沒有準確率下降。Facebook也將英特爾深度學習加速技術用在了它的深度學習推薦模型里,結果對INT8的加速帶來了推理性能提升達2.8倍的成績,BF16加速則讓訓練性能提升達到了原來的1.6倍以上。

高性能存儲技術:傲騰Optane內存

說完數據的計算,我們接下來再來看看數據的存儲。設計芯片的一個大的原則,就是存儲數據的地方離使用數據的地方越近,性能就越高、功耗也越低。對于人工智能應用來說,不管是對于訓練還是推理,都需要對大量的數據進行處理。這一方面需要有大容量的存儲技術作支持,另一方面也需要更大的內存帶寬、以及更快的數據傳輸速度。

總體來說,我們在計算機系統里常見的存儲器類型可以分成這么幾個類型。一個是DRAM,也就是我們常說的內存,它的性能最高、數據讀寫的延時最低,但是容量十分有限、價格昂貴,更重要的是一旦斷電,DRAM里的數據就會丟失。

相比之下,像機械硬盤、固態硬盤之類的存儲方式,雖然容量夠大、價格便宜,而且具備數據持久性,但是最大的問題就是訪問速度相比DRAM來說要慢幾個量級。

所以,很自然的我們就會想,能否有另外一個量大實惠的存儲方式,既能有大容量、低延時、也能保證數據的持久性、而且價格也可以接受呢?一個可行的方案,就是英特爾的傲騰Optane持久內存。它既有大的容量、又能保證數據的持久性,也能提供快速的數據讀寫性能。傲騰持久內存目前單條容量最高可以到512GB,并且和傳統DDR4內存的插槽兼容。當搭配第三代至強可擴展處理器使用的時候,單路內存總容量最高可以達到4.5TB,遠大于普通的DRAM內存。

數據中心存儲架構層級

值得注意的是,傲騰有多種工作模式。比如它可以作為內存模式使用,這時它就和DRAM沒有本質區別,相當于對系統內存進行了擴展。它還有一個叫做App Direct的模式,可以實現較大內存容量和數據持久性,這樣軟件可以將DRAM和傲騰作為內存的兩層進行訪問。

此外,硬盤之類的存儲設備是按塊讀寫數據,而傲騰持久內存是可以按字節進行尋址的,這就保證了數據讀寫的效率和性能。

軟件框架和生態系統

說完了對數據進行計算和存儲的硬件,最后我們再來看看軟件,以及圍繞軟硬件搭建的生態系統。不管是什么芯片、什么應用場景,最終使用它的都是開發者,是人。所以開發軟件和生態是芯片設計中非常重要的環節。

英特爾有一個名叫Analytic Zoo的開源平臺,它將大數據分析、人工智能應用,包括數據的處理、模型的訓練和推理等過程進行了的整合。它可以把 TensorFlow、Pytorch、OpenVINO這些框架、開發工具和軟件集成到一個統一的,基于SPARK、Ray、Flink等搭建的大數據分析流水線里,用于分布式的訓練或預測,這樣讓用戶更方便的構建端到端的深度學習應用。這個分析流水線根據至強處理器進行了深度優化,可以充分利用前面介紹的那些針對AI應用進行的計算和存儲架構革新,并且也可以比較方便地進行計算集群的部署和擴展。

Analytics Zoo架構圖

比如,美的就采用了Analytic Zoo來搭建了工業視覺檢測的云平臺,來加速產品缺陷檢測的效率,并且將模型推理的端到端速度提升了16倍。

作為構建廣泛生態系統的一部分,英特爾硬件產品方面除了有至強可擴展處理器和傲騰持久內存,還有基于Xe架構的數據中心專用GPU系列、還有現場可編程芯片FPGA、以及一系列的人工智能專用芯片,比如旗下Habana Labs用于訓練和推理的Gaudi和Goya系列產品等等。

之前介紹摩爾定律的時候我們說過,晶體管尺寸每縮小10倍,就會衍生出一種全新的計算模式。現任英特爾芯片總架構師的Raja Koduri就把現在的計算模式分成了標量計算、向量計算、矩陣計算和空間計算四大類,分別對應基于CPU、GPU、AI ASIC和FPGA。而目前業界也只有英特爾完成了對這四大類計算模式的芯片全覆蓋。

除此之外,英特爾還推出了oneAPI,用來支持和統一這四大類硬件架構的編程,降低使用不同代碼庫和編程語言帶來的風險,并且無需在性能上做出妥協。

結語

隨著數據量的不斷爆發,數據中心的重要性在不斷凸顯。為了捍衛數據中心市場的領先地位,英特爾也勢必會拿出看家本領。關于10納米數據中心處理器Ice Lake四月份的發布,小編也會持續關注。

原文標題:什么是CPU在人工智能時代的獨特優勢

文章出處:【微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10879

    瀏覽量

    212184
  • 人工智能
    +關注

    關注

    1792

    文章

    47425

    瀏覽量

    238948

原文標題:什么是CPU在人工智能時代的獨特優勢

文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    嵌入式和人工智能究竟是什么關系?

    人工智能的結合,無疑是科技發展中的一場革命。人工智能硬件加速中,嵌入式系統以其獨特優勢和重要性,發揮著不可或缺的作用。通過深度學習和神
    發表于 11-14 16:39

    FPGA應用于人工智能的趨勢

    FPGA(現場可編程門陣列)人工智能領域的應用趨勢日益顯著,主要歸因于其高速、低功耗、靈活性和并行處理能力等獨特優勢。以下是對FPGA應用于人工智能趨勢的分析: 一、FPGA
    的頭像 發表于 10-25 09:20 ?822次閱讀

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    ,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響并推動科學創新的道路。閱讀這一章后,我深刻感受到了人工智能技術科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習
    發表于 10-14 09:12

    risc-v人工智能圖像處理應用前景分析

    定制性。這些特點使得RISC-V多個領域,包括人工智能圖像處理領域,具有顯著的優勢。 二、RISC-V人工智能圖像處理中的
    發表于 09-28 11:00

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    大力發展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能三要素(數據、算法、算力)出發,對AI for Science的技術支撐進行解讀。 第3章介紹了
    發表于 09-09 13:54

    bnc彎公頭有哪些獨特優勢

    德索工程師說道BNC彎公頭作為一種特殊的同軸電纜連接器,多個領域展現出了其獨特優勢。以下是對BNC彎公頭獨特優勢的詳細闡述:   BNC彎公頭的最大
    的頭像 發表于 08-26 09:26 ?276次閱讀
    bnc彎公頭有哪些<b class='flag-5'>獨特優勢</b>

    DFN EEPROM 的非用不可應用:EVASH的獨特優勢

    DFN EEPROM 的非用不可應用:EVASH的獨特優勢
    的頭像 發表于 08-21 00:15 ?366次閱讀

    香港裸機云站群服務器獨特優勢

    香港裸機云站群服務器獨特優勢
    的頭像 發表于 08-02 17:58 ?688次閱讀

    FPGA人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05

    人工智能大模型工業網絡安全領域的應用

    隨著人工智能技術的飛速發展,人工智能大模型作為一種具有強大數據處理能力和復雜模式識別能力的深度學習模型,已經多個領域展現了其獨特優勢和廣
    的頭像 發表于 07-10 14:07 ?799次閱讀

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎知識指引
    發表于 04-01 10:40

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛嵌入式
    發表于 02-26 10:17

    人工智能技術的優勢有哪些

    人工智能技術的優勢
    的頭像 發表于 01-19 15:58 ?3166次閱讀
    主站蜘蛛池模板: 日韩视频高清| 加勒比色| 色噜噜狠狠色综合久| 色综合天天射| 人人人人澡| 黄色亚洲| 夜夜操天天爽| 免费看美女禁处爆涌视频| 丁香综合网| 亚洲综合在线一区| 永久在线观看www免费视频| 香蕉久久精品| 欧美三级免费观看| 国产乱码免费卡1卡二卡3卡四| 69成人免费视频| 美女丝袜长腿喷水gif动态图| 4388x17亚洲最大成人网| 亚洲成av人片在线观看无码| 亚洲天堂h| 免费在线观看a视频| 好吊色7777sao在线视频观看| 黄色男人的天堂| 99国内视频| 美女扒开尿口让男人桶| 一级一片免费视频播放| 色噜噜狠狠成人影院| 好色999| 五月天婷婷伊人| 超级碰碰青草免费视频92 | 亚洲成a人片777777久久| 日韩精品亚洲一级在线观看| 狠狠色丁香婷婷综合视频| 亚洲午夜视频在线观看| 国产综合成色在线视频| 日本免费视频| 资源种子在线观看| 三级视频中文字幕| 全黄h全肉边做边吃奶在线观看| 国产亚洲综合精品一区二区三区| 日韩一级黄| 日本不卡一|