一年一度的GTC至今已經(jīng)迎來(lái)了第十個(gè)年頭,雖然它每年或多或少的給網(wǎng)友一些“失望”,但它也終究是代表著GPU行業(yè)的高水平技術(shù)大會(huì)。那么,今年的GTC大會(huì),英偉達(dá)又給業(yè)界帶來(lái)了哪些驚喜呢?
日前,英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛宣布了該公司在芯片、AI 平臺(tái)、自動(dòng)駕駛上的一系列新動(dòng)作。
一、光線追蹤(ray-tracing)
開(kāi)場(chǎng)介紹的第一個(gè)項(xiàng)目就是英偉達(dá)在前不久GDC上發(fā)布的NVIDIA RTX光線追蹤技術(shù)(ray-tracing),這項(xiàng)技術(shù)是英偉達(dá)耗時(shí)10年打造的,能夠提供電影級(jí)畫(huà)質(zhì)的實(shí)時(shí)渲染,渲染出逼真的反射、折射和陰影畫(huà)面,幾乎與真實(shí)世界的照片或視頻很難區(qū)分開(kāi)來(lái)。現(xiàn)場(chǎng)展示的視頻片段就是用光線追蹤技術(shù)實(shí)時(shí)渲染的,而且并不需要一個(gè)超級(jí)強(qiáng)大的超算電腦,只需要一臺(tái)DGX-Station。
在真實(shí)世界中,我們看到的3D物體被光源照亮,且光子可以在到達(dá)觀看者的眼睛以前從一個(gè)物體反彈到另一個(gè)物體。光線追蹤技術(shù)則是反過(guò)來(lái),通過(guò)從我們的眼睛(觀景式照相機(jī))反向追蹤光線捕捉這些效果,通過(guò)追蹤2D視表面上每個(gè)像素的光線的路徑,并應(yīng)用到場(chǎng)景的3D模型中。
可想而知,這種技術(shù)的計(jì)算量非常大,一般渲染復(fù)雜的特殊效果可能需要花上幾天甚至幾周的時(shí)間,所以此前該項(xiàng)技術(shù)一直僅限于高成本的電影制作中。
不過(guò),目前,隨著GPU性能日益強(qiáng)悍,能夠支持光線追蹤的電腦也越來(lái)越多,通過(guò)Volta架構(gòu)的GPU配合英偉達(dá)的RTX技術(shù),產(chǎn)品設(shè)計(jì)師、游戲設(shè)計(jì)師、建筑師們能夠在幾秒內(nèi)即可生成逼真的產(chǎn)品模型。
二、新版Quadro GV100,首次采用Volta架構(gòu)
Quadro GV100 具有 32GB 內(nèi)存,且可借助 NVIDIA NVLink 2 互聯(lián)技術(shù),通過(guò)并聯(lián)兩塊 Quadro GPU 擴(kuò)展至 64GB,在所有適用于此類(lèi)應(yīng)用的平臺(tái)中其性能最高。
在性能方面,GV100 基于 NVIDIA Volta GPU 架構(gòu),可提供每秒 7.4 萬(wàn)億次浮點(diǎn)運(yùn)算的雙精度性能、每秒 14.8 萬(wàn)億次浮點(diǎn)運(yùn)算的單精度性能、以及每秒 118.5 萬(wàn)億次浮點(diǎn)運(yùn)算的深度學(xué)習(xí)性能。NVIDIA RTX 內(nèi)置的 NVIDIA OptiX AI-denoiser 可實(shí)現(xiàn)實(shí)時(shí)的 AI 去噪,英偉達(dá)表示且其性能相當(dāng)于采用 CPU 時(shí)的 100 倍。
三、醫(yī)療圖像處理超級(jí)電腦Clara
黃仁勛在現(xiàn)場(chǎng)推出了第一款專用于醫(yī)療圖像處理的超級(jí)電腦Clara,它能夠支持CUDA、CUDNN、TensorRT、OGL、RTX技術(shù)。
在現(xiàn)場(chǎng),黃仁勛展示了一個(gè)醫(yī)療圖像實(shí)時(shí)處理的影像片段。這個(gè)段影像是用十幾年的超聲波老設(shè)備拍攝而成,本來(lái)只能看到2D的黑白圖像。然而當(dāng)數(shù)據(jù)傳進(jìn)Clara后,配合人工智能軟件,可以在2D圖像中分析出3D的腔膛形狀(圖中紅色部分)。因此,醫(yī)院可以在現(xiàn)有醫(yī)療設(shè)備上直接接入這臺(tái)電腦。
目前,英偉達(dá)正在和眾多醫(yī)療廠商合作,除了GE通用電氣、三星電子等大廠外,還有像圖瑪深維、推想科技等AI醫(yī)療創(chuàng)業(yè)公司。
四、新版 TensorRT 推理軟件 TensorRT 4,并將 TensorRT 集成至谷歌的 TensorFlow 框架。
這是一款可編程應(yīng)用平臺(tái)(Programmable Inference Platform),當(dāng)你將一個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練好了之后,可以通過(guò)TensorRT可編程平臺(tái),簡(jiǎn)便快捷地將這個(gè)訓(xùn)練好了的神經(jīng)網(wǎng)絡(luò)部署(Deploy)到英偉達(dá)的GPU上。
新版TensorRT 4能夠支持INT8和FP16精度運(yùn)算,能夠?qū)?shù)據(jù)中心的功耗降低70%。
而且,英偉達(dá)還與谷歌進(jìn)行了深度合作,將TensorRT整合進(jìn)如今最廣泛應(yīng)用的AI開(kāi)源框架谷歌TensorFlow 1.7中。而且現(xiàn)在還能夠加速圖像、視頻、語(yǔ)言、NLP等AI應(yīng)用。
英偉達(dá)表示,TensorRT 4 可用于快速優(yōu)化、驗(yàn)證及部署在超大規(guī)模數(shù)據(jù)中心、嵌入式與汽車(chē) GPU 平臺(tái)中經(jīng)過(guò) 訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。相比 CPU,針對(duì)計(jì)算機(jī)視覺(jué)、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成 與推薦系統(tǒng)等常見(jiàn)應(yīng)用,該軟件最高可將深度學(xué)習(xí)推理的速度加快 190 倍。而且為了進(jìn)一步精簡(jiǎn)開(kāi)發(fā),英偉達(dá)與谷歌的工程師已將 TensorRT 集成至 TensorFlow 1.7,使得在 GPU 上運(yùn)行深度學(xué)習(xí)推理應(yīng)用更加容易。
五、AI平臺(tái)新進(jìn)展
如同往屆,黃仁勛對(duì)英偉達(dá) AI 平臺(tái)做了介紹,公布了其中的一系列重要進(jìn)展,包括全新 Tesla V100 32GB GPU 的 2 倍內(nèi)存、革命性的 NVSwitch 結(jié)構(gòu)、以及全面的軟件堆棧推動(dòng)性能提升、深度學(xué)習(xí)工作站 DGX-2 成為首款性能高達(dá)每秒 2 千萬(wàn)億次浮點(diǎn)運(yùn)算的深度學(xué)習(xí)系統(tǒng)、發(fā)布深度學(xué)習(xí)引擎 TensorRT 4 等。英偉達(dá)表示,相較于六個(gè)月前發(fā)布的上一代產(chǎn)品 DGX-1,其深度學(xué)習(xí)工作負(fù)載性能實(shí)現(xiàn)了 10 倍提升。
在大會(huì)上,黃仁勛宣布,新版的 Tesla V100 內(nèi)存擴(kuò)容了一倍。「5 年前 AlexNet 在 ImageNet 上展示了突破性的能力,」黃仁勛說(shuō)道,「它有 8 層,數(shù)百個(gè)參數(shù)。而今天我們能夠看到數(shù)百層的神經(jīng)網(wǎng)絡(luò),內(nèi)含數(shù)十億參數(shù),深度學(xué)習(xí)模型經(jīng)過(guò)五年的發(fā)展,體量擴(kuò)大了 500 倍。」
而這樣的計(jì)算需求可由「世界上最大的 GPU」DGX-2 進(jìn)行處理,它是由 16 塊 32GB 內(nèi)存的 Tesla V100 計(jì)算卡通過(guò) NVSwitch 進(jìn)行連接(顯卡間的通信速度是 PCI 的 20 倍,每秒 300Gbyte)所組成的,共擁有 2000TFPLOS 的 Tensor Core 算力,售價(jià) 39.9 萬(wàn)美元。NVSwitch 是今天黃仁勛宣布的全新的 GPU 互聯(lián)結(jié)構(gòu)。
DGX-2 是首款能夠提供每秒兩千萬(wàn)億次浮點(diǎn)運(yùn)算能力的單點(diǎn)服務(wù)器,具有 300 臺(tái)服務(wù)器的深度學(xué)習(xí)處理能力,占用 15 個(gè)數(shù)據(jù)中心機(jī)架空間,而體積則縮小 60 倍,能效提升 18 倍。
而后,黃仁勛宣布了英偉達(dá)在 AI 推理上的一系列動(dòng)作。黃仁勛表示,基于在數(shù)據(jù)中心、汽車(chē)應(yīng) 用、以及包括機(jī)器人和無(wú)人機(jī)等嵌入式設(shè)備領(lǐng)域中,諸如語(yǔ)音識(shí)別、自然語(yǔ)言處理、推薦系統(tǒng)、 以及圖像識(shí)別等新功能的支持,面向深度學(xué)習(xí)推理的 GPU 加速正在獲得越來(lái)越多的關(guān)注。
「我們需要超級(jí)計(jì)算機(jī)來(lái)幫助自己尋找更高效的能源存儲(chǔ)方法,探索地球的內(nèi)部,預(yù)測(cè)未來(lái)的自然災(zāi)害,以及模擬微觀世界的變化。」黃仁勛說(shuō)道。
六、下一代DRIVE Orin自動(dòng)駕駛芯片
黃仁勛在現(xiàn)場(chǎng)還展示了英偉達(dá)感知基礎(chǔ)(Perception Infrastructure)項(xiàng)目,這是一個(gè)大型的深度學(xué)習(xí)模型,能夠收集并分析不同傳感器(如攝像機(jī)、雷達(dá)等等)得出的距離、天氣、雷達(dá)感知、高精地圖等等不同數(shù)據(jù)。
在接下來(lái)2-3年間,英偉達(dá)還將技術(shù)研發(fā)這一技術(shù),直到最后能夠搭載在所有新車(chē)上。黃仁勛說(shuō),這是我們至今遇到的最為復(fù)雜的問(wèn)題之一。
七、推出 DRIVE Constellation 仿真系統(tǒng)
自動(dòng)駕駛一直是 GTC 大會(huì)的重要部分,今天,英偉達(dá)展示了一套用于使用照片級(jí)真實(shí)感模擬,基于云的自動(dòng)駕駛汽車(chē)測(cè)試系統(tǒng)。
該系統(tǒng)被稱為 NVIDIA DRIVE Constellation,是一種基于兩種不同服務(wù)器的計(jì)算平臺(tái)。第一臺(tái)服務(wù)器運(yùn)行 NVIDIA DRIVE Sim 軟件,用以模擬自動(dòng)駕駛汽車(chē)的傳感器,如攝像頭、激光雷達(dá)和雷達(dá)。第二臺(tái)服務(wù)器搭載了 NVIDIA DRIVE Pegasus AI 汽車(chē)計(jì)算平臺(tái),可運(yùn)行完整的自動(dòng)駕駛汽車(chē)軟件堆棧,并能夠處理模擬數(shù)據(jù),這些模擬數(shù)據(jù)如同來(lái)自路面行駛汽車(chē)上的傳感器。
要實(shí)現(xiàn)自動(dòng)駕駛汽車(chē)的量產(chǎn)部署,我們需要一種能夠在數(shù)十億英里的行駛中進(jìn)行測(cè)試和驗(yàn)證的解決方案,以實(shí)現(xiàn)足夠安全性和可靠性。黃仁勛介紹說(shuō),DRIVE Constellation 可以將視覺(jué)計(jì)算和數(shù)據(jù)中心方面的專業(yè)知識(shí)相結(jié)合以實(shí)現(xiàn)這一目標(biāo)。借助虛擬現(xiàn)實(shí)技術(shù),測(cè)試者可通過(guò)對(duì)數(shù)十億英里的自定義場(chǎng)景和極端情況進(jìn)行測(cè)試,從而提高算法的穩(wěn)定性,而花費(fèi)的時(shí)間和成本僅為實(shí)際道路測(cè)試的一小部分。
八、聯(lián)合芯片巨頭ARM打造AI芯片專用IP
英偉達(dá)重磅宣布,將聯(lián)合芯片巨頭ARM打造AI芯片專用IP,這款I(lǐng)P屬于ARM幾年2月公布的Trillium項(xiàng)目的一部分,其技術(shù)源于英偉達(dá)Xavier芯片以及去年開(kāi)源的DLA深度學(xué)習(xí)加速器項(xiàng)目。
英偉達(dá)本次宣布同ARM合作,將在數(shù)十億物聯(lián)網(wǎng)設(shè)備上實(shí)現(xiàn)深度學(xué)習(xí)。NVIDIA深度學(xué)習(xí)加速器IP將集成到Arm的Project Trillium平臺(tái)中,以便于構(gòu)建深度學(xué)習(xí)IoT芯片。
去年,英偉達(dá)也正式免費(fèi)開(kāi)源了完整版DLA(Deep Learning Accelerator,深度學(xué)習(xí)加速器),讓廠商可以免費(fèi)下載使用,打造屬于自己的低功耗AI芯片(比如IoT芯片)。
今年2月,芯片巨頭ARM公布了其人工智能項(xiàng)目Trillium,同時(shí)推出兩款專用IP,分別為物體檢測(cè)OD處理器和機(jī)器學(xué)習(xí)ML處理器。
ARM是全球智能設(shè)備第一大主流芯片架構(gòu)提供商,全球超過(guò)90%的智能設(shè)備采用了ARM的芯片架構(gòu),包括手機(jī)、平板、手表、電視、無(wú)人機(jī)等等。而英偉達(dá),作為全球AI浪潮的引領(lǐng)者,能夠?yàn)槿斯ぶ悄芴峁?qiáng)大的計(jì)算力,二者一拍即合。
本次ARM牽手英偉達(dá)推出專用的IOT設(shè)備人工智能IP,將會(huì)有助于人工智能在終端設(shè)備廣泛鋪開(kāi),使得上億、甚至數(shù)十億臺(tái)IOT設(shè)備都能夠用上低功耗、低成本的AI芯片,使物聯(lián)網(wǎng)芯片公司能夠輕松地將AI集成到它們的設(shè)計(jì)中,并幫助它們將智能且價(jià)格實(shí)惠的產(chǎn)品帶給全球數(shù)十億的消費(fèi)者。
NVIDIA副總裁兼自主機(jī)器事業(yè)部總經(jīng)理Deepu Talla表示:“推理將成為每個(gè)物聯(lián)網(wǎng)設(shè)備的核心能力。我們將與ARM一同推進(jìn)這一趨勢(shì)的發(fā)展,幫助數(shù)百家芯片公司輕松采用深度學(xué)習(xí)技術(shù)。”
-
芯片
+關(guān)注
關(guān)注
456文章
50936瀏覽量
424669 -
ARM
+關(guān)注
關(guān)注
134文章
9107瀏覽量
367969 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5013瀏覽量
103244 -
AI
+關(guān)注
關(guān)注
87文章
31097瀏覽量
269429
原文標(biāo)題:GTC2018八大熱點(diǎn):發(fā)布多項(xiàng)黑科技,聯(lián)合芯片巨頭ARM打造AI芯片專用IP
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論