在剛剛結束的GTC 2018上,英偉達CEO黃仁勛說兩件大事,一是發布了迄今最大的GPU,二是暫定自動駕駛暫停研發。隨后英偉達股價下跌3.8%。GPU正在成為一種計算范式,但本質性突破乏善可陳,教主一路回顧過去創下的紀錄,而鼎盛之下,衰退的跡象,似乎已經潛藏。
黃仁勛在熟悉的背景音樂中上場,GTC今年已經是第十年了。
稱不上激昂,但顯然迫不及待要分享。不是首先揭幕萬眾期待的新品,而是回歸初心——黃仁勛說,圖形技術是GPU的核心驅動力,是虛擬現實的根本,在各種各樣的領域,我們想將信息和數據可視化,形成了R&D預算,由此也構建了巨大的市場。
重現逼真圖像是計算機圖形學一直以來的追求,要呈現一幅美麗的圖像,40年來,GPU渲染一幅圖的時間,從幾小時降到了幾秒,而且圖像的清晰度增加到了4K。
接著,黃仁勛回顧了各種技術,光的反射、散射、漫射、陰影……以及要渲染出種種質感相應的技術。
接著,展示了一段《星球大戰》視頻的演示,重點是逼真效果的實時RayTracing,各種表面的光線反射,每當一束光線遇到一個表面,都要決定要反射還是被吸收,什么角度反射,被吸收多少程度,整個環境中到處都是表面,每一個都需要渲染……這些需要龐大的計算量,因此動畫公司才需要超級計算機來計算這些效果。
十年技術成果,首次將實時光線跟蹤技術推向商業市場
而英偉達一臺DGX-Station就夠了。
于是,第一個宣布——RTX Technolgy,這是英偉達十年技術成果,也是RayTracing首次在這種規格上,全部實時實現。黃仁勛說,這是首次將實時RayTracing帶向商業市場。感謝GPU,感謝深度學習。
英偉達推出的Quadro GV100 GPU將該公司最近發布的RTX光線跟蹤技術引入工作站。英偉達的RTX光線追蹤技術是軟件和硬件的組合,允許應用程序生成實時光線追蹤效果。
Quadro GV100配備32GB內存,與Tesla V100有相同的底層設計。GV100可以提供高達7.4 TeraFLOPS的雙精度和14.8 TeraFLOPS的單精度計算。英偉達表示這個顯卡還可以提供高達118.5 TeraFLOPS的深度學習性能。
Quadro GV100還支持NVLink 2互連技術,可以將這兩個設備配對在一起。總共64GB的HBM2內存,10,240個CUDA內核和236個張量內核整合到一個工作站中。
電影大片完成后,要得到逼真效果,“CPU渲染一幀10小時,”黃仁勛說:“使用GPU要快很多,而且更重要的是,能省錢——大家都知道了,你買的GPU越多,你省的錢越多。”現在這已經是常識了。
全球最大GPU,核彈轟炸!!!
接著,也是全場最重要揭幕了全球最大GPU——Quadro GV100,這是一個GPU工作站,2個GV100,使用NVLink相連,形成一個完整的工作站,軟件感覺不到切換。
VIDIA TESLA V100 32GB,SXM3
雙板總計16塊GPU,總計512GB HBM2 存儲
每塊GPU板由8塊NVIDIA Tesla V100組成
總計12 NVSwitch 連接
高速互連,2.4 TB/秒對分帶寬。
8 EDR 無線帶寬 / 100 GbE 以太網
1600 Gb/秒雙向帶寬和低延遲。
PCIE Switch Complex
2個英特爾Xeon Platinum CPUs
1.5 TB系統內存
雙10/25 GbE 以太網
30 TB NVME SSDS內部存儲
這個全球最大的GPU有多大?感受一下:
普通GPU(你能看出型號嗎?是N粉就說!)
這是最大GPU:
相比龐大繁重的CPU機架,使用英偉達RTX Quadro GV100,14-Quad-GPU服務器,“省下成千萬上億美元”。
新系統旨在允許開發人員擴大其神經網絡的規模。DGX-2具有12個NVSwitch,每個NVSwitch的特點是在臺積電12nm FinFET工藝上制造了120億個晶體管。每個交換機都具有18個8位NVLink連接。IBM已經宣布將于2019年推出采用NVLink 3.0的Power9系統,因此我們預計NVSwitch將利用這種互補互連。
太美了,太性感了,太美了。
黃仁勛掩飾不住沉醉。
DGX-2專門為深度學習,而生一天半就完成了。
如今AI研究員使用AI設計/發現AI,實驗的規模和數量都不斷增長。更多的實驗、更多的數據,DGX-2推出的時機不能在好了。
價格?
39.9萬美元。
加倍Tesla V100內存
下面簡單介紹其他宣布。
特斯拉V100采用了迄今為止生產量最大的單模芯片。采用臺積電12納米FFN工藝制造的815毫米2伏特晶體管,使用了210億個晶體管,幾乎是全分劃板的尺寸。GPU包裝了5120個用于AI工作負載的CUDA核心,雖然它具有足夠的處理能力,但英偉達已經使用額外的16GB HBM2內存支持該卡。英偉達表示,更強大的32GB內存可以在內存受限的HPC工作負載中實現雙倍的性能。
NVSwitch拓撲將16個GPU連接在一起,形成一個具有統一內存空間的統一內核單元,從而創建Jensen吹捧為“世界上最大的GPU”的內容。該系統共有512GB HBM2內存,可提供高達14.4TB / s的吞吐量。它共有81,920個CUDA內核。
GPU接受程度前所未有,形成全球計算范式
接著,黃仁勛表示,英偉達做的最好決定之一,是這些年來,讓GPU越來越通用,在不損失計算機圖形學性能的前提下,將GPU導向深度學習。然后,引爆點到來,現在,GPU已經成為廣為接受的一種計算范式,全世界有100萬GPU工程師,GTC成為全球會議,cuDNN 800萬次下載,一大半都發生在去年一年,而英偉達10年前就開始提供。
GPU接受程度前所未有,然而,這還不夠。
我們還需要更大的計算機,更快的計算機。加州理工大學要模擬一個項目,需要7天;要模擬一個艾滋病模型,需要3個月。過去5年,GPU增速25倍,遠遠超出摩爾定律。我們正處于超級摩爾定律時代,而這一趨勢也將持續。
接著是教主的自豪/自傲時間,英偉達基本上每年都推出新架構,與軟件工程師合作保持套件更新。總之,說道這里,教主表示,祝賀John Hennessy和David Patterson獲得2017年的圖靈獎,“John的體系結構演講精彩非凡——但是,我的演講很簡單,”黃仁勛說,沒錯,英偉達在高性能計算(HPC)方面,也(買越多越)省錢!
要讓醫生/醫院更換現有基礎設施,需要30年。等不了這么久,怎么辦?有沒有辦法利用現有技術,在改動不大的前提下,給予醫生更大的智能能力。
英偉達醫療圖像超級計算機Clara應運而生。接入現有的醫療設備,比如超聲波檢測儀,就能將整套流程全部升級——使用深度學習,在原來的黑白圖像上實時渲染出顏色,分層、分區域,并且變為3D圖像,后期各種計算機技術,提升圖像質量,醫生的檢測能夠變得更加敏銳清晰。
目前,英偉達的Clara計劃已經與數十家公司,初創企業為主,構建了生態。可以想象,將英偉達的超級醫療圖像計算機部署到醫院,又打開了一大市場。
推理很難:公布TensorRT 4.0,以及Kubernetes on GPU
講到這里,黃教主已經一個人說了1個多小時。
“Plaster。”說完這個詞,他停了一會,歇一口氣。
這也是教主自己發明的詞,希望向世人傳達的GTC第二大要點。
這個詞是關于推理(inference)。推理很難,精度、通量……各種變量要考慮。如何讓推理變得更好?這里,當然是英偉達的高性能神經網絡推理引擎TensorRT的更新——TensorRT 4.0發布,用于在生產環境中部署深度學習應用程序,應用有圖像分類、分割和目標檢測等,可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器,能加速現有和未來的網絡架。TensorRT 4.0實現全棧連接。
與CPU相比,NVIDIA TensorRT 4 現在可以將AI任務的參數加速200倍,適用于圖像分類、分割、物體檢測、語音識別、機器翻譯等應用。
此外,還有英偉達GPU Kubernets。
Kubernetes借助NVIDIA GPU,開發人員現在可以即時地將GPU加速的深度學習和HPC應用程序部署到multi-cloud GPU群集中。
“人生完整了。”黃仁勛說。
暫停無人車研發,英偉達股價下跌3.8%
一口氣發布這么多款產品,黃教主可謂是蠻拼的,但其實這樣做也是英偉達不得不為之的事情。
值得一提,在黃仁勛演講接近尾聲的時候,英偉達股票下跌了3.8%。
“我們要暫定無人駕駛的研發。”黃仁勛說。
Uber自動駕駛致死事故顯然對英偉達造成了巨大的影響。根據公開資料,Uber從2016年首次部署沃爾沃SC90 SUVS測試車隊以來,一直使用英偉達的計算技術。
這讓人想起了當年特斯拉車禍時,與特斯拉分手的Moibleye——但不同的是,Mobileye并沒有要停止研發,而是迅速搭上了其他公司,而后被英特爾以153億美元的高價收歸旗下。
英偉達目前沒有表示具體研發計劃暫定的時間。
雖然現實世界中停止路測,但英偉達還推出了一個測試自動駕駛汽車的新系統DRIVE Con stellation,這是一款基于云計算的平臺,將使用逼真模擬測試駕駛場景。
系統在兩臺服務器上運行。第一臺服務器支持Nvidia DRIVE Sim,它一款模擬自動駕駛汽車各種傳感器(包括其攝像頭,激光雷達和雷達)的軟件。第二臺服務器包含Nvidia DRIVE Pegasus AI,它將處理收集的數據,就好像它來自道路上自駕車的傳感器。
前壓后趕,英偉達衰相已現?
其次,也不要忘記英偉達面臨的眾多對手。
首先是英特爾。英特爾去年宣布發布Nervana神經網絡處理器(NNP)系列芯片,代號為Lake Crest。這款芯片的強大之處在于,它由“處理集群”陣列構成,處理“活動點(flexpoint)”的簡化數學運算。這種運算相對于浮點運算所需的數據量更少,性能號稱提升10倍。
不過,Nervana系列芯片宣稱2017年年底量產,但直到現在還一直跳票;而且,英偉達已經在游戲、深度學習、自動駕駛等領域建立起自己的芯片生態圈,“護城河”相當寬。但是,就像黃教主經常揶揄CPU的摩爾定律一樣,反過來看,GPU并沒有本質上的突破,GPU的現在優勢可能很容易就被性能一日千里的神經網絡芯片超越,英偉達的護城河很快就會被攻破。
跟英特爾一起攻城的還有賽靈思。
今年3月20日,賽靈思推出ACAP(Adaptive Compute Acceleration Platform,自適應計算加速平臺),ACAP是一個高度集成的多核異構計算平臺,它的核心是新一代FPGA架構,能根據各種應用與工作負載的需求從硬件層對其進行靈活變化。ACAP的靈活應變能力可在工作過程中進行動態調節,它的功能將遠超FPGA的極限。
賽靈思新任CEO Victor Peng在接受新智元采訪時表示,GPU雖然在某些方面比CPU能處理的更好,但也不能適應所有的情況,因此現在更多需要的是異構計算。尤其是在人工智能時代,賽靈思也想通過自身在異構計算方面優勢來實現對英偉達以及英特爾的趕超。
除了前面兩個大塊頭,AI芯片創業公司也讓這片市場從藍海變成紅海。中國有寒武紀、地平線、深鑒科技,英國有哈薩比斯投資的Graphcore,美國也有多家AI芯片初創公司。這些公司針對的是不同的應用場景,每一家都有可能搶走英偉達的細分市場。
不過,最能給英偉達造成威脅的,還應當是帶頭大哥谷歌。
雖然谷歌的TPU只是用在谷歌內部,但單從硬件性能看,TPU已經超越英偉達GPU。
-
gpu
+關注
關注
28文章
4751瀏覽量
129041 -
英偉達
+關注
關注
22文章
3788瀏覽量
91283 -
自動駕駛
+關注
關注
784文章
13852瀏覽量
166579
原文標題:剛剛,黃仁勛發布全球最大GPU,超算級逆天算力,僅售39.9萬美元
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論