在未來,AI計算系統將要面臨計算平臺優化設計、復雜異構環境下計算效率、計算框架的高度并行與擴展、AI應用計算性能等挑戰,提高整個AI計算系統的性能與效率迫在眉睫。為應對上述挑戰,浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會上分享了《AI計算系統設計與優化:從實驗到生產》。
在深度學習激發的人工智能熱潮下,許多創新力很強的企業的人工智能技術正逐步從研究實驗走向應用與生產,在這一過程中,AI計算系統設計與優化的重要性愈發明顯。
同時算法的發展對整個計算需求所造成的挑戰會變得更大,提高整個AI計算系統的性能與效率迫在眉睫。
在機遇與挑戰的雙重推動下,有創新力的AI企業會研發出怎樣的產品去面對變革?9月20日,AI WORLD 2018世界人工智能峰會重磅發布AI領域年度大獎——AI Era創新大獎,評選出2018年度對AI領域作出重大貢獻,切實推動AI進步和發展的人物、企業和產品。本次峰會上,浪潮AI服務器成功登榜「AI產品影響力TOP10」。
浪潮是知名的AI計算力廠商,致力于從計算平臺、管理套件、框架優化、應用加速四個層次打造敏捷、高效、優化的AI基礎設施。浪潮AI服務器采用創新設計,為AI研發與應用提供領先計算力,多款產品為業界首創,如全球首款在2U空間內高速互聯集成8顆最高性能GPU加速器的服務器AGX-2、單機可實現支持16個GPU的超大擴展性節點的SR-AI整機柜服務器等。9月12日,浪潮又發布了一款AI超級服務器AGX-5,性能高達每秒2千萬億次,是目前全球最強大的AI計算主機之一。AGX-5也是浪潮在計算量劇增的挑戰之下,追求更高研發效力的新成果。
在未來,AI計算系統將要面臨計算平臺優化設計、復雜異構環境下計算效率、計算框架的高度并行與擴展、AI應用計算性能等挑戰。浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會引用去年Jeff Dean報告里的一句話:“事實證明,我們真正需要的是超過現在100萬倍的計算能力,而不僅僅是幾十倍的增長。”
從計算需求來看,AI計算系統的設計與優化之路似乎任重道遠。因此,為應對上述挑戰,張清在本次峰會上從AI計算平臺與算法的Co-design、AI計算平臺管理、AI計算框架的高擴展性設計、AI實際應用性能優化這四個方面來分析了AI計算系統設計與優化方法。
下面就是浪潮AI首席架構師張清在AI WORLD 2018世界人工智能峰會上的演講《AI計算系統設計與優化:從實驗到生產》的主要內容。
張清:大家好!在深度學習激發的人工智能熱潮下,很多AI創新力很強的企業的人工智能技術正逐步從研究實驗走向應用與生產。在AI研究從實驗到生產過程中,AI計算系統的設計和優化也是非常關鍵。今天我主要想從工程和系統角度談談我的想法。
浪潮主要圍繞計算方面做了很多創新與研究,解決了不同行業、不同場景計算的平臺和架構,其中包括產品和方案工作。在人工智能方面,浪潮也做了較多的創新。
截止到2018年,浪潮AI處于高速增長態勢,AI增速達到600%,比全球150%增長速度幅度快很多,在中國市場,浪潮AI計算份額已達到57%。
在AI計算領域,浪潮不僅是提供基礎的計算平臺,除了像GPU、CPU服務器的供應之外,浪潮還會圍繞AI全棧方案,給到用戶關于系統管理的平臺,例如AI Station,這包括性能分析工具Teye,以及高性能高擴展AI計算框架,針對垂直行業,浪潮也提供相關的AI應用方案。
人工智能仍是最熱技術之一,AI計算領域愈發重要
在本次峰會上,很多專家探討人工智能是否進入了寒冬時期這一問題?我個人的觀點是:AI現在尚處于起步發展階段,它仍是最熱的一個技術。
從Gartner 2018年數據看到,全球人工智能市場商業價值一直處于高速增長趨勢,到2018年,所催生的商業價值會達到1.3萬億美元,而未來將會達到接近5萬億美元。從技術成熟度曲線可以看到,未來2-5年會有大量AI技術實現從創新期到成長期的過渡,現在仍有很多AI技術處于爬坡發展階段。
在推動AI發展過程中,有三大要素起著主導作用,除算法、數據外,計算方面也越來越重要。根據浪潮與IDC研究聯合發布的《2018中國AI計算力發展報告》摘要版數據顯示,2021年計算方面的投資將占到整個AI投資的近一半以上,2017年至2022年將會達到近6倍的增長。
接下來是關于AI計算的發展趨勢,整個AI計算領域呈現了以下幾大趨勢:
模式:從科研實驗到應用生產;
規模:從單機計算到大規模集群或云計算;
架構:從通用CPU計算到定制化計算;
AI計算系統設計與優化迫在眉睫
但AI計算發展趨勢演變過程中面臨著巨大的挑戰:隨著模型所需的精度越高,所需的計算量也會呈現增長趨勢。
引用去年Jeff Dean報告里的一句話:“事實證明,我們真正需要的是超過現在100萬倍的計算能力,而不僅僅是幾十倍的增長。”也就是說,對于未來的我們,算法的發展對整個計算需求所造成的挑戰會變得更大,提高整個AI計算系統的性能與效率顯得尤為重要。
以下是我們需要去考慮的三個方面的問題:
1.計算規模從單機到集群再到大規模云計算,規模呈量級、指數級增長,計算復雜度會越來越大;
2.計算架構從單一通用架構CPU+GPU到混合異構架構CPU+GPU+FPGA+XPU,如何在異構并行與協同計算方面考慮如何提升整體系統的效率也變得舉足輕重;
3.系統環境方面,需要單一用戶以及單一場景解決到現在多個用戶、多場景復雜環境的構建,從而提升整個系統效率。
而從這三方面問題的考慮,實際上是對整個系統設計優化分四個層面:
1.如何對AI計算平臺做一個合理的設計和構建以及優化;
2.隨著資源變大、計算系統變得更復雜,AI平臺管理設計與優化的重要性愈發明顯;
3.需要更快的工具,即AI計算框架優化;
4.AI應用本身的性能優化和算法設計方面也需要得到重視。
AI計算平臺的優化需結合模型算法、應用場景特點進行Co-Design
對于AI計算平臺的設計優化,需要把AI分成訓練和推理兩大部分:
就訓練方面而言,需要構建一個高擴展的計算平臺,能夠支撐大規模分布式的并行框架,讓其擴展性更強。而整個系統涉及到網絡、存儲、IO的吞吐能否跟上計算,則是需要計算平臺架構方面考慮到的問題。
圍繞整個應用、算法、模型、網絡的特點,例如有的模型參數比較密集,對我們系統通信要求比較高,有的計算性能要求比較高,則需要圍繞性能方面考慮如何提升整個系統性能的能力,這里就需要從本身模型算法方面做一個Co-Design。
推理方面的復雜性比訓練方面更高,它不僅體現在性能方面,更關心的是用戶的體驗。當對于大規模進行部署云計算時,我們需要考慮到它的運維成本,需要低功耗平臺架構來做支撐。
基于這些考慮,浪潮計算平臺圍繞未來AI計算平臺,更多是關心算法模型一些計算的特點,其應用場景的特點,來進行Co-Design的設計。我們在圍繞不同場景方面打造計算平 臺,試圖能夠更好地解決在特定場景下性能和延時、存儲的問題。
9月12日,浪潮最新發布了AGX-5,它比浪潮上一代AGX-2整體性能會更高,計算性能可達到2 PetaFlops,并且會搭載16×Tesla V100最強GPU來加速性能。在支撐GPU互聯架構方面,現在采用NVSwitch互聯結構,可以支撐8對GPU,每一對GPU之間是300個GB/s,那么整個帶寬會達到2.4TB/s。另外,相比于此前需要采用模型并行的方式來說,有一些模型在512GB之內不需要做模型并行,支持大模型的訓練。
如何優化AI平臺管理?計算資源需要做到共享與獨享
AI不同項目之間,可能每個組之間有小的GPU訓練平臺,當規模達到一定量的時候,幾百個卡或更大規模時,整個資源利用率實際上是很低的,可能低于50%以下。
由于AI應用場景越來越多,資源整合和整體利用也變得尤為重要。如何能夠從整體上把這些資源進一步打通,對不同用戶、不同應用進行資源配額優化?計算資源需要做到共享與獨享。
在推理應用方面時,需要考慮計算資源的負載均衡策略優化。結合AI計算全流程,從數據預處理、開發、訓練到推理上線,對一個平臺的資源進行管理。
基于這方面,浪潮AIStation計算管理平臺應運而生,它可以針對不同應用采用比較便于安裝的方式,利用容器化的方式進行打包、安裝和部署,只需一鍵便能實現。此前,部署一套框架需要1-2周的時間,并且需要靠人為方式去安裝,而現在,靠容器方式就可以實現。并且也支持可視化調試,加快模型開發時間,并且實現整個計算資源的統一管理和調度。
從實際案例效果來看,沒有部署AIStation和部署之后的效果對比相當明顯:在部署前,整個GPU利用率只有40%,通過AI平臺統一管理后,GPU利用率可以達到70%以上。整個作業調度吞吐從原來支持的200個以上達到600個以上,整個資源效率實現大幅度提升。
AI計算框架與AI應用性能優化
圍繞AI計算框架,開源的框架很多,需針對性能和擴展性兩個方面進一步做更深入的優化:
在計算方面,不僅僅是GPU滿負荷運行,需實現CPU與GPU共同并行計算,進一步提高資源利用率,同時,圍繞新的芯片架構的計算特點,采用混合精度或半精度計算,發揮計算芯片的效率;在通信方面,可以采用異步或半異步方式實現計算與通訊隱藏的優化,通過合并小數據,提升通信效率來提升整個通信效果;在IO吞吐方面,采取多線程的數據讀取與預取機制。
在圍繞AI應用性能的優化方面,針對訓練端AI應用,需要從以下幾個維度考慮:
首先需要進行應用性能分析;其次,對整個硬件系統、軟件系統進行適配優化;另外,還需針對GPU架構特點、框架特點、網絡算法特點進行優化。
例如,浪潮幫助某用戶實現高性能人臉識別訓練應用時,優化后性能與優化之前相比提升了2.6倍以上;而面對用戶應用從消費級卡到工業級卡的升級,我們針對工業卡的特性也做了一些相關優化,相關應用性能提升了4倍。
而針對推理端AI應用性能優化,整個架構不僅僅是采用通用架構,如CPU與GPU,而是更多地開始關注定制化架構平臺,如TPU或其他PU。而充分發揮定制化芯片架構的性能,則需要算法和硬件協同優化。
最后,我將進行簡單地總結:如今,AI面臨著巨大的計算挑戰,提高AI計算系統性能與效率變得尤為重要,我們需要從系統的角度進行綜合考慮。
而AI計算系統設計與優化需要從四大方面著手:
通過計算平臺與算法、應用場景的Co-Design;
通過計算平臺管理優化,提升計算吞吐與并發;
通過計算框架的并行優化,提升擴展效率與性能;
通過計算應用自身的優化,提升應用性能。
-
AI
+關注
關注
87文章
30998瀏覽量
269328 -
計算系統
+關注
關注
0文章
42瀏覽量
10290 -
深度學習
+關注
關注
73文章
5504瀏覽量
121239
原文標題:AI算力需求100萬倍增長,如何優化AI計算系統彌平鴻溝?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論