Azure 支持 NVIDIA 的 T4 張量核心圖形處理單元( GPUs ) ,這是為以經濟高效的方式部署機器學習推斷或分析工作負載而優化的。使用 Apache Spark ? Azure Synapse Analytics 針對 NVIDIA GPU 的部署進行了優化,加上預安裝的庫,提供了一種利用 GPU 為各種數據處理和機器學習任務提供動力的簡單方法。 GPU-accelerated Spark 的 Azure Synapse 版本內置了對 RAPIDS 加速的支持,與在 CPU 上運行相比,它在標準分析基準上的性能提升至少是在 CPU 上運行的 2 倍,所有這些都沒有任何代碼更改。
目前, Azure Synapse 中的 GPU 加速功能可用于 按請求進行私人預覽 。
NVIDIA GPU 加速的好處
NVIDIA GPU 提供了極高的計算性能,將并行處理引入多核服務器,以加速苛刻的工作負載。 CPU 由幾個為順序串行處理而優化的內核組成,而。另一方面, GPU 具有大規模并行體系結構,由數千個更小、更高效的內核組成,設計用于同時處理多個任務。考慮到 數據科學家將 80% 的時間花在數據預處理上 , GPU s 是加速數據處理管道的關鍵工具,而不僅僅依賴于包含 CPU 的管道。
構建這些管道的最有效和最熟悉的方法之一是使用 Apache Spark ?。 Apache Spark 中 NVIDIA GPU 加速的好處? 包括:
更快地完成數據處理、查詢和模型訓練,從而加快迭代速度,縮短洞察時間。
相同的 GPU 加速基礎架構有助于消除 Spark 和 ML / DL 框架對復雜決策和調優的需求。
需要更少的計算節點;降低基礎架構成本,并有助于避免與規模相關的問題。
NVIDIA 和 Azure Synapse 協作
NVIDIA 和 Azure Synapse 合作為數據科學家和數據工程師帶來 GPU 加速。這種集成將使客戶能夠自由地使用 NVIDIA GPU for Apache Spark ? 無代碼更改且體驗與 CPU 群集相同的應用程序。此外,這一合作將繼續增加對最新 NVIDIA GPU 和網絡產品的支持,并為希望通過數據工程、數據準備和機器學習的單一管道提高生產率和節約成本的大數據客戶提供持續增強。
Apache Spark ? Azure Synapse 中的 3 。 0 GPU 加速
而 Apache Spark ? 提供開箱即用的 GPU 支持,配置和管理所有必需的硬件以及安裝所有低級庫需要付出大量的努力。當您嘗試啟用 GPU 的 Apache Spark? 時 在 Azure Synapse 中,您會立即注意到一個非常簡單的用戶體驗:
幕后繁重的工作 :為了有效使用 GPU ,庫用于與主機上的圖形卡進行通信。安裝和配置這些庫需要時間和精力。 Azure Synapse 負責預安裝這些庫,并通過與 GPU Apache Spark? 集成,在計算節點之間建立所有復雜的網絡池。在短短幾分鐘內,您就可以不再擔心設置問題,而是專注于解決業務問題。
優化的 Spark 配置 :通過 NVIDIA 和 Azure Synapse 之間的合作,我們為支持 GPU 的 Apache Spark 提供了最佳配置? 游泳池。因此,您的工作負載以最佳方式運行,為您節省了時間和運營成本。
包含數據準備和 ML 庫 :啟用 GPU 的 Apache Spark ? Azure Synapse 中的池內置了兩個流行的庫,支持更多功能:
RAPIDS 用于數據準備 : RAPIDS 是一套開源軟件庫和 API ,用于完全在 GPU 上執行端到端的數據科學和分析管道,以大幅提高速度,尤其是在大型數據集上。 RAPIDS Apache 加速器 Spark ? 構建在 NVIDIA CUDA 和 UCX 之上,支持 GPU 加速 SQL 、數據幀操作和 Spark 洗牌。由于沒有利用這些加速的代碼更改,您還可以加速依賴 Linux 基金會 三角洲湖 或微軟 Hyperspace 索引的數據管道(這兩種索引都是在 BACK 中可用的)。
Hummingbird 用于加速對傳統 ML 模型的評分和推理。 Hummingbird 是一個用于將傳統 ML 運算符轉換為張量的庫,其目標是加速傳統機器學習模型的推理(評分/預測)。
圖 1 : Spark Azure Synapse 中的數據準備和 ML 。
當運行 NVIDIA 決策支持( NDS )測試查詢時(源自行業已知基準測試),超過 1 TB 的拼花地板數據,我們的早期結果表明 GPUs 可以在不改變任何代碼的情況下,將總體查詢性能提高近 2 倍。
圖 2 :總體性能結果。
聯系我們 如果您有興趣被添加到私人預覽列表中。
使用 Azure Synapse 中提供的有限時間免費數量 嘗試新功能。
圖 3 :當前 Azure Synapse 產品。
關于作者
Alexander Spiridonov 是 NVIDIA 的研究員、開發人員和數據分析師,擔任解決方案架構師。最近,他領導了 NVIDIA 和微軟之間的幾個聯合項目,涉及使用最新 GPU 技術優化 Azure 管道。
Rahul Potharaju 是微軟 Azure 數據集團的主要大數據研發經理,致力于 Azure Synapse 分析。他領導了幾項開源工作,包括 Spark 的 Hyperspace 和。 NET 。他的作品在頂級會議上廣泛發表,并在 SIGMM 和 TOMM 等場所獲獎。此前,他在微軟的灰色系統實驗室( GSL )擔任研究員。他獲得了計算機科學博士學位。畢業于普渡大學與西北大學微軟研究和計算機科學碩士學位的聯合工業合作。他是摩托羅拉工程卓越獎和普渡鉆石獎的獲得者。 Rahul 的工作已經被微軟內部的幾個商業團體采納,并贏得了微軟值得信賴的可靠性。
審核編輯:郭婷
-
cpu
+關注
關注
68文章
10889瀏覽量
212388 -
NVIDIA
+關注
關注
14文章
5049瀏覽量
103359 -
gpu
+關注
關注
28文章
4760瀏覽量
129132
發布評論請先 登錄
相關推薦
評論