在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 當前已能夠為 950 萬 pandas 用戶帶來 GPU 加速,且無需修改代碼。
目前,NVIDIA 再次對這一應(yīng)用進行了更新:現(xiàn)在無需在 Google Colab 中修改代碼,即可直接使用 RAPIDS cuDF 為 pandas 提供加速。現(xiàn)在即可嘗試在 Colab notebook 中使用這一教程。
pandas 是一個靈活且強大的 Python 數(shù)據(jù)分析和處理程序庫,因其是易于使用的 API,已成為數(shù)據(jù)科學(xué)家的首選。但隨著數(shù)據(jù)集規(guī)模的擴大,其在僅使用 CPU 的系統(tǒng)中的處理速度和效率方面遇到了挑戰(zhàn)。
RAPIDS 是一套開源的 GPU 加速 Python 程序庫,旨在改進數(shù)據(jù)科學(xué)和分析工作流。RAPIDS cuDF 是一個 GPU DataFrame 程序庫,其提供了一個類似 pandas 的 API,用于加載、過濾和操作數(shù)據(jù)。cuDF 的早期版本只適用于 GPU 開發(fā)工作流程。
去年秋季,RAPIDS 發(fā)布了 cuDF 版本。該版本通過開放測試版中統(tǒng)一的 CPU/GPU 用戶體驗,在不修改代碼的情況下將加速計算引入到 pandas 工作流中。在 GTC 2024 上,NVIDIA 宣布在新發(fā)布的 RAPIDS v24.02 中正式推出 cuDF 加速 pandas 功能。NVIDIA AI Enterprise 5.0 將在晚些時候支持這一功能。
兩個相同的 pandas 工作流在 Jupyter notebook 中并列運行。其中一個使用了僅搭載 CPU 的 pandas,另一個則加載了 cudf.pandas 擴展,以便可以使用 RAPIDS cuDF 加速 pandas。
將統(tǒng)一的 CPU/GPU 體驗
引入 pandas 工作流
cuDF 一直使用類似于 pandas 的 API 為用戶提供卓越的 DataFrame 程序庫性能。但使用 cuDF 有時需要采取變通方法:
對 cuDF 中尚未實現(xiàn)或支持的任何 pandas 功能采取變通方法。
在必須在異構(gòu)硬件上運行的代碼庫中,為執(zhí)行 CPU 和 GPU 設(shè)計單獨的代碼路徑。
在與其他 PyData 程序庫或?qū)?pandas 設(shè)計的、特定于組織的工具進行交互時,需要手動切換 cuDF 和 pandas。
在 24.02 版本中,除了提供現(xiàn)有的僅 GPU 使用體驗外,cuDF 還能在無需更改代碼的情況下加速 pandas,以應(yīng)對這些挑戰(zhàn)。
該功能專為數(shù)據(jù)科學(xué)家而設(shè)計,旨在即使數(shù)據(jù)規(guī)模增長到千兆字節(jié)、性能降低時仍然可以繼續(xù)使用 pandas。當 cuDF 加速 pandas 時,在可能的情況下操作將在 GPU 上運行,否則將在(使用 pandas 的)CPU 上運行。這實現(xiàn)了統(tǒng)一的 CPU/GPU 體驗,為用戶自己的 pandas 工作流帶來了領(lǐng)先的性能。
隨著 GA 版本的發(fā)布,cuDF 可提供以下功能:
無需更改代碼的加速:只需加載 cuDF Jupyter Notebook 擴展或使用cuDF Python 模塊選項。
兼容第三方程序庫:pandas 加速器模式與大多數(shù)在 pandas 對象上運行的第三方程序庫兼容,甚至可以加速這些庫中的 pandas 操作。
統(tǒng)一的 CPU/GPU 工作流:使用單一代碼路徑進行開發(fā)、測試和生產(chǎn)運行,不受硬件限制。
如要將 GPU 加速功能引入 Jupyter notebook 中的 pandas 工作流,請加載 cudf.pandas 擴展:
%load_ext cudf.pandas import pandas as pd
如要在運行 Python 腳本時訪問,請使用 cudf.pandas 模塊選項:
python -m cudf.pandas script.py
為 pandas 工作流帶來頂尖的性能
當數(shù)據(jù)規(guī)模達到千兆字節(jié)時,pandas 往往會因為性能較慢而變得在使用過程中面臨較多挑戰(zhàn),導(dǎo)致一些數(shù)據(jù)科學(xué)家不得不放棄他們喜愛的 pandas API。有了新的 RAPIDS cuDF,就可以繼續(xù)將 pandas 作為主要工具使用并獲得頂尖的性能。
用戶可以通過運行流行的 DuckDB Database-like Ops Benchmark 中的 pandas 部分來了解這一點,該基準測試最初由 H2o.ai 開發(fā)。DuckDB 的基準測試方式是將一系列常見分析任務(wù),例如將數(shù)據(jù)連接在一起或計算每組的統(tǒng)計量作為基準,來比較基于 CPU 的流行 DataFrame 和 SQL 引擎的性能。
在數(shù)據(jù)量為 5 GB 的情況下,pandas 的性能大幅下降,變得非常慢,僅僅執(zhí)行一系列連接和高級分組操作就需要數(shù)分鐘時間。
以往使用 cuDF 代替 pandas 運行此基準測試時,需要更改代碼并解決功能缺失的問題。現(xiàn)在,借助 cuDF 的全新 pandas 加速模式,這個問題迎刃而解。用戶可以在不改變pandas基準代碼的情況下運行該基準測試,而且速度將大幅提升。其中的大部分操作由 GPU 執(zhí)行,小部分操作由 CPU 執(zhí)行,保證了工作流的順利操作。
這樣操作所取得的結(jié)果非常出色。cuDF 的統(tǒng)一 CPU/GPU 體驗無需更改代碼,即可將處理時間從原本幾分鐘縮短至 1 到 2 秒(圖 1)。
圖 1.cuDF.pandas 與傳統(tǒng) pandas v2.2 在標準 DuckDB 數(shù)據(jù)基準測試(5 GB)中的性能比較
硬件:NVIDIA Grace Hopper;CPU:英特爾 Xeon Platinum 8480C|軟件:pandas v2.2、RAPIDS cuDF 23.10
結(jié)語
pandas 是 Python 生態(tài)系統(tǒng)中最流行的 DataFrame 程序庫,但它的速度會隨著 CPU 上數(shù)據(jù)量的增加而變慢。
現(xiàn)在只需一條命令,用戶就可以在無需更改代碼的情況下,使用 cuDF 將加速計算引入到其 pandas 工作流中。根據(jù)數(shù)據(jù)集大小為 5 GB 的分析基準測試結(jié)果,處理時間縮短到原來的 150 分之一。
您可參考詳細的教程在 Google Colab 上的免費 GPU 環(huán)境中試用 cuDF 的 pandas 加速功能。
-
cpu
+關(guān)注
關(guān)注
68文章
10863瀏覽量
211747 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103046 -
代碼
+關(guān)注
關(guān)注
30文章
4788瀏覽量
68603
原文標題:無需更改代碼,RAPIDS cuDF 將 pandas 提速近 150 倍
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論