在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用RAPIDS加速實現SHAP的模型可解釋性

星星科技指導員 ? 來源:NVIDIA ? 作者:Nanthini ? 2022-04-21 09:25 ? 次閱讀

機器學習( ML )越來越多地用于醫療、教育和金融服務等多個領域的決策。由于 ML 模型被用于對人們有實際影響的情況,因此了解在消除或最小化偏見影響的決策中考慮了哪些特征是至關重要的。

模型解釋性 幫助開發人員和其他利益相關者理解模型特征和決策的根本原因,從而使流程更加透明。能夠解釋模型可以幫助數據科學家解釋他們的模型做出決策的原因,為模型增加價值和信任。在本文中,我們將討論:

對模型可解釋性的需求

使用 SHAP 的可解釋性

GPU – 從 RAPIDS 加速 SHAP 實現

使用 演示筆記本 在 Azure 機器學習上使用 SHAP 進行模型解釋。

為什么我們需要解釋性?

有六個主要原因證明機器學習中需要模型互操作性:

理解模型中的公平性問題

對目標的準確理解

創建健壯的模型

調試模型

解釋結果

啟用審核

了解模型中的公平性問題: 可解釋模型可以解釋選擇結果的原因。在社會背景下,這些解釋將不可避免地揭示對代表性不足群體的固有偏見。克服這些偏見的第一步是看看它們是如何表現出來的。

更準確地理解目標: 對解釋的需要也源于我們在充分理解問題方面的差距。解釋是確保我們能夠看到差距影響的方法之一。它有助于理解模型的預測是否符合利益相關者或專家的目標。

創建穩健的模型: 可解釋模型可以幫助我們理解預測中為什么會存在一些差異,這有助于使預測更加穩健,并消除預測中極端和意外的變化;以及為什么會出現錯誤。增強穩健性也有助于在模型中建立信任,因為它不會產生顯著不同的結果。

模型可解釋性還可以幫助調試模型,解釋 向利益相關者提供成果,并使 auditing 以滿足法規遵從性。

需要注意的是,在某些情況下,可解釋性 MIG 不太重要。例如,在某些情況下,添加可解釋模型可以幫助對手欺騙系統。

現在我們了解了什么是可解釋性以及為什么我們需要它,讓我們看看最近非常流行的一種實現方法。

使用 SHAP 和 cuML 的 SHAP 的可解釋性

有不同的方法旨在提高模型的可解釋性;一種模型不可知的方法是 夏普利值 。這是一種從聯盟博弈論中衍生出來的方法,它提供了一種公平地將“支出”分配給各個功能的方法。在機器學習模型的情況下,支出是模型的預測/結果。它的工作原理是計算整個數據集的 Shapley 值并將其組合。

cuML 是 RAPIDS 中的機器學習庫,支持單 GPU 和多 GPU 機器學習算法,通過 內核解釋程序 和 置換解釋者 提供 GPU 加速模型解釋能力。 核形狀 是 SHAP 最通用和最常用的黑盒解釋程序。它使用加權線性回歸來估計形狀值,使其成為一種計算效率高的近似值方法。

內核 SHAP 的 cuML 實現為快速 GPU 模型提供了加速,就像 cuML 中的那些模型一樣。它們也可用于基于 CPU 的模型,在這些模型中仍然可以實現加速,但由于數據傳輸和模型本身的速度,它們 MIG 可能會受到限制。

在下一節中,我們將討論如何在 Azure 上使用 RAPIDS 內核 SHAP 。

使用解釋社區和 RAPIDS 實現可解釋性

InterpretML 是一個開源軟件包,將最先進的機器學習可解釋性技術集成在一起。雖然本產品的解釋包中涵蓋了主要的解釋技術和玻璃盒解釋模型, Interpret-Community 擴展了解釋存儲庫,并進一步整合了社區開發的和實驗性的解釋性技術和功能,這些技術和功能旨在實現現實場景的解釋性。

我們可以將其擴展到 解釋 Microsoft Azure 上的模型 ,稍后將對其進行更詳細的討論。解釋社區提供各種解釋模型的技術,包括:

Tree 、 Deep 、 Linear 和 Kernel Explainers 基于形狀,

模擬解釋者 基于訓練 全局代理模型 (訓練模型以近似黑盒模型的預測),以及

排列特征重要性( PFI )解釋者 基于 布雷曼關于蘭德森林的論文 ,其工作原理是對整個數據集一次一個特征的數據進行洗牌,并估計其對性能指標的影響;變化越大,功能越重要。它可以解釋整體行為,而不是個人預測。

在社區中集成 GPU 加速 SHAP

為了使 GPU – 加速 SHAP 易于最終用戶訪問,我們將 integrated 從 cuML 的 GPU 內核解釋者 添加到 interpret-community 包中。有權訪問 Azure 上具有 GPU s 的虛擬機 ( NVIDIA Pascal 或更高版本)的用戶可以安裝 RAPIDS (》= 0.20 )并通過將 use _ ZFK5]標志設置為 True 來啟用 GPU 解釋程序。

from interpret.ext.blackbox import TabularExplainer

# "features" and "classes" fields are optional
explainer = TabularExplainer(model,
                          x_train,
                          features=breast_cancer_data.feature_names,
                          classes=classes,
use_gpu=True)

新添加的 GPUKernelExplainer 還使用 cuML K- 均值 來復制 shap.kmeans 的行為。 KMeans 減少了解釋者要處理的背景數據的大小。它總結了通過 K 個平均樣本傳遞的數據集,這些樣本由數據點的數量加權。將 sklearn K-Means 替換為 cuML 使我們能夠利用 GPU 的速度提升,即使在 SHAP 之前的數據預處理過程中也是如此。

基于我們的實驗,我們發現,當與 cuML KerneleExplainer 一起使用時, cuML 模型在某些情況下會產生最高可達 270 倍的速度提升的最佳結果。我們還看到了具有優化和快速預測調用的模型的最佳加速,如優化的 sklearn 。 svm 。 LinearSVR 和 cuml 。 svm 。 SVR ( kernel =’ linear ‘) 所示。

Azure 中的模型解釋

Azure 機器學習提供了一種通過 azureml-interpret SDK 包獲取常規和自動化 ML 培訓說明的方法。它使用戶能夠在訓練和推理期間,在真實世界數據集上實現大規模的模型可解釋性[2]。我們還可以使用交互式可視化來進一步探索整體和單個模型預測,并進一步了解我們的模型和數據集。 Azure 解釋使用解釋社區包中的技術,這意味著它現在支持 RAPIDS 形狀。我們將瀏覽一個演示 Azure 上使用 cuML 形狀的模型可解釋性 的示例筆記本。

在 GPU 虛擬機上使用自定義 Docker 映像設置 RAPIDS 環境(本例中為標準的_ NC6s _ v3 )。

from azureml.core import Environment
environment_name = "rapids"
env = Environment(environment_name)
env.docker.enabled = True
env.docker.base_image = None
env.docker.base_dockerfile = """
FROM rapidsai/rapidsai:0.19-cuda11.0-runtime-ubuntu18.04-py3.8
RUN apt-get update && \
apt-get install -y fuse && \
apt-get install -y build-essential && \
apt-get install -y python3-dev && \
source activate rapids && \
pip install azureml-defaults && \
pip install azureml-interpret && \
pip install interpret-community==0.18 && \
pip install azureml-telemetry
"""
env.python.user_managed_dependencies = True

我們提供了一個腳本( train_explain.py ),它使用 cuML SVM 模型訓練和解釋了一個二進制分類問題。在這個例子中,我們使用 希格斯數據集 來預測一個過程是否產生希格斯玻色子。它有 21 個由加速器中的粒子探測器測量的運動學特性。

然后,該腳本使用 GPU SHAP KerneleExplainer 生成模型解釋。

生成的解釋使用我們的 ExplanationClient 上傳到 Azure 機器學習,這是上傳和下載解釋的客戶端。這可以在您的計算機上本地運行,也可以在 Azure 機器學習計算機上遠程運行。

from azureml.interpret import ExplanationClient
# Get model explanation data
client = ExplanationClient.from_run(run)
global_explanation = client.download_model_explanation()
local_importance_values = global_explanation.local_importance_values
expected_values = global_explanation.expected_values
# Or you can use the saved run.id to retrive the feature importance values
client = ExplanationClient.from_run_id(ws, experiment_name, run.id)
global_explanation = client.download_model_explanation()
local_importance_values = global_explanation.local_importance_values
expected_values = global_explanation.expected_values
# Get the top k (e.g., 4) most important features with their importance values
global_explanation_topk = client.download_model_explanation(top_k=4)
global_importance_values = global_explanation_topk.get_ranked_global_values()
global_importance_names = global_explanation_topk.get_ranked_global_names()

生成的解釋上傳到 Azure 機器學習運行歷史記錄后,您可以在 Azure 機器學習工作室 中的解釋儀表板上查看可視化。

圖 1 :顯示模型性能和特性重要性的解釋儀表板。

我們在 Azure 中的單個 explain _全局調用上對 CPU 和 GPU 實現進行了基準測試。 explain _ global 函數在使用 explain _ local 時返回聚合特征重要性值,而不是實例級特征重要性值。我們比較了 cuml 。 svm 。 SVR ( kernel =’ rbf ‘)與 sklearn 。 svm 。 SVR ( kernel =’ rbf ‘)對形狀為( 10000 , 40 )的合成數據的影響。

從表 1 中我們可以觀察到,當我們使用 GPU 虛擬機( Standard _ NC6S _ v3 )時,與具有 16 個內核的 CPU 虛擬機( Standard _ DS5 _ v2 )相比, 2000 行解釋的速度提高了 420 倍。我們注意到,在 16 核 CPU 虛擬機上使用 64 核 CPU 虛擬機(標準_ D64S _ v3 )可以產生更快的 CPU 運行時間(大約 1 。 3 倍)。這種更快的 CPU 運行仍然比 GPU 運行慢得多,而且更昂貴。 GPU 運行速度快了 380 倍,成本為 0 。 52 美元,而 64 核 CPU 虛擬機的成本為 23 美元。我們在 Azure 的美國東部地區進行了實驗。

圖 2 : Azure 上 CPU 和 GPU 虛擬機的比較。

表 1 :標準 DS5 和標準 NC6s _ v3 的比較。

從我們的實驗來看,在 Azure 上使用 cuML 的 KernelExplainer 被證明更具成本和時間效率。隨著行數的增加,速度會更好。 GPU SHAP 不僅解釋了更多的數據,而且還節省了更多的資金和時間。這會對時間敏感的企業產生巨大影響。

這是一個簡單的例子,說明如何在 Azure 上使用 cuML 的 SHAP 進行解釋。這可以擴展到具有更有趣的模型和數據集的更大示例。

關于作者

Nanthini 是 NVIDIA 的數據科學家和軟件開發人員。她在 RAPIDS 團隊工作,該團隊專注于使用 GPU 加速數據科學管道。她的工作包括進行概念驗證、開發和維護功能、將 RAPIDS 與外部框架集成,以及通過示例用例演示這些工具的使用。最近,她一直致力于 RAPIDS 框架和微軟解釋之間的集成。 2019 ,她獲得了賓夕法尼亞大學計算機科學碩士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4744

    瀏覽量

    129018
  • 機器學習
    +關注

    關注

    66

    文章

    8423

    瀏覽量

    132751
收藏 人收藏

    評論

    相關推薦

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    設計專門的編碼器處理視覺、觸覺、位置等不同類型的傳感器數據,再用cross-attention機制將它們對齊到同一語義空間。這種設計不僅提高了模型的感知能力,還增強了推理過程的可解釋性。在實驗中,RT-1
    發表于 12-24 15:03

    基于LIBS技術的煤炭灰分、揮發分和熱值定量分析及特征工程研究

    光譜進行了可解釋性實驗。 一、引言 煤質分析對于促進煤炭資源的合理利用具有重要意義,其中煤炭的灰分、揮發分和熱值是影響燃煤電廠混煤入爐、爐膛燃燒等工作的關鍵信息。傳統的LIBS光譜檢測需要耗費很長時間從煤樣光譜中篩選元
    的頭像 發表于 11-20 11:05 ?189次閱讀
    基于LIBS技術的煤炭灰分、揮發分和熱值定量分析及特征工程研究

    RAPIDS cuDF將pandas提速近150倍

    在 NVIDIA GTC 2024 上,NVIDIA 宣布,RAPIDS cuDF 當前已能夠為 950 萬 pandas 用戶帶來 GPU 加速,且無需修改代碼。
    的頭像 發表于 11-20 09:52 ?208次閱讀
    <b class='flag-5'>RAPIDS</b> cuDF將pandas提速近150倍

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征。基于分層注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?302次閱讀
    一種基于因果路徑的層次圖卷積注意力網絡

    FPGA加速深度學習模型的案例

    FPGA(現場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習模型的案例: 一、基于FPG
    的頭像 發表于 10-25 09:22 ?254次閱讀

    常見AI大模型的比較與選擇指南

    在選擇AI大模型時,明確具體需求、了解模型的訓練數據、計算資源要求和成本,并考慮模型可解釋性和社區支持情況等因素至關重要。以下是對常見AI大模型
    的頭像 發表于 10-23 15:36 ?920次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理
    的頭像 發表于 07-24 11:38 ?913次閱讀

    基于FPGA的脈沖神經網絡模型應用探索

    隨著人工智能技術的飛速發展,脈沖神經網絡(Spiking Neural Network, SNN)作為一種模擬生物神經系統處理信息的計算模型,因其獨特的生物可解釋性和低能耗特性而受到廣泛關注。然而
    的頭像 發表于 07-12 10:08 ?590次閱讀

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    直觀地解釋和理解。這可能會影響模型可解釋性和可信賴,特別是在需要高度可靠的場景中。 通過修改注意力機制的計算方式或引入新的架構來降低
    發表于 06-07 14:44

    【大語言模型:原理與工程實踐】大語言模型的評測

    模型解釋如“種瓜得瓜,種豆得豆”這樣的中文古語。對于模型的回答,我們主要依據準確和全面兩個指標進行評估。準確
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】核心技術綜述

    中應用,需要考慮到性能、可擴展性和安全等因素。 大語言模型正在快速發展,新技術不斷涌現。未來的研究可能集中在提高模型效率、理解和可解釋性以及確保
    發表于 05-05 10:56

    Meta發布SceneScript視覺模型,高效構建室內3D模型

    Meta 表示,此模型具備創建室內 3D 模型的高效與輕便,僅需幾KB內存便能生成完整清晰的幾何圖形,同時,這些形狀數據具備可解釋性,便于用戶理解和編輯。
    的頭像 發表于 03-26 11:16 ?584次閱讀

    AI算法在礦山智能化中的應用全解析

    調度、強化學習、異常檢測和診斷以及數據融合和信息集成等方面。此外,還需關注數據基礎設施、系統集成、網絡安全、人工智能倫理和可解釋性等問題。通過整合這些技術和方法,礦山企業可以提高生產效率、降低風險、減少成本,實現可持續發展。
    的頭像 發表于 03-20 10:59 ?687次閱讀
    AI算法在礦山智能化中的應用全解析

    愛立信推出認知軟件新功能

    日前,愛立信宣布在其專為運營商設計的認知軟件組合中,新增采用“可解釋性人工智能(Explainable AI,XAI)”的新功能,進一步加速在網絡設計和優化中采用人工智能后的價值轉化。
    的頭像 發表于 02-22 09:22 ?5262次閱讀

    頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監督異常檢測

    Density-based方法:基于密度的方法通常采用預訓練的模型來提取輸入圖像的有意義嵌入向量,測試圖像時通過計算嵌入表示與參考表示分布之間的相似度以得到異常分數。這種方法在MVTec AD等數據集上取得了較高的指標分數,但需要預訓練模型加持且
    的頭像 發表于 01-11 16:02 ?1341次閱讀
    頂刊TIP 2023!浙大提出:基于全頻域通道選擇的的無監督異常檢測
    主站蜘蛛池模板: 特级全黄一级毛片视频| 欧美军同video69视频| 美女张开腿露尿口给男人亲| 久久99热久久精品| 精彩视频一区二区三区| 在线视免费频观看韩国aaa| 给我免费播放片黄色| 在线看片国产| 男女一级大黄| 在线免费观看h| 日韩高清成人毛片不卡| 最色网站| 色老头在线官方网站| 久久综合亚洲| 高清色本在线www| 深夜视频免费在线观看| 在线视频91| 久久99热久久精品99| 四虎影院.com| 久久偷窥视频| 7m凹凸精品分类大全免费| 日日干视频| 欧美宗合网| 在线成人亚洲| 麒麟色欧美影院在线播放| 国产亚洲精品激情都市| 天天性综合| 2o18国产大陆天天弄| 激情亚洲婷婷| 日本免费观看完整视频| 国产成人永久免费视频| 色片在线| 亚洲精品老司机综合影院| 五月婷婷在线免费观看| 久久欧洲视频| 天天草视频| 中文字幕一区在线观看| 四虎最新地址| 成人伊在线影院| 操碰91| 一级毛片aaa片免费观看|