如今的數據中心承載著許多用戶和各種應用,它們甚至已經成為科研、技術和全球產業競爭優勢的關鍵因素。隨著科學計算復雜性的增加,數據中心的運營成本也在不斷上升。除了要防止運營安全隱患的干擾外,保持數據中心的完整和平滑運行也至關重要。
更重要的是,惡意用戶可能會利用數據中心的訪問權限,運行被禁止的應用,濫用計算資源,進而導致意外停機以及更高的運營成本。對于今天的 IT 經理和支持開發者而言,能夠快速識別問題并提高效率的數據中心管理工具比以往任何時候都更加重要。
NVIDIA 以圖形處理能力和出色 GPU 計算性能而聞名,廣泛應用于各個研究領域。同時, NVIDIA 也是安全和可擴展數據中心技術的領導者,提供了各種靈活的庫和工具,來最大程度地優化業界一流的基礎設施。
要為當今研究和商業領域最關鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務器平臺、GPU 以及部署在整個數據中心的豐富軟件組合,而且還需要關注到安全和可管理性是建立數據中心基礎設施的關鍵支柱。
NVIDIA UFM Cyber-AI
為 InfiniBand 數據中心帶來變革
NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平臺提供增強的實時網絡遙測功能,并結合了 AI 智能和先進的分析技術,讓 IT 經理能夠發現運營異常,甚至預測網絡故障。這既提高了安全性和數據中心的正常運行時間,又降低了整體運營費用。
UFM Cyber-AI 的獨特優勢在于它能夠捕獲豐富的遙測信息并采用 AI 技術來識別事件之間的隱形關聯,從而檢測到異常的系統和應用行為,而且在引發組件或系統故障之前就能識別到性能的下降。UFM Cyber-AI 甚至可以實時采取修正措施。該平臺能夠學習數據中心的典型運行模式,并根據網絡遙測數據(包括流量模式、溫度等)檢測異常使用情況。
UFM Cyber-AI 基本原理
如UFM Cyber-AI 包含三個不同的層級。
輸入遙測:以多種方式從網絡中采集信息并學習:
網絡中各種元素的遙測信息
網絡拓撲結構(租戶或應用的連接與資源分配)
網絡設備特性和功能
處理模型:包含若干模型,如:用于數據準備的提取、轉換和加載(ETL)處理引擎。它還包含用于對比的聚合、數據存儲和分析模型。UFM Cyber-AI 使用用于異常檢測和預測的機器學習(ML)技術和AI模型來學習數據中心網絡組件(線纜、交換機、端口、InfiniBand 網卡)的生命周期模式。
輸出 dashboard:一個顯示中央 dashboard 的可視化層,讓網絡管理員和云編排人員可以查看警報和建議,以提高網絡利用率和效率并解決網絡健康問題。dashboard 分為兩個主要類別:可疑行為和鏈接分析,每個類別都包含警報和預測部分。
UFM Cyber-AI
功能豐富、簡潔直觀的自定義網絡管理器
UFM Cyber-AI 還支持自定義網絡警報,或查看隨時間變化的異常情況,以及不同時間維度情況。通過使用基于小時或星期參數的聚合網絡統計數據,可基于可能偏離正常操作使用的測量結果來設置閾值和配置通知。例如可以使用預定義閾值來識別有問題的線纜。
內置分析功能將當前的遙測信息與基于時間的匯總信息進行比較,以檢測系統使用或流量模式中任何可疑的增加或減少并立即通知系統管理員。UFM Cyber-AI 還通過鏈路或端口遙測信息提供數據中心租戶或應用警報,并識別與底層 PKEY 相關的統計數據及其相關節點。
目前只有 UFM Cyber-AI 提供支持預測性維護的鏈路故障預測等功能。通過在早期階段監測性能下降情況,UFM Cyber-AI 可以預測潛在的鏈路或端口故障,使管理員能夠進行及時維護進而規避數據中心的故障停機。
NVIDIA Morpheus 賦能未來
要為 InfiniBand 帶來最強大的網絡管理解決方案,就必須通過不斷創新來應對當今數據中心管理的復雜性。NVIDIA 計劃將 NVIDIA Morpheus 與 UFM Cyber-AI(圖 3)進行集成,以從其他數據中心元件中獲取更多遙測信息,例如基于服務器或機架的組件遙測或 DPU、GPU 和應用計數器。
我們甚至可以提供一個可以直接與 Kafka(一個用于高性能數據流水線、流分析和數據整合的開源分布式事件流平臺)等其他 API 對接的附加層。用戶可以使用該集成對開發者定義的操作系統異常進行特定檢測,例如在一個專門用于生命科學研究的系統上進行加密挖掘檢測。
Morpheus 是一個為網絡安全開發者提供高度優化 AI 流水線和預訓練 AI 功能的開放 AI 應用框架。這些功能能夠即時檢查整個數據中心架構中的所有網絡流量。Morpheus 通過提供以下功能將數據中心的安全提升到全新的水平:
動態保護
實時遙測
自適應策略
用于檢測和處理網絡安全威脅的網絡防御措施
隨著 Morpheus 與 UFM Cyber-AI 設備的集成,NVIDIA 可以提供出色、完整的解決方案,為關鍵數據中心提高靈活性和可擴展性,并為開發者提供支持。通過自定義異常檢測和與其他標準化 API 的對接,UFM Cyber-AI 可以成為任何多租戶數據中心或云原生基礎設施的一項靈活資產。
編輯:jq
-
NVIDIA
+關注
關注
14文章
5026瀏覽量
103284
原文標題:使用 NVIDIA UFM Cyber-AI 安全、智能地管理數據中心
文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論