NVIDIA 深度學(xué)習(xí)學(xué)院( DLI )正在為如何構(gòu)建異常檢測(cè)的人工智能應(yīng)用提供指導(dǎo)者、動(dòng)手訓(xùn)練。
異常檢測(cè)是識(shí)別數(shù)據(jù)集中異常偏離的數(shù)據(jù)的過程。與識(shí)別統(tǒng)計(jì)異常值的簡(jiǎn)單過程不同,異常檢測(cè)旨在發(fā)現(xiàn)在其上下文中不應(yīng)被視為正常的數(shù)據(jù)。
異常可以包括與捕獲和標(biāo)記的異常相似的數(shù)據(jù)、在不同上下文中可能正常但不在其出現(xiàn)的上下文中的數(shù)據(jù),以及只能通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)的洞察理解為異常的數(shù)據(jù)。
在許多商業(yè)和研究環(huán)境中,異常檢測(cè)是一種強(qiáng)大而重要的工具。醫(yī)療保健專業(yè)人員使用異常檢測(cè)更早更有效地識(shí)別人類疾病的跡象。 IT 和 DevOps 團(tuán)隊(duì)針對(duì)任何數(shù)量的業(yè)務(wù)應(yīng)用異常檢測(cè)來識(shí)別可能導(dǎo)致性能下降或服務(wù)丟失的事件。營(yíng)銷和財(cái)務(wù)團(tuán)隊(duì)利用異常檢測(cè)來識(shí)別對(duì)其 KPI 有重大影響的特定事件。
簡(jiǎn)言之,任何團(tuán)隊(duì)都可以從與他們的目標(biāo)相關(guān)的數(shù)據(jù)中識(shí)別特殊情況中獲益,這可能會(huì)從異常檢測(cè)的有效使用中獲益。
異常檢測(cè)方法
考慮到異常檢測(cè)的各種重要應(yīng)用,有許多方法可用于執(zhí)行異常檢測(cè),這并不奇怪。確定哪種方法對(duì)給定場(chǎng)景最有效的一個(gè)有用因素是,是否已經(jīng)存在指示哪些樣本異常的標(biāo)記數(shù)據(jù)。當(dāng)可以定義異常并且存在足夠的代表性數(shù)據(jù)時(shí),可以使用監(jiān)督學(xué)習(xí)方法。或者,在沒有此類標(biāo)記數(shù)據(jù)的情況下,可能需要無(wú)監(jiān)督的方法,但仍然需要檢測(cè)新的異常。
DLI workshop 人工智能在異常檢測(cè)方面的應(yīng)用包括監(jiān)督和非監(jiān)督情況。利用 KDD 網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)集,采用監(jiān)督 XGBoost 模型檢測(cè)異常網(wǎng)絡(luò)流量。此外,該模型經(jīng)過訓(xùn)練,不僅可以將尚未發(fā)現(xiàn)的異常數(shù)據(jù)分類為攻擊的一部分,還可以識(shí)別攻擊的種類。
對(duì)于無(wú)監(jiān)督學(xué)習(xí)方法,考慮了兩種方法,首先是訓(xùn)練深度自編碼神經(jīng)網(wǎng)絡(luò)。接著介紹了一種雙網(wǎng)絡(luò)生成對(duì)抗網(wǎng)絡(luò)( GAN ),其中分量鑒別器網(wǎng)絡(luò)執(zhí)行異常檢測(cè)。下面是每種方法的更多細(xì)節(jié)。
XGBoost 詳細(xì)信息
XGBoost 是一種優(yōu)化的梯度增強(qiáng)算法,具有廣泛的應(yīng)用。除了廣泛的實(shí)際使用案例外, XGBoost 還憑借其在 Kaggle 數(shù)據(jù)科學(xué)競(jìng)賽中廣泛而有效的表現(xiàn)贏得了良好的聲譽(yù)。鑒于存在用于訓(xùn)練的標(biāo)記數(shù)據(jù),異常檢測(cè)問題被認(rèn)為是一個(gè)分類問題,其中經(jīng)過訓(xùn)練的 XGBoost 模型識(shí)別出保持測(cè)試數(shù)據(jù)中的異常。 NVIDIA GPU 通過并行化訓(xùn)練來加速 XGBoost ,首先作為二進(jìn)制分類器,然后作為識(shí)別異常類型的多類分類器。
AE 詳細(xì)信息
深度自動(dòng)編碼器由兩個(gè)對(duì)稱部分組成。第一部分稱為編碼器,將數(shù)據(jù)壓縮或“編碼”為低維潛在表示。第二部分,解碼器,嘗試從編碼器產(chǎn)生的潛在向量重構(gòu)原始輸入。在訓(xùn)練期間,編碼器和解碼器都進(jìn)行了優(yōu)化,以創(chuàng)建輸入數(shù)據(jù)的潛在表示,從而更好地捕獲其基本方面。當(dāng)用低異常率進(jìn)行訓(xùn)練時(shí),潛在向量比異常更能代表豐富的正常數(shù)據(jù)樣本。因此,解碼器的輸出將比異常更可靠地重建正常數(shù)據(jù)。通過自動(dòng)編碼器傳遞正常數(shù)據(jù)將產(chǎn)生比異常更低的重建誤差,通過設(shè)置該誤差的閾值來完成分類。
GAN 細(xì)節(jié)
生成性對(duì)抗網(wǎng)絡(luò)由兩個(gè)相互競(jìng)爭(zhēng)以提高整體性能的神經(jīng)網(wǎng)絡(luò)組成。其中一個(gè)網(wǎng)絡(luò),生成器,學(xué)習(xí)獲取一個(gè)隨機(jī)種子,并從與訓(xùn)練集數(shù)據(jù)相同的分布中生成一個(gè)人工數(shù)據(jù)樣本。第二個(gè)網(wǎng)絡(luò),鑒別器,學(xué)習(xí)區(qū)分來自訓(xùn)練數(shù)據(jù)集的樣本和生成器生成的樣本。
當(dāng)正確地訓(xùn)練時(shí),生成器將學(xué)習(xí)提供逼真的人工數(shù)據(jù)樣本,而鑒別器可以準(zhǔn)確地識(shí)別訓(xùn)練集中出現(xiàn)的數(shù)據(jù)。當(dāng)使用代表非正常數(shù)據(jù)的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),生成器能夠創(chuàng)建類似正常數(shù)據(jù)的新樣本,鑒別器能夠?qū)颖痉诸悶檎颖尽?/p>
最典型的是, GAN 的訓(xùn)練目標(biāo)是使用生成器生成新的、逼真的數(shù)據(jù)樣本,同時(shí)丟棄鑒別器。然而,對(duì)于異常檢測(cè),將生成器放在一邊,利用鑒別器確定未知輸入數(shù)據(jù)是正常的還是異常的。
了解更多
人工智能驅(qū)動(dòng)的異常檢測(cè)提供了豐富的,有時(shí)是跨廣泛領(lǐng)域的基本功能。此外,適用于異常檢測(cè)的技術(shù)也可以在其他人工智能領(lǐng)域發(fā)揮巨大作用。
關(guān)于作者
Josh Wyatt 是一位經(jīng)驗(yàn)豐富的軟件工程師、講師和課程開發(fā)人員,為NVIDIA 深度學(xué)習(xí)學(xué)院開發(fā)內(nèi)容。 Josh 幫助培訓(xùn)了全世界數(shù)千名開發(fā)人員、研究人員和數(shù)據(jù)科學(xué)家,在加速計(jì)算、數(shù)據(jù)科學(xué)和深度學(xué)習(xí)領(lǐng)域構(gòu)建 GPU 加速應(yīng)用程序。喬希擁有加州圣瑪麗學(xué)院哲學(xué)學(xué)士學(xué)位。
審核編輯:郭婷
-
人工智能
+關(guān)注
關(guān)注
1792文章
47442瀏覽量
238996 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121298
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論