在機(jī)器學(xué)習(xí)( ML )過程中,無法確保數(shù)據(jù)隱私,這往往阻礙了人工智能( AI )在金融服務(wù)中充分發(fā)揮潛力。例如,傳統(tǒng)的 ML 方法假設(shè)所有數(shù)據(jù)都可以移動(dòng)到中央存儲(chǔ)庫。
在處理數(shù)據(jù)主權(quán)和安全考慮或個(gè)人識(shí)別信息等敏感數(shù)據(jù)時(shí),這是一個(gè)不切實(shí)際的假設(shè)。更實(shí)際地說,它忽略了數(shù)據(jù)出口挑戰(zhàn)和創(chuàng)建大型池?cái)?shù)據(jù)集的巨大成本。
對(duì)于訓(xùn)練 ML 模型有價(jià)值的大量?jī)?nèi)部數(shù)據(jù)集仍然沒有使用。金融服務(wù)行業(yè)的公司如何利用自己的數(shù)據(jù),同時(shí)確保隱私和安全?
這篇文章介紹了聯(lián)合學(xué)習(xí),并解釋了它對(duì)處理敏感數(shù)據(jù)集的企業(yè)的好處。我們介紹了在金融服務(wù)中使用聯(lián)邦學(xué)習(xí)的三種方法,并提供了關(guān)于今天開始的提示。
什么是聯(lián)合學(xué)習(xí)
聯(lián)合學(xué)習(xí)是一種 ML 技術(shù),它可以從多個(gè)孤立的數(shù)據(jù)集中提取見解,而無需共享數(shù)據(jù)或?qū)?shù)據(jù)移動(dòng)到中央存儲(chǔ)庫或服務(wù)器中。
例如,假設(shè)您有多個(gè)要用于訓(xùn)練 AI 模型的數(shù)據(jù)集。今天的標(biāo)準(zhǔn) ML 方法要求首先在一個(gè)地方收集所有訓(xùn)練數(shù)據(jù)。然而,對(duì)于世界上許多敏感的數(shù)據(jù)來說,這種方法是不可行的。這使得許多數(shù)據(jù)集和用例無法應(yīng)用人工智能技術(shù)。
另一方面,聯(lián)合學(xué)習(xí)并不假設(shè)可以創(chuàng)建一個(gè)統(tǒng)一的數(shù)據(jù)集。而是將分布式訓(xùn)練數(shù)據(jù)集留在原地。
該方法包括創(chuàng)建模型的多個(gè)版本,并將一個(gè)版本發(fā)送到數(shù)據(jù)集所在的每個(gè)服務(wù)器或設(shè)備。每個(gè)站點(diǎn)在其數(shù)據(jù)子集上本地訓(xùn)練模型,然后僅將模型參數(shù)發(fā)送回中央服務(wù)器。這是聯(lián)合學(xué)習(xí)的關(guān)鍵特性:只共享模型更新或參數(shù),而不共享訓(xùn)練數(shù)據(jù)本身。這保護(hù)了數(shù)據(jù)隱私和主權(quán)。
最后,中央服務(wù)器收集每個(gè)站點(diǎn)的所有更新,并智能地將“迷你模型”聚合為一個(gè)全局模型。該全局模型可以從整個(gè)數(shù)據(jù)集捕獲洞察,即使實(shí)際數(shù)據(jù)無法組合。
請(qǐng)注意,這些本地站點(diǎn)可以是服務(wù)器、智能手機(jī)等邊緣設(shè)備,或者任何可以在本地進(jìn)行訓(xùn)練并將模型更新發(fā)送回中央服務(wù)器的機(jī)器。
隱私保護(hù)技術(shù)的優(yōu)勢(shì)
醫(yī)療保健領(lǐng)域的大規(guī)模合作證明了多個(gè)獨(dú)立方使用聯(lián)合學(xué)習(xí)聯(lián)合訓(xùn)練人工智能模型的現(xiàn)實(shí)可行性。然而,聯(lián)合學(xué)習(xí)不僅僅是與外部合作伙伴合作。
在金融機(jī)構(gòu)中,我們看到了一個(gè)難以置信的機(jī)會(huì),可以通過聯(lián)合學(xué)習(xí)來彌合內(nèi)部數(shù)據(jù)孤島。隨著企業(yè)為新產(chǎn)品收集所有可行數(shù)據(jù),包括推薦系統(tǒng)、欺詐檢測(cè)系統(tǒng)和呼叫中心分析,全公司的投資回報(bào)率可能會(huì)增加。
然而,隱私問題并不局限于金融數(shù)據(jù)。今天,全球范圍內(nèi)頒布的數(shù)據(jù)隱私立法浪潮(從歐洲的 GDPR 和加利福尼亞的 CCPA 開始,許多類似的法律即將出臺(tái))只會(huì)持續(xù)一段時(shí)間 加速對(duì)隱私保護(hù) ML 技術(shù)的需求 在所有行業(yè)中。
預(yù)計(jì)聯(lián)邦學(xué)習(xí)將在未來幾年成為人工智能工具集的重要組成部分。
實(shí)際業(yè)務(wù)用例
ML 算法需要數(shù)據(jù)。此外, ML 模型的實(shí)際性能不僅取決于數(shù)量除了數(shù)據(jù)之外關(guān)聯(lián)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類。
許多組織可以通過合并新的數(shù)據(jù)集來改進(jìn)當(dāng)前的人工智能模型,這些數(shù)據(jù)集在不犧牲隱私的情況下無法輕松訪問。這就是聯(lián)邦學(xué)習(xí)的用武之地。
聯(lián)合學(xué)習(xí)使公司能夠利用新的數(shù)據(jù)資源,而無需數(shù)據(jù)共享。
大體上,聯(lián)邦學(xué)習(xí)支持三種類型的用例:
公司內(nèi)部:橋接內(nèi)部數(shù)據(jù)倉庫
公司間:促進(jìn)組織間的合作
邊緣計(jì)算:跨數(shù)千臺(tái)邊緣設(shè)備學(xué)習(xí)
公司內(nèi)部用例:利用孤立的內(nèi)部數(shù)據(jù)
單個(gè)公司可能依賴多個(gè)數(shù)據(jù)存儲(chǔ)解決方案的原因有很多。例如:
數(shù)據(jù)治理規(guī)則例如 GDPR 可能需要將數(shù)據(jù)保存在特定的地理位置,并指定保留和隱私策略。
并購來自合作伙伴公司的新數(shù)據(jù)。然而,將這些數(shù)據(jù)集成到現(xiàn)有存儲(chǔ)系統(tǒng)的艱巨任務(wù)往往會(huì)使數(shù)據(jù)長(zhǎng)期分散。
兩者都是前提 和混合云使用存儲(chǔ)解決方案,移動(dòng)大量數(shù)據(jù)的成本很高。
聯(lián)合學(xué)習(xí)使您的公司能夠跨不同業(yè)務(wù)組織、地理區(qū)域或數(shù)據(jù)倉庫中的孤立數(shù)據(jù)集利用 ML ,同時(shí)保護(hù)隱私和安全。
圖 1.公司內(nèi)部聯(lián)合學(xué)習(xí)用例的工作流。聯(lián)邦服務(wù)器存儲(chǔ)全局模型并從客戶端節(jié)點(diǎn)接收參數(shù)。
公司間用例:與外部合作伙伴協(xié)作
收集足夠的定量數(shù)據(jù)來構(gòu)建強(qiáng)大的人工智能模型對(duì)于一家公司來說是困難的。假設(shè)一家保險(xiǎn)公司正在構(gòu)建一個(gè)有效的欺詐檢測(cè)系統(tǒng)。該公司只能從觀察到的事件中收集數(shù)據(jù),如客戶提出索賠。然而,這些數(shù)據(jù)可能無法代表整個(gè)人群,因此可能會(huì)導(dǎo)致人工智能模型偏差。
為了構(gòu)建有效的欺詐檢測(cè)系統(tǒng),該公司需要更大的數(shù)據(jù)集和更多樣化的數(shù)據(jù)點(diǎn)來訓(xùn)練穩(wěn)健、可推廣的模型。許多組織可以從與其他組織共享數(shù)據(jù)中受益。實(shí)際上,大多數(shù)組織不會(huì)在通用超級(jí)計(jì)算機(jī)或云服務(wù)器上共享其專有數(shù)據(jù)集。
圖 2.公司間聯(lián)合學(xué)習(xí)用例的工作流。聯(lián)邦服務(wù)器存儲(chǔ)全局模型并從客戶端節(jié)點(diǎn)接收參數(shù)。
為全行業(yè)的挑戰(zhàn)提供這種合作可以帶來巨大的好處。
例如 現(xiàn)實(shí)世界中最大的聯(lián)合協(xié)作之一 ,我們看到五大洲的 20 家獨(dú)立醫(yī)院訓(xùn)練了一個(gè)人工智能模型,用于預(yù)測(cè)新冠肺炎感染患者的氧氣需求。通過參與聯(lián)邦系統(tǒng),醫(yī)院的通用性平均提高了 38% ,模型性能提高了 16% 。
同樣,在信用卡網(wǎng)絡(luò)減少欺詐活動(dòng)和銀行采取反洗錢舉措的同時(shí),維護(hù)客戶隱私也是一個(gè)真正的機(jī)會(huì)。聯(lián)合學(xué)習(xí)增加了單個(gè)銀行可用的數(shù)據(jù),這有助于解決代理銀行的洗錢活動(dòng)等問題。
邊緣計(jì)算:智能手機(jī)和物聯(lián)網(wǎng)
谷歌 最初于 2017 年引入聯(lián)邦學(xué)習(xí),以針對(duì)分布在數(shù)十億移動(dòng)設(shè)備上的個(gè)人數(shù)據(jù)訓(xùn)練人工智能模型。 2022 年,更多的設(shè)備連接到互聯(lián)網(wǎng),包括智能手表、家庭助理、報(bào)警系統(tǒng)、恒溫器,甚至汽車。
聯(lián)邦學(xué)習(xí)對(duì)于不斷為 ML 模型收集有價(jià)值數(shù)據(jù)的各種邊緣設(shè)備都很有用,但這些數(shù)據(jù)通常對(duì)隱私敏感,數(shù)量大,或者兩者兼有,這會(huì)阻止登錄到數(shù)據(jù)中心。
聯(lián)合學(xué)習(xí)如何適應(yīng)現(xiàn)有的工作流程
需要注意的是,聯(lián)合學(xué)習(xí)是一種通用技術(shù)。聯(lián)合學(xué)習(xí)不僅僅是訓(xùn)練神經(jīng)網(wǎng)絡(luò);相反,它適用于數(shù)據(jù)分析、更傳統(tǒng)的 ML 方法或任何其他分布式工作流。
聯(lián)邦學(xué)習(xí)中很少有假設(shè),也許只有兩個(gè)值得一提: 1 )本地站點(diǎn)可以連接到中央服務(wù)器, 2 )每個(gè)站點(diǎn)都有最少的計(jì)算資源進(jìn)行本地培訓(xùn)。
除此之外,您還可以自由地使用自定義的本地和全局聚合行為設(shè)計(jì)自己的應(yīng)用程序。您可以決定對(duì)不同方的信任程度,以及與中央服務(wù)器共享的信任程度。聯(lián)邦系統(tǒng)可根據(jù)您的特定業(yè)務(wù)需求進(jìn)行配置。
例如,聯(lián)邦學(xué)習(xí)可以與其他隱私保護(hù)技術(shù)相結(jié)合,如差分隱私(增加噪聲)和同態(tài)加密(加密模型更新并模糊中央服務(wù)器看到的內(nèi)容)。
開始聯(lián)合學(xué)習(xí)
我們開發(fā)了一個(gè) 聯(lián)邦學(xué)習(xí)代碼示例 這展示了如何在對(duì)應(yīng)于兩個(gè)不同地理區(qū)域的信用卡交易數(shù)據(jù)集的兩個(gè)不同分割上訓(xùn)練全局欺詐預(yù)測(cè)模型。
關(guān)于作者
Annika Brundyn 是 NVIDIA 的解決方案架構(gòu)師。她從嵌入式系統(tǒng)和計(jì)算機(jī)視覺開始工作,現(xiàn)在正在為金融服務(wù)開發(fā)聯(lián)邦學(xué)習(xí)和圖形神經(jīng)網(wǎng)絡(luò)。此前,安妮卡在紐約大學(xué)獲得了數(shù)據(jù)科學(xué)碩士學(xué)位,她在那里從事手術(shù)視頻的三維重建研究。她在開普敦大學(xué)完成了精算學(xué)和統(tǒng)計(jì)學(xué)學(xué)士學(xué)位。
審核編輯:郭婷
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18515瀏覽量
180597 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9255瀏覽量
85755 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132841
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論