演講嘉賓 | 李 屹
回顧整理 | 廖 濤
排版校對 | 李萍萍
嘉賓介紹
OS安全分論壇
李屹,華為OS內核實驗室安全技術專家與助理科學家。主要研究領域包括操作系統安全、軟件形式化證明、超低時延軟件建模與開發等。目前主要參與的工作包括:自研自動形式化證明平臺(支撐鴻蒙內核獲得CC EAL 6+高等級安全認證)、基于操作系統內核層面構建的數據安全底座等。
視頻回顧
打開嗶哩嗶哩APP,觀看更清晰視頻
正文內容
大模型已成為當下AI產業最大熱點,業界也正在積極探索大模型的應用場景。然而,大模型背后依賴的是海量的訓練數據與交互數據,人工智能的黑盒機制導致大模型在實踐中不可避免地存在敏感數據的安全挑戰。如何從操作系統視角應對大模型應用中的數據安全挑戰?華為OS內核安全專家、副首席科學家李屹在第二屆OpenHarmony技術大會上進行了精彩分享。
圖像模型、大語言模型、多模態模型等大模型在研發的各階段為我們帶來巨大的生產力提升,例如:(1)協助編碼:代碼補全、知識檢索、測試用例生成;(2) 文檔寫作:語言翻譯、文檔潤色、文稿寫作;(3)數據處理:自動分析、數據制圖;(4)智能助手:Rewind、ChatGPT Mobile App。大模型的核心能力是數據的理解與處理,因此它所獲取的用戶數據越多,能為使用者提供的幫助也就越多,其帶來的便利,本質上也是“對于數據的深度理解和處理”。然而,當用戶深度使用大模型或者越來越依賴大模型能力時,隨著大模型自身能力的增強,用戶數據濫用的危害就越大。
因此,保障數據安全是我們放心使用大模型應用的必要前提。從被保護對象的角度出發,大模型數據安全挑戰主要有以下兩個方面:
保護用戶數據不被濫用。要求用戶數據的獲取和使用應當符合用戶的授權;模型自身無法濫用用戶數據;惡意攻擊者無法通過攻擊大模型應用來獲取其中的用戶數據。
保護模型資產免受攻擊。要求模型資產的獲取和使用應當符合模型開發者的授權;惡意使用者無法通過攻擊大模型應用來獲取模型數據。
為什么我們希望基于操作系統來實施數據安全保護手段?
通常而言,每個應用或者應用生態都會自己構建一定的數據安全保護能力。然而,由于應用層構建的安全能力往往各自為戰,導致系統整體存在“千里之堤,潰于蟻穴”的風險。在數據共享的背景下,數據安全是一個完整的體系。其中任意一環被攻破即導致整體數據安全保護失效。
舉例來說,如果在應用層構建DLP(數據防泄漏)解決方案。由于安全能力構建于各個應用之中,而應用之間會產生數據共享。因此一旦其中一個應用出現問題或者被攻破,那么就會造成整體的數據泄露風險。
在操作系統層如何構建數據安全保護能力?可以基于3個維度:隔離、跟蹤和協同。
一、隔離:構建可信的隔離空間來運行大模型應用。當我們要保護數據的時候,最簡單,也最能令用戶信服的數據保護方式,就是讓數據始終留在端側。但是,由于大模型本身的黑盒特性,用戶并不信任應用,那么誰來保證數據不出端呢?例如,當用戶想詢問大模型今天的天氣怎么樣,需要穿什么衣服出門時,大模型需要知道用戶的位置信息,且還需要從線上的其他地方獲取該位置的天氣數據。通過這個例子,很容易看出在部分場景下大模型既需要訪問用戶的個人隱私數據,客觀上也需要聯網或者是訪問外部文件/數據以帶給用戶更好的體驗。
在普通的操作系統中,由于沒有機密域隔離,攻擊者可以利用應用漏洞發起攻擊即可獲取用戶數據和模型資產;通過構建可信的隔離空間,區分機密域和非機密域,可以實現即便攻破應用本身,也無法獲取模型和用戶數據的目的。
二、跟蹤:將無形的數據化為有形,跟蹤數據使用,實施精準管控。盡管通過隔離手段能夠實現數據安全,但在許多場景下大模型都是需要訪問聯網信息的。例如,即使數據質量和參數規模強如ChatGPT,也不可能在模型參數中記錄整個互聯網的知識體系。需要通過搜索插件等在線獲取;Open Interpreter等應用更是將支持聯網作為重要特性;新發布的大模型紛紛原生支持代碼的生成與運行,進一步增加了模型與外部交互的需求。
在大模型應用中,數據本身是無形的,就是一串字節流。如果將應用視作一個黑盒,那么對應用的隔離管控只有“是”與“否”的區別。如果數據類型由操作系統觀測并管理,使大模型應用在使用數據時,操作系統能夠感知該數據是不是敏感數據,從而實現精準定位和管控,保障數據安全。
三、協同:安全調用云端算力,讓應用更加智能。通過隔離和跟蹤,在端側可以實現較為精準可靠的數據安全保護。然而,在現有的硬件設備下,端側算力仍顯不足,而端側算力對大模型的智能程度有很大影響。相較于GPT-3的175B參數規模而言,在實際的手機應用場景,為了平衡功耗,性能等問題,當前的主流端側大模型解決方案都選擇了1B級別的“小”模型。因此,如何通過端云協同來釋放云端算力成為當前的研究熱點。
安全調用云端算力有2個思路:(1)構建端云協同的分布式機密計算環境,從技術上讓數據留在同一個信任域中,實現“技術不出端”;(2)通過操作系統層構建的數據脫敏模塊,來支撐多種不同形式的端云協同推理,實現敏感數據不出域的同時,釋放云端算力。
綜上所述,從操作系統視角,可以從隔離、跟蹤以及協同3個維度應對大模型數據安全問題。后續,希望能夠以操作系統為底座,以數據安全為第一原則,逐步構建可信的原生智能。
「嘉賓材料暫不分享」
E N D
關注我們,獲取更多精彩。
審核編輯 黃宇
-
操作系統
+關注
關注
37文章
6847瀏覽量
123424 -
數據安全
+關注
關注
2文章
681瀏覽量
29959 -
大模型
+關注
關注
2文章
2482瀏覽量
2849
發布評論請先 登錄
相關推薦
評論