有声读物,小说排行榜完结版,管理书籍排行榜

大數據時代的隱私泄露如達摩克利斯之劍，高懸在每個網民頭上，而關于如何保護數據隱私我們也走了很長的路。

1977 年，統計學家 Tore Dalenius 給出關于數據隱私的嚴格定義：攻擊者不能從隱私數據里獲取任何在沒有拿到數據之前他們所不知道的個人信息。

2006 年，計算機學者 Cynthia Dwork 證明上述定義的隱私保護是不存在的。有一個直觀例子可以幫助理解：假設攻擊者知道 Alice 的身高比 Lithuanian 女性平均身高高 2 英寸，這樣攻擊者只需要從一個數據集里獲得 Lithuanian 女性身高平均值（在接觸數據前攻擊者并不知道），就能準確獲得 Alice 的精確身高，甚至 Alice 都不需要在這個數據集里。因此，對于一份有信息量的數據，不可能完全不暴露隱私信息。

2018 年，史上最嚴苛的個人隱私保護法案《通用數據保護條例》（ GDPR ）正式生效，開創了互聯網誕生以來的最大變革，數據隱私問題得到前所未有的重視。

近日，雷鋒網了解到，第四范式先知（ Sage ）企業級 AI 平臺已經完成 PrivacySeal EU 認證工作程序，率先通過歐盟 GDPR 認證，成為國內第一款通過該認證的 AI 平臺產品，實證基于第四范式隱私計算技術的數據安全性和可信任性，那么，他們是如何保護用戶隱私安全的？為此，雷鋒網和第四范式的主任科學家涂威威聊了聊。

匿名化或許是個偽命題？

不知道有多少童鞋記得去年谷歌母公司 Alphabet Inc 因違反隱私數據法被罰款 5000 萬歐元的事情，據說這是迄今為止歐洲范圍內，一家公司因違反隱私數據法遭受到的最高額處罰金。多家英文科技媒體報道時，都用了 “record high”（破紀錄地高）描述處罰力度之狠。

為什么谷歌會受到如此嚴重的懲罰？

首先，谷歌會收集自家相關應用和第三方網頁訪問的活動數據，通過安卓設備的“設備標識”以及“廣告標識符”，將應用數據上傳至谷歌服務器，并與用戶的谷歌賬戶關聯，形成了完整的閉合。簡單來說，谷歌通過被動方式收集的所謂“匿名數據”與用戶的個人信息相關聯 ——繞了一大圈，最后大費周章用“合法手段”應用用戶信息。

同樣地，Google Ad Manager 的 Cookie ID（跟蹤用戶在第三方網頁上的活動緩存信息）是另一個據稱是“用戶匿名”標識符。如果用戶在同一瀏覽器中訪問Google應用程序，Google 可以將其連接到用戶的 Google 帳戶之前訪問過第三方網頁。

換句話說，雖然通常在用戶匿名的情況下收集信息，但 Google 明顯擁有利用從其他來源收集的數據來對此類集合進行去匿名化的能力。

Google 之所以出現這類問題，主要源于其產品在數據流轉及應用上不嚴謹所致，同時，一些常規匿名化手段的技術缺陷同樣不容忽視。

而谷歌的廣告業務幾乎覆蓋了 90% 全球用戶，200 萬個主流網站，也就是說不經意間我們的生活已經被谷歌的 “數據操控” 看了個清清楚楚明明白白。

2010 年，個人隱私律師 Paul Ohm 就曾在 UCLA 法律評論中刊文指出，雖然惡意攻擊者可以使用個人身份信息（如姓名或社會安全號碼）將數據與個人身份進行關聯，但事實證明，即便只擁有那些不會被歸類為“個人身份信息”的信息，他們也可以達到同樣的目的。

Ohm 參考了 Sweeney 早期的一些研究，她發現 1990 年美國人口普查中有 87％的人可以通過兩條信息進行唯一識別：他們的出生日期和他們住址的郵政編碼。Ohm 還引用了 Netflix 以及其他有關數據泄露的案例，并得出結論：在傳統的以個人身份信息為保護重點的匿名化技術下，幾乎任何數據都無法實現永久的完全匿名。

鏈接攻擊、同質化攻擊等方式都可能從匿名化數據中定位個人身份。例如鏈接攻擊，通過數據的半標識符在其他能找到的表上進行查詢，則可能找到對應的身份定位標識符以及其他敏感信息。

2013 年，研究人員發現位置數據具有高度的獨特性，因此更加難以匿名化。許多匿名數據庫都可能間接泄露你的位置，例如刷卡消費或前往醫院就診。研究人員發現，通過每小時記錄4次手機連接到的信號發射塔，就可以對 95％的設備進行唯一識別。如果數據更精細（ GPS 跟蹤而不是信號發射塔，或者實時采集而不是每小時采集），匹配則會變得更加容易。

于是，大家開始意識到“匿名化”這東西并沒有那么安全，我們的信息還是會被竊取。

所以，一向注重用戶隱私的蘋果在 2016 的開發者大會上提出了“差分隱私（Differential Privacy）”的概念。即通過算法來打亂個體用戶數據，讓任何人都不能憑此追蹤到具體的用戶，但又可以允許機構成批分析數據以獲得大規模的整體趨勢用于機器學習。將用戶隱私信息儲存在本機而非云端也是蘋果保護用戶隱私的方法之一。例如 Face ID 面容信息、Touch ID 指紋信息等都存儲在 iPhone 的芯片上。

不過，差分隱私還是無法避免多個相關數據上報而導致的隱私泄露。更何況，道高一尺魔高一丈，匿名方法推陳出新的同時，攻擊者們也會采用更為強力的識別工具。

那么，第四范式推出的差分隱私又是如何做的呢？

機器學習中的隱私保護

據涂威威介紹，目前已有差分隱私機器學習算法上的工作，往往是通過往訓練過程內注入噪聲來實現差分隱私。

常見的有三種：目標函數擾動（objective perturbation）、輸出擾動（output perturbation）、梯度擾動（gradient perturbation）。常見的機器學習算法，以最簡單的 logistic regression 算法為例，已經有成熟的差分隱私算法，以及隱私保護和學習效果上的理論保障。然而就目前的方法以及對應的理論來看，對于隱私保護的要求越高，需要注入的噪聲強度越大，從而對算法效果造成嚴重負面影響。

為了改善上述問題，第四范式基于以往 Stacking 集成學習方法的成效，將 Stacking 方法與差分隱私機器學習算法相結合。Stacking 需要將數據按照樣本分成數份。并且提出了基于樣本和基于特征切分的兩種 Stacking 帶隱私保護的機器學習算法。

在該算法中，數據按樣本被分成兩份，其中一份按特征或按樣本分割后在差分隱私的約束下訓練 K 個子模型，并在第二份上通過差分隱私機器學習算法進行融合。

按特征切分相比過去的算法和按樣本切分算法有更低的泛化誤差。同時，按特征切分有另一個優勢，如果知道特征重要性，第四范式的差分隱私算法可以將其編入算法中，從而使得重要的特征被擾動的更少，在保持整體的隱私保護不變的情況下，可以得到更好的效果。

此外，還可以直接拓展到遷移學習上。即在源數據集上按照特征切分后得到帶隱私保護的模型，通過模型遷移，遷移到目標數據集上并通過 Stacking 進行融合。在這種情況下，源數據可以在不暴露隱私的情況下輸出模型幫助目標數據提升學習效果，而目標數據也可以在保護自身數據隱私的約束下訓練模型。

不過，值得注意的是，以差分隱私為代表的隱私保護技術仍需要在理論、效果、應用、成本等方面進一步解決和優化。

涂威威介紹說：“比如，在成本方面，核心的問題其實是人力。機器學習已經是很復雜的技術，落地需要很專業的人才。當前的隱私保護技術使用門檻較高，在保護隱私的前提下，多方聯合數據建模的常見做法依然需要比較多的專家人工介入到數據預處理、特征工程、模型調參當中，因此落地的人才門檻更高。且人力的介入又會給數據安全與隱私保護帶來一層隱患。”

因此，在差分隱私的基礎上，又衍生出了另一種保護隱私的自動多方機器學習技術。第四范式綜合了差分隱私技術、自動化機器學習技術，讓機器自動完成數據預處理、特征工程、模型調參等工作，大幅減少了專家人工的介入，一方面進一步提升了安全性，另一方面也大幅降低了隱私保護技術的使用門檻，使得廣泛落地成為可能。該技術也將是保證技術規模化落地的關鍵。

最后，雷鋒網想提醒大家，雖然在隱私和便利面前，我們都抓禿了頭，但不代表這就沒法解決了。

電影《絕對控制》中有一句話：“隱私不是公民權，而是特權”；隱私本應是每個公民最基礎的權利，只不過在過去的很長時間中，我們從未意識到行使這項權利，以至于隱私竟變成了“特權”，不過慶幸的是隱私權正在回歸，人們正在拾回分散在互聯網中的隱私

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Google

Google

+關注

關注
5

文章
1769

瀏覽量
57667
算法

算法

+關注

關注
23

文章
4625

瀏覽量
93128
機器學習

機器學習

+關注

關注
66

文章
8429

瀏覽量
132854

深度自然匿名化：隱私保護與視覺完整性并存的未來！

在科技快速發展的當下，個人隱私保護的需求日益凸顯。如何能在隱私保護的基礎上，保持視覺完整性，從而推動企業開發與創新？深度自然匿名化（DNAT）已被證明是傳統模糊化方法的更優替代方案，

發表于 01-15 15:57 ?488次閱讀

深度自然匿名化：<b class='flag-5'>隱私</b><b class='flag-5'>保護</b>與視覺完整性并存的未來！

zeta在機器學習中的應用 zeta的優缺點分析

在探討ZETA在機器學習中的應用以及ZETA的優缺點時，需要明確的是，ZETA一詞在不同領域可能有不同的含義和應用。以下是根據不同領域的ZETA進行的分析：一、ZETA在機器

發表于 12-20 09:11 ?318次閱讀

隱私與安全：動態海外住宅IP如何保護你在線

動態海外住宅IP在保護用戶在線隱私與安全方面發揮著重要作用。

發表于 11-25 08:09 ?127次閱讀

比亞迪獲得國家首批汽車隱私保護標識

近日，在2024中國汽車軟件大會上，中國汽車工業協會與中國網絡安全產業聯盟汽車網絡安全工作委員會聯合頒發“汽車隱私保護”標識證書，比亞迪成為首批通過測評并獲得“汽車隱私

發表于 11-18 16:14 ?302次閱讀

eda在機器學習中的應用

在機器學習項目中，數據預處理和理解是成功構建模型的關鍵。探索性數據分析（EDA）是這一過程中不可或缺的一部分。 1. 數據清洗數據清洗是機器學習

發表于 11-13 10:42 ?353次閱讀

IP地址安全與隱私保護

在當今數字化時代，IP地址作為網絡設備的唯一身份標識，在網絡安全與隱私保護中扮演著至關重要的角色。然而，隨著網絡技術的飛速發展，IP地址也面臨著諸多挑戰，對用戶的隱私和網絡安全構成了潛

發表于 09-03 15:59 ?616次閱讀

平衡創新與倫理：AI時代的隱私保護和算法公平

成了一把雙刃劍，其銳利的一面正逐漸指向我們的核心價值。面對這些挑戰，制定一套有效的AI治理框架和隱私保護機制變得迫在眉睫。確保AI決策的透明度是解決這些問題的關鍵一步。透明度不僅要求公開算法的運作

發表于 07-16 15:07

機器學習中的數據分割方法

在機器學習中，數據分割是一項至關重要的任務，它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習

發表于 07-10 16:10 ?2030次閱讀

機器學習在數據分析中的應用

隨著大數據時代的到來，數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具，通過訓練模型從數據中學習規律，為企業和組織提供了更高效、更準確的數據分析能力。本文將深入探討機器

發表于 07-02 11:22 ?712次閱讀

深度學習與傳統機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于

發表于 07-01 11:40 ?1480次閱讀

藍牙模塊的安全性與隱私保護

藍牙模塊作為現代無線通信的重要組成部分，在智能家居、可穿戴設備、健康監測等多個領域得到了廣泛應用。然而，隨著藍牙技術的普及，其安全性和隱私保護問題也日益凸顯。本文將探討藍牙模塊在數據傳輸過程中

發表于 06-14 16:06 ?582次閱讀

車載車庫GPS信號屏蔽器：如何保護隱私與安全

深圳特信電子｜車載車庫GPS信號屏蔽器：如何保護隱私與安全

發表于 05-29 08:54 ?694次閱讀

GPS信號屏蔽器：保護隱私信息的設備？

GPS信號屏蔽器：保護隱私信息的設備？|深圳特信電子

發表于 03-14 09:04 ?748次閱讀

華為以創新科技保護用戶隱私

用戶的隱私被泄露的案件很多，以華為為代表的企業，積極通過科技手段在保護用戶隱私安全上發力，從根源上解決隱私泄露的問題。華為堅持貫徹用戶受益的原則，華為在產品設計開發過程

發表于 01-29 14:11 ?2925次閱讀

一眼看懂鴻蒙OS 應用隱私保護

隨著移動終端及其相關業務（如移動支付、終端云等）的普及，用戶隱私保護的重要性愈發突出。應用開發者在產品設計階段就需要考慮保護的用戶隱私，提高應用的安全性。HarmonyOS 應用開發需

發表于 01-26 17:04 ?910次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

機器學習中的隱私保護

匿名化或許是個偽命題？

為什么谷歌會受到如此嚴重的懲罰？

機器學習中的隱私保護

評論

深度自然匿名化：隱私保護與視覺完整性并存的未來！

zeta在機器學習中的應用 zeta的優缺點分析

隱私與安全：動態海外住宅IP如何保護你在線

比亞迪獲得國家首批汽車隱私保護標識

eda在機器學習中的應用

IP地址安全與隱私保護

平衡創新與倫理：AI時代的隱私保護和算法公平

機器學習中的數據分割方法

機器學習在數據分析中的應用

深度學習與傳統機器學習的對比

藍牙模塊的安全性與隱私保護

車載車庫GPS信號屏蔽器：如何保護隱私與安全

GPS信號屏蔽器：保護隱私信息的設備？

華為以創新科技保護用戶隱私

一眼看懂鴻蒙OS 應用隱私保護