如何處理數(shù)據(jù)共享與隱私保護之間的矛盾早已成為了當(dāng)前數(shù)據(jù)圈的熱議話題,本期“智源-AI Time”邀請到了明略科技集團首席科學(xué)家吳信東教授、清華大學(xué)計算機系朱小燕教授、清華大學(xué)交叉信息研究院徐葳副教授,以及微眾銀行人工智能部副總經(jīng)理吳海山,共同論道了“數(shù)據(jù)共享開放與隱私保護”這個似乎高深,又與每個人息息相關(guān)的話題。
數(shù)據(jù)開放的三大必要條件
我們共享位置信息以便預(yù)約車的司機找到自己,也暴露了自己的行蹤;用瀏覽紀(jì)錄調(diào)教APP獲得更合心意的推薦,也讓個人喜好一覽無余。開放個人數(shù)據(jù)的同時,我們冒著暴露隱私的危險,也享受著它帶來的便利。
有統(tǒng)計數(shù)據(jù)顯示,每天全世界會上傳5億張圖片,每分鐘就有20小時的視頻被分享,我們整個人類文明所產(chǎn)生的全部數(shù)據(jù)中有90%是過去兩年所產(chǎn)生的。
有人說,發(fā)揮數(shù)據(jù)的價值,主要在流通。的確,數(shù)據(jù)共享可以使更多的人充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動和相應(yīng)費用,而把精力重點放在開發(fā)新的應(yīng)用程序及系統(tǒng)集成上。但是,要真的讓數(shù)據(jù)流通起來,需要以下這些必要條件:
數(shù)據(jù)資源的標(biāo)準(zhǔn)化
數(shù)據(jù)開放共享,首先要做到的就是數(shù)據(jù)資源的標(biāo)準(zhǔn)化。我們需要解決大規(guī)模的、來自多個來源的、異構(gòu)的數(shù)據(jù)集成問題,實現(xiàn)海量多元異構(gòu)數(shù)據(jù)源的統(tǒng)一管理。
數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量是數(shù)據(jù)開放共享中需要解決的關(guān)鍵問題。比如,對于數(shù)據(jù)的發(fā)布者來說的話,怎么樣來保證開放的數(shù)據(jù)沒有敏感內(nèi)容,怎么樣保證這個數(shù)據(jù)是可信的?自動的評估和控制數(shù)據(jù)質(zhì)量,是一個關(guān)鍵指標(biāo)。
開放和共享不等于免費
清華大學(xué)計算機系朱小燕教授提到“開放和共享不等于免費”,分配權(quán)益,其實也是數(shù)據(jù)流通的基本動力,必須要保證數(shù)據(jù)的擁有者,持有者和開發(fā)者,都能有滿意的權(quán)益分配。
數(shù)據(jù)共享和開放在產(chǎn)業(yè)界的趨勢和挑戰(zhàn)
根據(jù)不同的用法,數(shù)據(jù)有不同的治理和整理方法。那些使用數(shù)據(jù)的人,未必是生產(chǎn)數(shù)據(jù)的人。
清華大學(xué)交叉信息研究院徐葳副教授提到,“來自業(yè)內(nèi)的數(shù)據(jù)可能不如分布在地方政府手里的數(shù)據(jù)多,但是很多人會明顯覺得BAT似乎把數(shù)據(jù)用的更好。那是因為業(yè)內(nèi)特定領(lǐng)域已經(jīng)打通了數(shù)據(jù)并且形成了閉環(huán),他們更清楚數(shù)據(jù)應(yīng)該怎么使用,理解根據(jù)這些使用需要采集怎樣的數(shù)據(jù)、怎樣去對數(shù)據(jù)進行清洗。”
的確,數(shù)據(jù)必須要流動起來它才能產(chǎn)生價值,否則的話它就是一個孤島,沒有什么太大的價值。數(shù)據(jù)共享,也需要一個前后背景,以學(xué)術(shù)研究還是產(chǎn)業(yè)應(yīng)用為前提進行共享,這兩者的管理治理完全不一樣。
以金融行業(yè)為例,因為金融行業(yè)非常容易出現(xiàn)不合規(guī)行為,所以數(shù)據(jù)的應(yīng)用和管控會更加嚴(yán)格。比如,如果用來投資,被標(biāo)為非公開信息的數(shù)據(jù)會被禁止使用。而關(guān)于個人用戶隱私層面的管控可能更嚴(yán),在金融領(lǐng)域里面,有一種“另類數(shù)據(jù)”。它不是類似傳統(tǒng)銀行財報這樣公開的信息,而是一種新型的數(shù)據(jù),比如手機上的GPS數(shù)據(jù)、網(wǎng)站APP下載的數(shù)據(jù)。這些也可以用來分析一個公司或者一個國家經(jīng)濟層面的運轉(zhuǎn)程度。
現(xiàn)在越來越多的研究層面開始關(guān)注,包含用戶信息的數(shù)據(jù)如何在技術(shù)場景里使用。為了解決一個工業(yè)界的問題,需要訓(xùn)練模型,那如何在不共享數(shù)據(jù)的情況下進行機器學(xué)習(xí)呢?
微眾銀行人工智能部副總經(jīng)理吳海山舉例解釋,“比如用數(shù)據(jù)去分析用戶貸款違約的概率,可能需要A公司電商的數(shù)據(jù)、B公司社交的數(shù)據(jù),但兩家公司不可能放心地把數(shù)據(jù)放到我的平臺上……在這種情況下,為了在數(shù)據(jù)不共享的情況下,依然能夠訓(xùn)練機器學(xué)習(xí)模型,我們首席人工智能專家楊強教授提出了聯(lián)邦學(xué)習(xí),它是一種新型的,能夠在保護用戶隱私和數(shù)據(jù)共享的前提下,以一個合法合規(guī)的方式去使用數(shù)據(jù)、訓(xùn)練模型、解決問題,我們覺得這個可能是更加本質(zhì)的一個問題。”
“離開數(shù)據(jù)服務(wù)談數(shù)據(jù)隱私都是耍流氓”
機器學(xué)習(xí)需要大量數(shù)據(jù),數(shù)據(jù)的共享無疑是學(xué)界和業(yè)界共同期待的,但是數(shù)據(jù)的共享也離不開對于數(shù)據(jù)和隱私的保護。
對于用戶隱私的保護,幾位專家有不同的看法。徐葳教授認為隱私是一種個人感受;吳信東教授認為企業(yè)的隱私就是其核心競爭力。
而吳海山先生則認為隱私是一種資產(chǎn),“我們?nèi)タ床〉臅r候,恨不得把所有的信息都告訴醫(yī)生,我們買房子貸款的時候,恨不得把以往所有的信息都給銀行看,才能讓它給你貸款。這個時候隱私已經(jīng)作為一種資產(chǎn),有一個隱含的定價前提。你得到更好的金融服務(wù),得到更好的企業(yè)服務(wù),個性化服務(wù)。所以談任何個人隱私、企業(yè)隱私,得到的服務(wù)和隱私之間有一個平衡,這是在討論隱私之前需要關(guān)注的問題。”
數(shù)據(jù)加密技術(shù)大盤點
大數(shù)據(jù)生命周期分為數(shù)據(jù)發(fā)布、數(shù)據(jù)儲存、分析和挖掘、數(shù)據(jù)使用,在這些環(huán)節(jié)中都存在數(shù)據(jù)隱私保護的問題。加密是保護數(shù)據(jù)的一個手段,但是加密之后的數(shù)據(jù)無法使用。現(xiàn)在的技術(shù)需要保證數(shù)據(jù)在流通使用過程中也不造成泄露,也就是限制數(shù)據(jù)的使用。
在沙龍現(xiàn)場,幾位嘉賓也探討了目前幾種常見的數(shù)據(jù)加密技術(shù)。
差分隱私
差分隱私其實是一種度量方式。通過一群人里算出來的模型,和去除A算出來的是一樣的,這樣就無從判斷A是否還在這群人中,就起到保護A隱私的作用。這個方法對于保護“泯然眾人”的數(shù)據(jù)是有用的,但是卻很難保護那些“很個性”的數(shù)據(jù),因為這些“個性”的數(shù)據(jù)對于整體數(shù)據(jù)的計算印象很大。
多方安全計算
多方安全計算(MPC)是解決一組互不信任的參與方之間保護隱私的協(xié)同計算問題,MPC要確保輸入的獨立性,計算的正確性,同時不泄露各輸入值給參與計算的其他成員。主要是針對無可信第三方的情況下,如何安全地計算一個約定函數(shù)的問題,在電子選舉、電子投票、電子拍賣、秘密共享、門限簽名等場景中有著重要的作用。
K匿名
k-匿名技術(shù)是1998 年由Samarati和Sweeney提出的,要求發(fā)布的數(shù)據(jù)中存在一定數(shù)量(至少為k)的在準(zhǔn)標(biāo)識符上不可區(qū)分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體,從而保護了個人隱私。明略科技集團首席科學(xué)家吳信東教授舉例解釋,“比如,為了避免報警者受到報復(fù),警察記錄的是方圓多少距離的人打來的報警電話,通過對位置信息的泛化,保護了報警者的位置信息,但同時也會降低數(shù)據(jù)的可用性。可能警察記錄是五公里以內(nèi)的人打了電話,但是警察自己也找不到那個人是誰。”
什么樣的數(shù)據(jù)值得保護?數(shù)據(jù)隱私保護技術(shù)就像是順豐快遞,要看寄送的東西值不值得快遞費用。評估數(shù)據(jù)的價值,是比數(shù)據(jù)保護更重要的事情。數(shù)據(jù)保護問題的本質(zhì)就在于我們?nèi)绾螌?shù)據(jù)進行定價。或許有人出價一萬買你的隱私,你會斷然拒絕;但如果是一億呢?離開數(shù)據(jù)的定價、數(shù)據(jù)流動產(chǎn)生的價值和通過數(shù)據(jù)得到的服務(wù)去討論數(shù)據(jù)隱私,其實都是比較片面的。
隱私保護的政策問題
2018年5月25日,歐洲聯(lián)盟出臺《通用數(shù)據(jù)保護條例》(GDPR General Data Protection Regulation)。這是全球目前最嚴(yán)格的數(shù)據(jù)保護條例。其最高的一筆罰單給了英國航空公司,罰金數(shù)額為1.8339億英鎊(約合15.8億元人民幣)。
國際方面對于數(shù)據(jù)保護的政策愈發(fā)嚴(yán)格,中國在保護個人信息方面也發(fā)布了推薦性國家標(biāo)準(zhǔn)《信息安全技術(shù)個人信息安全規(guī)范》,可以說在數(shù)據(jù)隱私保護規(guī)定方面,中國走在了亞洲前列。這項規(guī)范也參考了歐盟的《通用數(shù)據(jù)保護條例》,ISO29000系列等國際范圍內(nèi)的個人信息保護法律法規(guī)及標(biāo)準(zhǔn),同時,從國內(nèi)主要存在的個人信息保護現(xiàn)狀和問題出發(fā)制定標(biāo)準(zhǔn),更側(cè)重標(biāo)準(zhǔn)的實用性。
歐盟《通用數(shù)據(jù)保護條例》(即GDPR)的制定確實在一定程度上保護了數(shù)據(jù),但是也阻礙了歐洲人工智能產(chǎn)業(yè)的發(fā)展。而且,因為GDPR罰款高達公司全球營業(yè)額的4%,這對傳統(tǒng)產(chǎn)業(yè)的企業(yè)很不友好、也不利于小公司的生存和發(fā)展。
從政策制定角度來講,隱私保護政策需要可操作性以及合理合法的指導(dǎo),讓受眾接受這條政策并積極施行。從經(jīng)濟學(xué)角度來講,隱私保護政策會提高數(shù)據(jù)的價值,畢竟數(shù)據(jù)本身就是一種資產(chǎn)。
更嚴(yán)的隱私無疑會增加數(shù)據(jù)的成本,讓整個行業(yè)尤其是小公司生存更加困難;更開放的數(shù)據(jù)共享,只會讓大眾和媒體放大數(shù)據(jù)隱私的侵犯,反而忘記數(shù)據(jù)共享帶來的價值。我們需要的是靈活的隱私保護和數(shù)據(jù)共享方案。
評論
查看更多