隨著人工智能的興起,機器學習熱度不斷攀升,機器學習帶給我們智能化生活的同時,其本身的安全性問題也逐漸進入人們的視線,該安全問題起初由 lan Goodfellow 和 Papernot 二人提出,可以將其二人提出的問題定義為機器學習的安全和隱私問題。在機器學習發展與完善的過程中,安全問題同樣不容小覷。
絡繹學術 Online 直播第七期,我們邀請了伊利諾伊大學教授李博,為大家分享:機器學習領域下安全性的延展—對抗學習。
以下為直播回顧和延伸解讀:
機器學習指的是研究計算機如何模擬或實現人類的學習行為以及獲取新的知識或技能的學科,機器學習產業鏈由三部分組成,可以細分為上游基礎層,中游技術層,下游則多與垂直領域結合。
機器學習廣泛應用于金融、教育、醫療、工業、零售、能源等多個垂直領域,在 2014 至 2018 年,其行業市場規模從 2014 年的 8.7 億元增長至 2018 年的 52.5 億元,年復合增長率達到了 56.7%。預計至 2023 年,機器學習市場規模將達 336.7 億元。
圖|機器學習行業市場規模
機器學習應用的安全性,對抗學習必不可少。
所謂的對抗機器學習 (Adverserial Machine Learning) 就是作為機器學習研究中的一個安全細分的方向,它可以在一定程度上保證機器學習應用模型的安全性。
這是由于現在的模式識別技術 (Pattern Recognition) 包括語音、物品識別它們都借助機器學習中的深度學習得到了長足的進步。但是同時這些技術也很容易被對抗樣本 (Adversarial Examples) 所迷惑,而所謂的對抗樣本,就是指一些為識別任務精心打造的故意混淆和誤導檢測任務的樣本。
如圖片中在人眼識別中完全看不出差別的圖片,由于對抗性噪聲的加入,使得原本的雪山被機器識別為了狗,原本的河豚被機器識別成了螃蟹。
在近些年來的研究中進一步發現,不僅僅是像素級別的擾動,在真實世界中也存在著大量的擾動,即便是日常生活中我們肉眼可以做出簡單區分的事物,在通過攝像機鏡頭的采集后,也具備了攻擊性。
正如直播中李博給我們帶來的分享,如停止標志牌,無論是沒有涂鴉的還是有涂鴉的,對于人來說都是肉眼可以識別的停止標志,但是對于自動駕駛的識別系統來說,附加了涂鴉的車牌則可能會被認為是一個非停止的標志。
真實世界測試:下圖左右兩邊都是停止標志,但是左側由于干擾,機器學習將標志誤識別為限速 45,所以汽車在停止標志下也不會停止。
圖|真實世界中對停止標志識別的影響
依然是真實世界的測試:停止標志被加上了圖畫后,機器學習無法識別,從而無法做出停止的行為。
現階段對模型攻擊的分類
主要分為兩大類,他們是從訓練階段和推理 (inference) 階段來進行。
訓練階段的攻擊 (Training in Adversarial Settings) ,主要的方法就是針對模型的參數進行微小的擾動,從讓而達到讓模型的性能和預期產生偏差的目的。
標簽操縱 (label manipulation)
圖|標簽操縱
標簽操縱就是直接通過對于訓練數據的標簽進行替換,讓數據樣本和標簽不對應,從而最后訓練的結果也一定與預期的產生差異。
輸入操縱 (input manipulation)
圖|輸入操縱
輸入操縱是比較直接的攻擊方式,主要是通過在線的方式獲得訓練數據的輸入權,操縱惡意數據來對在線訓練過程進行擾動,最后的結果就是產出脫離預期。
推理階段的攻擊 (Inference in Adversarial Settings),是當一個模型被訓練完成后,可以將該模型主觀的看作是一個盒子,如果該盒子對我們來說是透明的則可以將其看成“白盒”模型,若非如此則看成“黑盒”模型。
白盒攻擊(White-Box Adversarial)
所謂的“白盒攻擊”,就是我們需要知道里面所有的模型參數,但這在實際操作中并不現實,卻有實現的可能,因此我們需要有這種前提假設。
黑盒攻擊(Black-Box Adversarial)
黑盒就比較符合現實生活中的場景:通過輸入和輸出猜測模型的內部結構;加入稍大的擾動來對模型進行攻擊;構建影子模型來進行關系人攻擊;抽取模型訓練的敏感數據;模型逆向參數等等。
對抗攻擊的防御機制
抵御對抗樣本攻擊:主要是基于附加信息引入輔助塊模型(AuxBlocks)進行額外輸出來作為一種自集成的防御機制,尤其在針對攻擊者的黑盒攻擊和白盒攻擊時,該機制效果良好。
除此之外防御性蒸餾也可以起到一定的防御能力,防御性蒸餾是一種將訓練好的模型遷移到結構更為簡單的網絡中,從而達到防御對抗攻擊的效果。
對抗學習前沿趨勢
雖然目前對抗學習方面的研究已經提出了許多對抗樣本生成的攻擊算法,但是防御機制方面仍然存在著大量的提升空間。針對不同的攻擊方式,防御手段通常是修補漏洞,目前沒能找到一個標準化的通用的方式,來對所有的對抗攻擊方法進行防御。
即使是上面所說的無論是輔助塊模型,防御性蒸餾,還是現在發展熱度很高的膠囊神經網絡等,集成方式都是成熟度不高,且沒有形成完整的防御體系,僅能在局部取得有效的防御效果。在對抗攻擊的方向上,防御技術和機制仍然存在很大的發展前景。
也如直播中李博講到的對于對抗學習未來商業化應用的介紹,對抗學習未來在自動駕駛領域將大有作為,為我們的安全駕駛保駕護航。同樣在醫療領域通過對抗學習去除躁點,也大大提高了醫療的精確度。在患者隱私層面,通過對抗學習來修改并保護隱私信息亦是大有可為。
在對抗學習遠大的商業發展前景下,機器學習行業不斷的開始涌現出足夠多的優秀企業,這些企業也在不斷的推動對抗學習的發展。
走在前列的機器學習相關企業
竹間智能
竹間智能是一家利用深度學習、情感計算、計算機視覺等技術來研發可對話機器人產品的機器學習公司, 其人工智能解決方案包括“ AI +金融”、“ AI +零售”、“ AI +教育”、“ AI +政務”等。
2016 年 1 月,竹間智能獲得 A 輪 2,500 萬美元融資。2018 年 12 月,竹間智能獲得 B 輪 3,000 萬美元融資,其中由中華開發金控領投,國泰金控跟投,科沃斯、尚珹投資持續加注。
第四范式
第四范式是一家將機器學習、人工智能、大數據等技術運用于金融、電信等領域的大數據科技公司,其產品包括 SageAI 平臺、Sage HyperCycle ML、Sage HyperCycle CV、智能風控平臺等。
2015 年 7 月,第四范式獲得天使輪 100 萬元人民幣融資。2016 年 5 月,第四范式獲得來自創新工廠的 A 輪 100 萬美元融資。2017 年 12 月,第四范式獲得 B 輪融資。2018 年 12 月,第四范式獲得 C 輪融資超過了 10 億元人民幣,投資方包括紅杉資本、保利資本、三峽資本、中國農業銀行,中國交通銀行,中信銀行等。
庫柏特
庫柏特是一家以機器學習、計算機視覺等人工智能技術為核心,從事機器人及對應軟件研發、生產、等相關業務的公司。庫伯特主要針對物流、醫療、食品、教育、電子等行業提供技術解決方案。
庫柏特的產品包括 COBOTSYS、CGRASP、CPOLISH、CAssemblyC2、COMATRIX、COHAND 等。
1. COBOTSYS 是一款以計算機視覺、智能力控、抓取規劃與機器學習等技術為基礎的智能工業機器人操作系統,可實現重力標定、力位混合控制、接觸保護、過程監控等功能。
2. CGRASP 是一款機器人柔性抓取產品,其可根據抓取物品的種類自適應選擇視覺算法及運動路徑,主要應用于物流、醫藥、食品、電子、零售等行業。
3. CPOLISH 是一款融合機器視覺與智能力控技術的打磨系統,該系統通過 3D 相機可對打磨工件進行掃描建模,并計算出工件在三維空間中的坐標,再根據視覺重構的模型生成路徑,實現打磨工藝路徑設計。
4. CASSEMBLYC2 是一款機械臂操作產品,該產品配備了六維傳感器以及腕部視覺相機。
5. COMATRIX 是一款 3D 視覺產品,具有 GPU 處理能力。
6. COHAND 是一款柔性機械手產品,可兼容 Windows、Linux、ROS 操作系統, 主要面向教育科研、物流分揀等領域。
2016 年 6 月,庫柏特獲得天使輪 100 萬人民幣融資。2017 年 3 月,庫柏特獲得 A 輪 4,000 萬人民幣融資,投資方為經緯中國。2017 年 12 月,庫柏特獲得 B 輪融資 1.02 億元人民幣,投資方為紀源資本、Matrix Parnters 等。
Ayasdi
Ayasdi 是 DARPA(美國國防部高級研究項目組)資助的一家初創公司。其核心技術“拓撲數據分析”可以找到復雜數據中的細微模式。
Ayasdi 一直在美國與各個頂級醫院和藥廠合作。醫院和制藥公司可以從公開的信息源獲得很多數據,并和他們自己的數據結合起來,進行一些新的研究。
Digital Reasoning
Digital Reasoning 是一家擅長認知計算,運用機器學習來識別溝通數據中有意義的人類行為的公司。它可以利用人工智能來積累上下文,填補任何來源的認知空白,以此來明確事物的價值取向,并通過揭露隱藏關系、暴露風險和潛在機會來得出結論。
Digital Reasoning 公司研發出的機器學習平臺能比傳統的工具更加智能地識別出銀行的內幕交易及價格操縱行為,其在知識圖譜的基礎上可以做到真正的理解用戶的需求,不再拘泥于用戶所輸入語句的本身字面意思, 而是透過文字挖掘真正的需求,準確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進行搜索與挖掘,從而更準確地向用戶反饋結果。
Digital Reasoning 公司還與美國納斯達克 (Nasdaq) 進行了合作,協助其建設監測資本市場的工具。Nasdaq 在 2020 年 5 月份對其投資了 4000 萬美元。
Darktrace
Darktrace 是一家使用機器學習來提供“企業免疫系統”的網絡安全系統的公司,該系統模擬人體免疫系統:在了解了什么是所有設備和用戶的“正常行為”后,通過環境的改變來更新洞察新出現的信息,然后尋找存在異常情況的安全問題。
企業免疫系統目前是世界上最先進的網絡防御機器學習技術。由于該系統受到人體免疫系統自我學習自我防御的啟發,這種新技術在復雜多變的網絡威脅的新時代中,使組織的自我保護方式發生了根本性的轉變。
QBurst
QBurst 堪稱機器學習公司中的先驅。QBurst 通過機器學習以業務所需求的速度做出數據驅動的決策,并根據客戶需求定制解決方案,提高效率,大大提高生產力,預測新機遇與需求,以及其他許多的可能性。
1. 能源需求預測:機器學習預測系統可以利用過去的能源消耗數據和天氣參數來預測未來的能源需求。將經過時間考驗的 SARIMA 模型與新的機器學習技術相結合的混合預測模型也在不斷發展。
2. 欺詐識別:建立在合法和欺詐交易已知案例上的模型,可以為新交易分配懷疑分數,從而幫助識別信用卡欺詐。利用決策樹和貝葉斯網絡對保險索賠中的欺詐行為進行預測和標記。
3. 預見性維護:在地理上分散的位置對機器進行持續的監控,同時檢測算法可以根據歷史數據分析實時的機器參數,從而識別設備的惡化狀態。因此,運營商可以啟動預測性維護,防止對資產造成不可逆轉的損害。
4. 病歷注釋:電子健康記錄作為大數據分析中患者數據的豐富來源,由于其本身的高度非結構化,并不適合直接進行分析。故在 NLP 中使用機器學習,可以對患者的癥狀、治療周期和康復等實體進行分析和標記,使它們在臨床決策時更加容易被檢索。
5. 衛生信息學:將 NLP 與語義知識處理和機器學習相結合的智能系統可以幫助研究者更快地查找特定問題的研究文獻。
6. 醫學圖像分析:監督機器學習技術應用于醫學圖像分析,通過計算機來輔助診斷某些特殊部位疾病,如腦部。基于大量標記圖像(如 CT 和MRI 掃描)訓練的模型可以自動檢測疾病指標并幫助醫生做出預測判斷。
7. 智能廣告牌:通過使用實時圖像識別應用程序,零售商將客戶按照年齡,性別,甚至種族膚色等進行分類以便于在數字廣告牌上展示有針對性的廣告來提高交易成功率與知名度。
8. 推薦產品:基于用戶畫像的某些特征或者共性,以內容和算法協同過濾的用于生成特定于用戶的推薦。這些推薦可以按照特定畫像特征的用戶,以及相似用戶喜歡的項目來進行推薦。
9. 情感分析:從運用自然語言處理,用戶情感可以被挖掘,以此為基礎來建立更多具有影響性的商業活動。
機器學習前沿發展趨勢
發展膠囊網絡
膠囊網絡 (CapsNets) 是 Hinton 提出的一種新型深度神經網絡架構,其以膠囊單元為神經元載體,膠囊的設計更符合人類神經元的原理。
膠囊網絡是在卷積神經網絡的基礎上發展而來,由于 CNN 對物體之間的空間關系 (spatial relationship) ,以及物體大幅度旋轉之后的識別能力不強,膠囊網絡便被提出來用以克服上述問題。
現階段,膠囊網絡仍處于初步發展階段,伴隨著訓練算法不斷改善,膠囊網絡性能將進一步提高,其在圖像識別領域的應用將逐步深化。
本次分享的最后,李博談到對抗學習研究的一些心得與建議。她主張自信,開放心態,不拘泥于某些小的圈層,勇敢的進行自己感興趣的研究,對自己有信念,堅持下去終會功夫不負有心人。
絡繹學術關注前沿科技和為之奮斗的科研工作者們。我們希望通過持續不斷分享為大家帶來前沿科技和為之走過“彎路 ”卻仍然風雨兼程的科研工作者們的真實經歷。
原文標題:機器學習仍存安全“盲區”,對抗學習任重而道遠|絡繹學術Online第7期回顧
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
網絡
+關注
關注
14文章
7571瀏覽量
88897 -
機器學習
+關注
關注
66文章
8422瀏覽量
132738
原文標題:機器學習仍存安全“盲區”,對抗學習任重而道遠|絡繹學術Online第7期回顧
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論