對于依賴深度學習作為自動駕駛關鍵的自動駕駛汽車 (AV) 供應商而言,數據就是一切——在許多方面,它是唯一的東西。
數據是 AV 公司在公共道路上積累數英里的測試經驗、記錄和儲存數 PB 的道路知識的原因。例如,Waymo 在 7 月份聲稱在現實世界中行駛了超過 1000 萬英里,在模擬中行駛了 100 億英里。
但還有一個行業不喜歡問的問題:
假設 AV 公司已經在真實道路上收集了 PB 甚至 EB 的數據。該數據集有多少已被標記?也許更重要的是,被注釋的數據有多準確?
Edge Case Research 的聯合創始人兼首席技術官 Phil Koopman 在最近接受 EE Times 采訪時斷言,“沒有人可以為所有這些貼上標簽。”
數據標注:費時費力
注釋通常需要專業的人眼觀看短視頻剪輯,然后在每輛車、行人、路標、交通燈或任何其他可能與自動駕駛算法相關的項目周圍繪制和標記框。這個過程不僅耗時而且成本很高。
Medium 上最近的一篇題為“數據注釋:人工智能突破背后的十億美元業務”的報道說明了“托管數據標記服務”的迅速出現,該服務旨在提供特定領域的標記數據,并強調質量控制。故事指出:
除了內部數據標記團隊,科技公司和自動駕駛初創公司也嚴重依賴這些托管標記服務……一些自動駕駛公司每月向數據標記公司支付數百萬美元。
在幾年前來自 IEEE Spectrum 的另一個故事中,Drive.ai 的聯合創始人兼總裁 Carol Reiley 被引述說:
成千上萬的人在物品周圍貼上標簽。每行駛一小時,標記大約需要 800 小時。這些團隊都會掙扎。我們的速度已經快了很多,而且我們還在不斷優化。
一些公司,例如 Drive,正在使用深度學習來增強注釋數據的自動化,以此來加速繁瑣的數據標記過程。
讓我們使用未標記的數據
然而,Koopman 認為還有另一種方法可以“從積累的數據中榨取價值”。“不標記大多數 PB 的記錄數據”如何完成此任務?
他解釋說,Edge Case Research 在設計一種允許 AV 行業加速開發更安全的感知軟件的方法時“偶然發現”了這一點。Edge Case Research 將其稱為“Hologram”,本質上是為 AV 設計的“AI 感知壓力測試和風險分析系統”。
更具體地說,正如 Koopman 解釋的那樣,“Hologram 使用未標記的數據”,系統會兩次運行相同的未標記數據。
首先,它在現成的正常感知引擎上運行基線未標記數據。然后,對于相同的未標記數據,應用全息圖,添加非常輕微的擾動——噪聲。事實證明,通過對系統施加壓力,Hologram 可以暴露 AI 算法感知的潛在弱點。
例如,如果在視頻剪輯中添加一點顆粒,人類可能會感知到“那里有東西,但我不知道它是什么”。
但是一個人工智能驅動的感知系統,在壓力下,要么完全錯過一個未知的物體,要么把它踢過門檻,把它放進不同的分類箱。
當 AI 仍在學習時,了解它的置信度(因為它決定了它所看到的)是有用的。但是當人工智能在世界上應用時,置信水平并不能告訴我們太多。人工智能通常是“猜測”或簡單地“假設”。
換句話說,人工智能是在偽造它。
根據設計,全息圖可以“戳”人工智能驅動的感知軟件。它揭示了人工智能系統失敗的地方。例如,一個有壓力的系統通過神秘地讓一個物體從場景中消失來解決它的困惑。
也許,更有趣的是,Hologram 還可以在噪聲下識別人工智能“幾乎失敗”但猜對了的地方。Koopman 說,全息圖在視頻剪輯中披露了人工智能驅動系統“可能會走運”的區域。
Koopman 說,無需標記 PB 數據但運行兩次,Hologram 可以通過收集更多數據或進行更多培訓來提供一個提示,即事情看起來“可疑”,以及“你最好回去再看一遍”的區域。 .
這當然是全息圖的一個非常簡化的版本,因為該工具本身實際上“帶有許多由大量工程支持的秘密調味料,”庫普曼說。但是,如果 Hologram 可以告訴用戶“只有好的部分”值得人工審查,那么它可以帶來一種非常有效的方式,從當前鎖定的數據中獲取真正的價值。
“機器非常擅長與系統博弈,”Koopman 指出。或者“做'p-hacking'之類的事情。” P-hacking 是一種偏見,當研究人員收集或選擇數據或統計分析,直到非顯著結果變得顯著時,才會出現這種偏見。例如,機器可以在不存在的數據中找到相關性。
開源數據集
當被問及這對 Edge Case Research 是否是個好消息時,Koopman 說:“不幸的是,這些數據集僅供研究界使用。不用于商業用途。”
此外,即使您使用這樣的數據集來運行 Hologram,您也應該使用用于收集數據的相同感知引擎,以了解一個人的 AI 系統中的薄弱環節。
全息圖的屏幕截圖
全息圖引擎發現感知系統未能識別此停車標志的實例,并為分析人員提供強大的工具來發現觸發條件,例如嘈雜的背景。(來源:邊緣案例研究)
通過添加噪聲,Hologram 會尋找使 AI 系統幾乎錯過停車標志(橙色條)或完全無法識別停車標志(向下紅色條)的觸發條件。
橙色條通過收集更多數據來警告 AI 設計人員需要重新訓練 AL 算法的特定領域。紅條讓 AI 設計師可以探索和推測觸發條件:是什么導致 AI 錯過了停車標志?標志是不是離電線桿太近了?是否有嘈雜的背景或沒有足夠的可見對比度?Edge Case Research 的產品經理 Eben Myers 解釋說,當積累了足夠多的觸發條件示例時,就有可能識別出特定的觸發條件。
Hologram 幫助 AV 設計人員找到他們的感知軟件表現出奇怪的、潛在的不安全行為的邊緣情況。(來源:邊緣案例研究)
與 Ansys 合作
本周早些時候,Ansys 宣布與 Edge Case Research 達成合作協議。Ansys 計劃將 Hologram 集成到其仿真軟件中。Ansys 將集成視為設計“業界首個用于開發 AV 的整體仿真工具鏈”的關鍵基礎組件。Ansys 正在與 BMW 合作,后者已承諾在 2021 年交付其首款 AV。
ANSYS 和 BMW 為自動駕駛創建仿真工具鏈(來源:Ansys)
— Junko Yoshida,AspenCore Media 全球聯合主編,EE Times首席國際記者
審核編輯 黃昊宇
-
數據
+關注
關注
8文章
7085瀏覽量
89220 -
人工智能
+關注
關注
1792文章
47443瀏覽量
239020 -
AV
+關注
關注
2文章
268瀏覽量
44523 -
自動駕駛
+關注
關注
784文章
13877瀏覽量
166618
發布評論請先 登錄
相關推薦
評論