單目或三目構成的視覺系統是目前智能駕駛的主流,其致命缺陷就是識別與檢測是一體的,也就是說要檢測目標必須先識別目標,無法識別就等于看不到,車輛不會有任何減速而直接撞上去,此類事故,特斯拉、小鵬和蔚來都發生過。普通人說識別,在計算機視覺里實際是分類,為了對應傳統習慣,本文依然把分類叫識別。
圖片來源:Andrew Ng公開課
要解決這個問題最好的辦法是立體雙目,其次是沒有分類任務的激光雷達,典型代表就是奧迪A8上那種四線激光雷達,目前多線的激光雷達通常都是用與單目攝像頭一樣的應用算法,同樣會遇到識別與檢測一體的問題。這也正是特斯拉不用激光雷達的原因之一,單目攝像頭遇到的困難,多線激光雷達一樣會遇到,而奧迪A8上那種四線激光雷達只能檢測到前方有沒有物體,是什么物體就不知道,算是加強版的毫米波雷達。對于復雜駕駛環境如城區則不太適合,只能用于塞車時的自動跟車。最后是4D毫米波雷達,近似于4線激光雷達,缺點與4線激光雷達一樣。
立體雙目能完美解決問題,缺點是其標定太麻煩,傳感器的尺寸一致性要求很高。還有就是立體匹配算法難度不低,最好使用FPGA,AI加速器完全無用,GPU的話消耗算力太多。熟悉FPGA的廠家很少,需要摸索很長時間,因此立體雙目只有老牌的博世、斯巴魯、奔馳和豐田堅持使用。
大部分廠家沒有時間去摸索,看看Mobileye便知研發人員人工成本太高了,即便已經占有超過75%的智能駕駛市場,利潤依然無法填平研發成本的坑。
為什么會出現無法識別的目標,這就是深度學習的天生缺陷,無法改變。學術的說法叫Outof Distribution(OOD),OOD detection 指的是模型能夠檢測出OOD樣本,而OOD樣本是相對于InDistribution(ID)樣本來說的。傳統的機器學習方法通常的假設是模型訓練和測試的數據是獨立同分布的(IID,Independent Identical Distribution),這里訓練和測試的數據都可以說是InDistribution(ID)。在實際應用當中,模型部署上線后得到的數據往往不能被完全控制的,也就是說模型接收的數據有可能是OOD樣本,也可以叫異常樣本(outlier, abnormal)。
簡單地說,深度學習數據集就像窮舉法,但窮舉所有類型是不可能的,那樣數據集會異常龐大且成本高昂,并且現實世界每分每秒都在產生新的異常樣本,永遠都無法窮盡。對于牽涉到安全的應用,如無人駕駛和醫學識別,OOD是噩夢般的存在。雖然說異常樣本出現的幾率很低,但一旦出現就可能損失一條生命。有人會說,人開車會出事故,因此不能苛求機器開車不出事故,這顯然是錯誤的,人是有糾錯機制的,而機器不會,它犯錯一次要一條人命,下次遇到異常樣本還是如此。
除了OOD外,還有一類物體是單目三目視覺系統永遠都無法識別的,那就是側翻車輛。
畫面中這輛側翻的集裝箱車對單目三目來說也是噩夢,是一大片紅色,無紋理特征的圖像,任何計算機視覺技術皆無能為力,當然,最困難的是白色,就等同于天空,特斯拉中國臺灣高速事故就是如此,無論何種單目計算機視覺都無從下手,立體雙目可以完美解決這個問題。
還有這種側翻,大面積反光,且有圖像顯示在車上,訓練數據集都是基于正常車輛拍攝的圖像數據,這種側翻的非常罕見,數據集里肯定沒有,再加上它還能反光,還能顯示其他圖像,單目計算機視覺完全無能為力。
想完美解決問題是不可能的,目前學術界在嘗試用差異性網絡來解決這個問題。眾所周知,深度神經網絡不具備可解釋性,永遠存在概率,沒有確定性,而汽車領域一定要有確定性,但除了深度神經網絡,人類開發智能駕駛沒有其他低成本方式,只能用它。當然對于那種大面積空洞類似天空的目標,任何基于單目三目的計算機視覺技術都無能為力。
目前對于無法識別物體的檢測,學術界研究主要方向是差異性網絡DiscrepancyNetworks。本文主要基于四篇論文:
第一篇是瑞士洛桑聯邦理工學院EPFL的計算機視覺實驗室的《Detecting the Unexpected via Image Resynthesis》,
第二篇是豐田的《Road Obstacle Detection Method Based on an Autoencoder with SemanticSegmentation》,
還有一篇《Efficient Unknown Object Detectionwith Discrepancy Networks for Semantic Segmentation》。
最后一篇是微軟研究院和Wisconsin-Madison大學的《Unknown-Aware ObjectDetection Learning What You Don’t Know from Videos in the Wild》。
目前都局限于學術研究,離上車最快也要等10年。
思路都大同小異,即用GAN再合成圖像,制造差異性網絡。
EPFL的思路
圖片來源:EPFL
EPFL的思路,圖a是路上的兩個異常樣本物體,深度學習完全無法識別,也就檢測不到;圖b是圖像語義分割,這兩個物體消失了,用GAN再合成圖像,這兩個物體還是消失不見,但最后加上差異性網絡,這兩個物體找到了,就是圖d的高光顯示部分。
EPFL的做法
圖片來源:EPFL
EPFL的做法,用兩個VGG16網絡從原始圖像和再合成圖像中抽出特征并做金字塔矯正,特征和關聯送入一個跳過連接的解碼器,最終得到差異性圖像。
圖片來源:EPFL
基于CNN的圖像識別通常無法識別右邊這輛自行車,因為它靠在柱子上。
豐田的思路
圖片來源:豐田
微軟的思路
圖片來源:微軟
微軟提出了一種新的未知感知目標檢測框架,該框架通過時空未知提?。⊿TUD)從野外視頻中提取未知對象,并有意義地正則化模型的決策邊界。視頻數據自然地捕獲了模型運行的開放世界環境,并封裝了已知和未知對象的混合物;見圖1(b)。例如,建筑物和樹木(OOD)可能會出現在駕駛視頻中,盡管它們沒有明確標注用于培訓車輛和行人的物體檢測器(ID)。類似于化學中的蒸餾概念,即“從混合物中分離物質的過程”。雖然經典的目標檢測模型主要使用標記的已知對象進行訓練,微軟試圖通過聯合優化目標檢測和OOD檢測性能,利用未知對象進行模型正則化。
微軟的STUD框架
圖片來源:微軟
《Efficient Unknown Object Detectionwith Discrepancy Networks for Semantic Segmentation》這篇論文比較新,是2022年8月發表的,作者單位名氣不大,有日本SenseTime和德州奧斯汀大學。
圖片來源:SenseTime
典型示例如上,圖中車輛車身上有大字,很容易被誤認為標志牌,或者無法識別。
圖片來源:SenseTime
作者的思路主要是加入了所謂深監督(Deep Supervision),就是在深度神經網絡的某些中間隱藏層加了一個輔助的分類器作為一種網絡分支來對主干網絡進行監督的技巧,用來解決深度神經網絡訓練梯度消失和收斂速度過慢等問題。
雖然立體雙目可以完美解決所有難題,但立體雙目研發周期長,短期很難出成果,大部分企業都不會選擇立體雙目,深度學習太容易了,煉丹不需要知道因果關系,只需塞數據即可,立體雙目陣營目前也開始出現松動,豐田還專門出了個深度學習加單目推測立體視覺再獲得深度數據的數據集,寶馬也在2021年放棄了立體雙目。年輕人幾乎沒有從事立體雙目研究的。
Argo關閉,Aurora和圖森市值暴跌95%,Cruise和Waymo沉寂多日,過度依賴深度學習的無人駕駛該何去何從?
審核編輯 :李倩
-
分類器
+關注
關注
0文章
152瀏覽量
13183 -
視覺系統
+關注
關注
3文章
335瀏覽量
30720 -
深度學習
+關注
關注
73文章
5503瀏覽量
121170
原文標題:遇到無法識別(分類)的物體怎么辦?
文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論