本文整理了多傳感器數據融合(Multi-Sensor Data Fusion,MSDF)的要點和基本方法。介紹了Harmonize、Reconcile、Integrate、Synthesize之間的區別和對應的解決方案。文章主要圍繞什么是MSDF;為什么要MSDF和如何進行MSDF展開,希望給對自動駕駛感興趣的小伙伴,提供一些參考。
許多人工智能系統的一個關鍵要素是具有多傳感器數據融合(Multi-Sensor Data Fusion,MSDF)的能力。在人工智能系統處于一個特定的環境時,MSDF需要對周圍環境數據進行Harmonize;Reconcile;Integrate;Synthesize。簡單來說,傳感器相當于眼睛耳朵等輸入感官,而人工智能系統需要以某種方式解釋這些輸入感官收集回來的信息,使其成為在現實世界可以被解釋且有價值的信息。在駕駛汽車時,多目標跟蹤(Multi-Target Tracking,MTT)也是非常重要的課題——設想在市中心開車,周圍都是行人和車輛,人類駕駛員要準確的識別并躲避他們,自動駕駛汽車也是。所以,這要求傳感器融合具備一個必須的性質——實時性,就像人類每時每刻都在大腦中進行傳感器融合一樣。盡管人類不會公開地明確地將想法付諸于行動,但是這些“傳感器融合”過程都是自然發生的。
自動駕駛的MSDF
首先,需要明確一個老生常談的概念——SAE對于自動駕駛等級的劃分。SAE給自動駕駛汽車劃分為5個等級,對于L5以下的自動駕駛汽車,要求必須有一個人類駕駛員(安全員)在場。目前,人工智能和人類駕駛員共同承擔駕駛任務,而人類駕駛員被認定為汽車行為的責任人。
回到MSDF的話題,下圖展示了人工智能自動駕駛汽車如何進行MSDF的一些關鍵要素。
上圖指出了MSDF面臨的主要挑戰是如何將收集來的大量數據集中在一起,并做出正確決策。因為如果MSDF出錯,意味著下游階段要么沒有必要的信息,要是使用了錯誤的信息做出了錯誤的決策。可以看到,一般來說,自動駕駛汽車會通過安裝在車身周圍的攝像頭收集視覺數據,也會通過雷達(激光雷達、毫米波雷達等)來收集諸如周圍物體運動速度的數據,但是這些數據是從不同角度來描述現實世界的同一樣或不同樣的物體。所以,使用什么類型的傳感器,怎么融合傳感器收集回來的數據,使用多少傳感器才能實現基于數據的對客觀世界的描述呢?通常來說,使用越多的傳感器,對計算能力的要求就越高,這意味著自動駕駛汽車必須搭載更多的計算機處理器和內存,這也會增加汽車的重量,需要更多的功率,還會產生更多的熱量。諸如此類的缺點還有很多。
多傳感器融合(MSDF)的四個關鍵方法
圖 Harmonize;Reconcile;Integrate;Synthesize的區別
Harmonize:
假設有兩種不同的傳感器,稱它們為傳感器X和傳感器Z。它們都能夠感知自動駕駛汽車的外部世界。在現實世界中存在一個物體,這個物體可能是人,也可能是車,甚至是一條狗,傳感器X和傳感器Z都能夠檢測到這個物體。這就意味著傳感器對這個物體進行了雙重檢測,這種雙重檢測意味著兩種不同類型的傳感器都有關于該物體的數據報告,對于該物體有兩個維度不同地認知。假設,傳感器X表示該物體高6英尺,寬2英尺;傳感器Z表示該物體以每秒3英尺的速度正朝著自動駕駛車輛方向移動。結合兩個傳感器采集到的數據,就可以得出一條相對準確的信息:有一個高約6英尺,寬2英尺的物體正在以每秒鐘3英尺的速度移動。假設這兩自動駕駛汽車上只安裝了X傳感器,那么就無法得知該物體的大小;若Z傳感器壞了,那么就只有物體的大小信息,無法檢測該物體的運動狀態。這也就是最近業內廣泛討論的“在自動駕駛汽車上應該安裝哪些傳感器”的問題。
此前,特斯拉埃隆·馬斯克(Elon Musk)旗幟鮮明地聲稱,特斯拉不會安裝激光雷達。盡管馬斯克自己也認為,L5自動駕駛不會通過激光雷達來實現這個想法最終可能被驗證為錯誤的,這依舊沒有改變馬斯克的決定。一些反對的聲音稱,不配備激光雷達的特斯拉,無法通過其他的傳感器獲取如同激光雷達效果相同的感官輸入,也無法提供補償和三角測量。但是另一些支持者認為,激光雷達不值得話費如此高昂的費用成本,不值得為其增大計算能力,也不值得為其增加認知時間。
Reconcile:
在同一個視場(Field of View,FOV)內,假設傳感器X探測到一個物體,而傳感器Z沒有探測到。注意,這與物體完全在傳感器Z的FOV之外的情況有很大的不。一方面,系統會認為傳感器X是正確的,Z是錯誤的,可能是因為Z有故障,或者有模糊探測,或者是其他的一些什么原因。另一個方面,也許傳感器X是錯誤的,X可能是報告了一個“幽靈”(實際上并不存在的東西),而傳感器Z報告那里沒有東西是正確的。
Integrate:
假設我們有兩個物體a和b,分別在傳感器X和傳感器Z的視場FOV內(a在X視場內,b在Z視場內)。也就是說,Z無法直接檢測到a,X也無法直接檢測到b。目前,想要實現的效果是,能否將X和Z的報告整合在一起,讓它們在各自的視場內探測物體同時,判斷是否為X視場中的物體正在向Z視場移動,預先提醒Z將有物體進入探測區域。
Synthesize:
第四種方法Synthesize是將感知數據融合在一起,你可能會遇到這樣的情況,傳感器X和傳感器Z都沒有在各自的視場內探測到物體。在這種情況下,沒有傳感器知道這個物體的存在,但是可以通過一些其他的感觀數據,比如聲音,間接地弄清楚在視場之外的物體情況。自動駕駛汽車是時刻運動的,所以要求這種預判是瞬間發生的,像上文提到的一樣,是實時的。
基于以上四種方法的解釋,當各種不同傳感器收集回來的數據結合在一起時,使用什么方法來處理這些數據呢?
絕對排序法:在這種方法中,需要事先決定一個傳感器的排序。比如,攝像投的級別高于雷達,或者雷達的級別高于攝像頭等等。在傳感器融合過程中,子系統使用預先確定的排序。比如,在Reconcile情況中,在交叉的視場FOV中,X檢測到了物體,但是Z沒有檢測到,而攝像頭傳感器X的級別高于雷達傳感器Z,那么Z的檢測結果不納入考慮范圍內也是允許的。這個方法簡單、快速、易實現,但是綜合考慮,這種方法并不嚴謹。
情況排序法:這種方法與絕對排名法相似,但不同之處在于,根據所處的環境,排名是可變的。例如,我們可能已經設置好,如果有下雨的天氣,攝像頭容易受到雨水干擾,進而攝像頭優先級降低,雷達擁有最高優先級。這種方法相對簡單、快速、易于實現。然而,從全局角度看,它依然有所不足。
平等投票(協商一致)法:在這種方法中,允許每個傳感器進行投票且投票能力都是平等的。然后使用一個計數算法,該算法與投票結果相匹配。如果傳感器的某個閾值都同意某個物體,而某些閾值不同意,那么就允許這個閾值決定人工智能系統做出判斷。同樣,這種方法綜合看起來依然有所不足。
加權投票法:有點類似于平等投票的方法,這種方法增加了一個權重,并選擇假設一些傳感器比另一些傳感器更重要。比如,系統可能傾向于認為攝像頭比雷達更可靠,所以給攝像頭一個更高的加權系數等。
概率投票法:還可以引入概率概念。傳感器有自己的控制子系統,可以確定傳感器是否得到了真實的數據,然后將概率使用到多個傳感器的投票方法中。
爭論方法:還有一種新的方法是讓每個傳感器“辯論”為什么他們的報告是合適的。這是一個比較有趣的概念。相關研究和實驗正在進行中。
優先到達法:即優先報告結果的傳感器獲勝。出于計時的目的,系統不會等待其他傳感器報告,從而加快傳感器的融合工作。但是從另一個角度講,無法預測下一秒鐘其他傳感器是否會報告相反的判斷,這存在一定的安全隱患。
最可靠法:在這種方法中,需要跟蹤自動駕駛汽車上無數傳感器的可靠性。當存在各個傳感器之間的數據爭議時,最可靠的傳感器將“獲勝”。
在設計自動駕駛汽車時,可以在傳感器融合子系統中使用以上的幾種方法。當子系統確定一種方法可能優于另一種方法時,它們就可以各自發揮作用。當然,MSDF也可以通過很多其它的本文未提及的方法進行。
多個傳感器之間的差異非常重要
人類的聽覺和視覺是不一樣的。當人類聽到警報聲時,使用耳朵這種感官。耳朵不像眼睛,眼睛不能聽聲音。這個例子可以生動地說明,在自動駕駛領域,一定有許多不同類型的傳感器,多傳感器融合MSDF的首要任務是,要利用不同種傳感器的優勢,同時最小化或弱化每種傳感器的弱點。
上圖中,每一種傳感器的一個重要特征都是它能夠探測到目標的距離。傳感器能夠探測到的距離越遠,人工智能駕駛任務的提前時間和優勢就越大。但是,一些研究結果標明,較遠端的數據可能缺乏特征或者缺乏可信度。隨著技術的日新月異,需要根據所涉及的距離確定傳感器融合的優缺點。以下是一些常用傳感器的探測數據(隨著技術的進步,以下數據可能隨時更新):
Main Forward Camera: 150 m (about 492 feet) typically, condition dependent
Wide Forward Camera: 60 m (about 197 feet) typically, condition dependent
Narrow Forward Camera: 250 m (about 820 feet) typically, conditions dependent
Forward Looking Side Camera: 80 m (about 262 feet) typically, condition dependent
Rear View Camera: 50 m (about 164 feet) typically, condition dependent
Rearward Looking Side Camera: 100 m (about 328 feet) typically, condition dependent
Radar: 160 m (about 524 feet) typically, conditions dependent
Ultrasonic: 8 m (about 26 feet) typically, condition dependent
LIDAR: 200 m (about 656 feet) typically, condition dependent
有專家稱,在比較各種類型的傳感器時,業內有許多圖表試圖描述這些傳感器的優點和缺點。專家建議不要盲目相信的這些對比圖表。因為用于比較傳感器的標準非常多,但是一些常見圖表僅僅提取幾個典型特征進行對比,缺乏可信度。如下圖(僅供參考):
筆者觀點:在自動駕駛領域,傳感器是一個非常博眼球的字眼。但是,一旦涉及具體技術和魯棒性,目前并沒有太多的企業或技術型公司給出一份值得信服的答卷。業內普遍認為,自動駕駛汽車的未來是保障人的安全,而保障人的安全都依賴于多傳感器融合MSDF。人類每時每刻都在做著“多傳感器融合”的工作,想要將自動駕駛汽車的多傳感器融合做到像人類一樣盡善盡美,還有很多復雜的工作要做。
評論
查看更多