上一篇文章中,我們發(fā)布了無(wú)人駕駛技術(shù)的定位篇(點(diǎn)擊閱讀)。很多開(kāi)發(fā)者結(jié)合定位篇與Apollo平臺(tái)的視頻,對(duì)定位系統(tǒng)已經(jīng)有了自己的見(jiàn)解,提出了有趣的問(wèn)題。也希望更多的開(kāi)發(fā)者能夠參與到Apollo的平臺(tái)中去,在學(xué)習(xí)交流的同時(shí)豐富這個(gè)平臺(tái)。
本周我們將介紹感知,了解車(chē)輛如何利用感知元件感知周?chē)h(huán)境,了解不同的感知任務(wù),例如分類(lèi)、檢測(cè)和分割,并學(xué)習(xí)對(duì)感知而言至關(guān)重要的卷積神經(jīng)網(wǎng)絡(luò)。
在開(kāi)車(chē)時(shí),我們用眼睛來(lái)判斷速度、車(chē)道位置、轉(zhuǎn)彎位置。在無(wú)人駕駛車(chē)中,情況類(lèi)似,只不過(guò)需要使用靜態(tài)攝像頭和其他傳感器來(lái)感知環(huán)境,使用大量計(jì)算機(jī)視覺(jué)技術(shù)。
第四課,感知
Sebastian帶你學(xué)習(xí)感知
1感知的概述
我們?nèi)祟?lèi)天生就配備多種傳感器,眼睛可以看到周?chē)沫h(huán)境,耳朵可以用來(lái)聽(tīng),鼻子可以用來(lái)嗅,也有觸覺(jué)傳感器,甚至還有內(nèi)部傳感器,可以測(cè)量肌肉的偏轉(zhuǎn)。通過(guò)這些傳感器,我們可以感知到我們周?chē)沫h(huán)境。我們的大腦每分每秒都在進(jìn)行數(shù)據(jù)處理,大腦的絕大部分都是用于感知。
現(xiàn)在,無(wú)人駕駛車(chē)輛也在做這些事情,只不過(guò)他們用的不是眼睛而是攝像頭。但是他們也有雷達(dá)和激光雷達(dá),它們可以幫忙測(cè)量原始距離,可以得到與周?chē)h(huán)境物體的距離。對(duì)于每個(gè)無(wú)人駕駛汽車(chē),它的核心競(jìng)爭(zhēng)力之一是利用海量的傳感器數(shù)據(jù),來(lái)模仿人腦理解這個(gè)世界。談?wù)搨鞲衅鲿r(shí)也會(huì)涉及到神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、人工智能。
2計(jì)算機(jī)視覺(jué)
作為人類(lèi),我們可以自動(dòng)識(shí)別圖像中的物體,甚至可以推斷這些物體之間的關(guān)系。但是對(duì)于計(jì)算機(jī)而言圖像只是紅、綠、藍(lán)色值的集合。無(wú)人駕駛車(chē)有四個(gè)感知世界的核心任務(wù):檢測(cè)——指找出物體在環(huán)境中的位置;分類(lèi)——指明確對(duì)象是什么;跟蹤——指隨時(shí)間的推移觀(guān)察移動(dòng)物體;語(yǔ)義分割——將圖像中的每個(gè)像素與語(yǔ)義類(lèi)別進(jìn)行匹配如道路、汽車(chē)、天空。
將分類(lèi)作為作為研究計(jì)算機(jī)視覺(jué)一般數(shù)據(jù)流程的例子。圖像分類(lèi)器是一種將圖像作為輸入,并輸出標(biāo)識(shí)該圖像的標(biāo)簽的算法,例如交通標(biāo)志分類(lèi)器查看停車(chē)標(biāo)志并識(shí)別它是停車(chē)標(biāo)志、讓路標(biāo)志、限速標(biāo)志、其他標(biāo)志。分類(lèi)其甚至可以識(shí)別行為,比如一個(gè)人是在走路還是在跑步。
分類(lèi)器有很多種,但它們都包含一系列類(lèi)似的步驟。首先計(jì)算機(jī)接收類(lèi)似攝像頭等成像設(shè)備的輸入。然后通過(guò)預(yù)處理發(fā)送每個(gè)圖像,預(yù)處理對(duì)每個(gè)圖像進(jìn)行了標(biāo)準(zhǔn)化處理,常見(jiàn)的預(yù)處理包括調(diào)整圖像大小、旋轉(zhuǎn)圖像、將圖像從一個(gè)色彩空間轉(zhuǎn)換為另一個(gè)色彩空間,比如從全彩到灰度,處理可幫助我們的模型更快地處理和學(xué)習(xí)圖像。接下來(lái),提取特征,特征有助于計(jì)算機(jī)理解圖像,例如將汽車(chē)與自行車(chē)區(qū)分開(kāi)來(lái)的一些特征,汽車(chē)通常具有更大的形狀并且有四個(gè)輪子而不是兩個(gè),形狀和車(chē)輪將是汽車(chē)的顯著特征。最后這些特征被輸入到分類(lèi)模型中。此步驟使用特征來(lái)選擇圖像類(lèi)別,例如分類(lèi)器可以確定圖像是否包含汽車(chē)、自行車(chē)、行人、不包含這樣的對(duì)象。
為了完成這些視覺(jué)任務(wù),需要建立模型,模型是幫助計(jì)算機(jī)了解圖像內(nèi)容的工具。
3攝像頭圖像
不論計(jì)算機(jī)在執(zhí)行什么識(shí)別任務(wù),通常在開(kāi)始時(shí)將攝像頭圖像作為輸入。
攝像頭圖像是最常見(jiàn)的計(jì)算機(jī)視覺(jué)數(shù)據(jù),以這張汽車(chē)照片為例,讓我們看看計(jì)算機(jī)如何認(rèn)為這實(shí)際上是一輛汽車(chē)的圖像。從計(jì)算機(jī)的角度來(lái)看,圖像只是一個(gè)二維網(wǎng)格被稱(chēng)為矩陣,矩陣中的每個(gè)單元格都包含一個(gè)值,數(shù)字圖像全部由像素組成,其中包含非常小的顏色或強(qiáng)度單位,我們可以對(duì)其中的數(shù)字做出非常多的處理。通常這些數(shù)字網(wǎng)格是許多圖像處理技術(shù)的基礎(chǔ),多數(shù)顏色和形狀轉(zhuǎn)換都只是通過(guò)對(duì)圖像進(jìn)行數(shù)學(xué)運(yùn)算以及逐一像素進(jìn)行更改來(lái)完成。
以上是我們將一個(gè)圖像分解為二維灰度像素值網(wǎng)絡(luò),彩色照片是相似的,但是更復(fù)雜一些。
彩色圖像被構(gòu)建為值的三維立方體,每個(gè)立方體都有高度、寬度和深度,深度為顏色通道數(shù)量。大多數(shù)彩色圖像以三種顏色組合表示紅色、綠色、藍(lán)色,稱(chēng)為RGB圖像。對(duì)于RGB圖像來(lái)說(shuō),深度值是3,因此可用立方體來(lái)表示。
4LiDAR圖像
感知擴(kuò)展到傳感器,而不僅僅是攝像頭。激光雷達(dá)傳感器創(chuàng)建環(huán)境的點(diǎn)云表征,提供了難以通過(guò)攝像頭圖像獲得的信息如距離和高度。激光雷達(dá)傳感器使用光線(xiàn)尤其是激光來(lái)測(cè)量與環(huán)境中反射該光線(xiàn)的物體之間的距離,激光雷達(dá)發(fā)射激光脈沖并測(cè)量物體,將每個(gè)激光脈沖反射回傳感器所花費(fèi)的時(shí)間。反射需要的時(shí)間越長(zhǎng),物體離傳感器越遠(yuǎn),激光雷達(dá)正是通過(guò)這種方式來(lái)構(gòu)建世界的視覺(jué)表征。
激光雷達(dá)通過(guò)發(fā)射光脈沖來(lái)檢測(cè)汽車(chē)周?chē)沫h(huán)境,藍(lán)色點(diǎn)表示反射激光脈沖的物體,中間的黑色區(qū)域是無(wú)人駕駛車(chē)本身占據(jù)的空間。由于激光雷達(dá)測(cè)量激光反射束,它收集的數(shù)據(jù)形成一團(tuán)云或“點(diǎn)云”,點(diǎn)云中的每個(gè)點(diǎn)代表反射回傳感器的激光束,可以告訴我們關(guān)于物體的許多信息例如其形狀和表面紋理。這些數(shù)據(jù)提供了足夠的對(duì)象檢測(cè)、跟蹤、分類(lèi)信息。正如我們所看,在點(diǎn)云上執(zhí)行的檢測(cè)和分類(lèi)結(jié)果為紅點(diǎn)為行人,綠點(diǎn)表示其他汽車(chē)。
激光雷達(dá)數(shù)據(jù)提供了用于構(gòu)建世界視覺(jué)表征的足夠空間信息,計(jì)算機(jī)視覺(jué)技術(shù)不僅可以使用攝像頭圖像進(jìn)行對(duì)象分類(lèi),還可以使用點(diǎn)云和其他類(lèi)型的空間相關(guān)數(shù)據(jù)進(jìn)行對(duì)象分類(lèi)。
5機(jī)械學(xué)習(xí)
機(jī)器學(xué)習(xí)是使用特殊算法來(lái)訓(xùn)練計(jì)算機(jī)從數(shù)據(jù)中學(xué)習(xí)的計(jì)算機(jī)科學(xué)領(lǐng)域。通常,這種學(xué)習(xí)結(jié)果存放在一種被稱(chēng)為“模型”的數(shù)據(jù)結(jié)構(gòu)中,有很多種模型,事實(shí)上“模型”只是一種可用于理解和預(yù)測(cè)世界的數(shù)據(jù)結(jié)構(gòu)。機(jī)械學(xué)習(xí)誕生于20世紀(jì)60年代,但隨著計(jì)算機(jī)的改進(jìn),在過(guò)去的20年中才真正的越來(lái)越受到歡迎。
機(jī)器學(xué)習(xí)涉及使用數(shù)據(jù)和相關(guān)的真值標(biāo)記來(lái)進(jìn)行模型訓(xùn)練,例如可能會(huì)顯示車(chē)輛和行人的計(jì)算機(jī)圖像以及告訴計(jì)算機(jī)哪個(gè)是哪個(gè)的標(biāo)簽。我們讓計(jì)算機(jī)學(xué)習(xí)如何最好地區(qū)分兩類(lèi)圖像,這類(lèi)機(jī)器學(xué)習(xí)也稱(chēng)為監(jiān)督式學(xué)習(xí),因?yàn)槟P屠昧巳祟?lèi)創(chuàng)造的真值標(biāo)記。
可以假想一個(gè)類(lèi)似的學(xué)習(xí)過(guò)程,但這次使用的是沒(méi)有真值標(biāo)記的車(chē)輛與行人圖像,讓計(jì)算機(jī)自行決定哪些圖像相似、哪些圖像不同,這被稱(chēng)為無(wú)監(jiān)督學(xué)習(xí)。不提供真值標(biāo)記,而是通過(guò)分析輸入的數(shù)據(jù),計(jì)算機(jī)憑借自行學(xué)習(xí)找到區(qū)別。
半監(jiān)督式學(xué)習(xí)是將監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的特點(diǎn)結(jié)合在一起,該方法使用少量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練模型。
強(qiáng)化學(xué)習(xí)是另一種機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí)涉及允許模型通過(guò)嘗試許多不同的方法來(lái)解決問(wèn)題,然后衡量哪種方法最為成功,計(jì)算機(jī)將嘗試許多不同的解決方案,最終使其方法與環(huán)境相適應(yīng)。
例如在模擬器中,強(qiáng)化學(xué)習(xí)智能體可訓(xùn)練汽車(chē)進(jìn)行右轉(zhuǎn),智能體將在初始位置發(fā)動(dòng)車(chē)輛,然后以多種不同的方向和速度進(jìn)行實(shí)驗(yàn)性駕駛,如果車(chē)輛實(shí)際完成了右轉(zhuǎn),智能體會(huì)提高獎(jiǎng)勵(lì)即得分。
起初車(chē)輛可能無(wú)法找到執(zhí)行轉(zhuǎn)彎的方法,然而就像人類(lèi)那樣,車(chē)輛最終會(huì)從一些成功的右轉(zhuǎn)經(jīng)驗(yàn)中學(xué)習(xí),最后學(xué)會(huì)如何完成任務(wù)。
6神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)用于無(wú)人駕駛車(chē),受到構(gòu)成人類(lèi)神經(jīng)系統(tǒng)的生物神經(jīng)元啟發(fā),生物神經(jīng)元通過(guò)相互連接構(gòu)成了神經(jīng)元網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò),通過(guò)類(lèi)似的方式將人工神經(jīng)元層連接起來(lái)以創(chuàng)建用于機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)。
人工神經(jīng)網(wǎng)絡(luò)是通過(guò)數(shù)據(jù)來(lái)學(xué)習(xí)復(fù)雜模式的工具,神經(jīng)網(wǎng)絡(luò)由大量的神經(jīng)元組成,人工神經(jīng)元負(fù)責(zé)傳遞和處理信息,也可以對(duì)這些神經(jīng)元進(jìn)行訓(xùn)練。可以將這些圖像識(shí)別為車(chē)輛,無(wú)論它們是黑是白、或大或小,你甚至可能不知道自己如何知道它們是車(chē)輛,也許是某些特征觸發(fā)了你的反應(yīng),如車(chē)輪、車(chē)燈、車(chē)窗。人工神經(jīng)網(wǎng)絡(luò)具有類(lèi)似的運(yùn)作方式。人工神經(jīng)網(wǎng)絡(luò)通過(guò)密集訓(xùn)練,計(jì)算機(jī)可以辨別汽車(chē)、行人、交通信號(hào)燈、電線(xiàn)桿。它們學(xué)習(xí)了用于執(zhí)行任務(wù)的模型,只是我們可能很難直觀(guān)地理解該數(shù)學(xué)模型。
當(dāng)看到該圖像時(shí),你的大腦如何工作?你的大腦可能會(huì)將圖像分為幾部分然后識(shí)別特征如車(chē)輪、車(chē)窗、顏色,然后大腦將使用這些特征對(duì)圖像進(jìn)行檢測(cè)和分類(lèi)。
例如在確定圖像是否為車(chē)輛時(shí),大腦可能不會(huì)認(rèn)為顏色是關(guān)鍵特征。因?yàn)槠?chē)有多種顏色,所以大腦會(huì)將更多權(quán)重放在其他特征上并降低顏色的重要性。
同樣,神經(jīng)網(wǎng)絡(luò)也會(huì)從圖像中提取許多特征,但這些特征可能是我們?nèi)祟?lèi)無(wú)法描述或甚至無(wú)法理解的特征。但我們最終并不需要理解,計(jì)算機(jī)將調(diào)整這些特征的權(quán)重,以完成神經(jīng)網(wǎng)絡(luò)的最終任務(wù)。
7反向波算法
學(xué)習(xí)有時(shí)稱(chēng)為訓(xùn)練,由三步循環(huán)組成——前饋、誤差測(cè)定、反向傳播。
首先隨機(jī)分配初始權(quán)重即人工神經(jīng)元的值,通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)饋送每個(gè)圖像產(chǎn)生輸出值,這被稱(chēng)為前饋。
繼續(xù)開(kāi)車(chē)可以發(fā)現(xiàn),有些點(diǎn)右邊只有一棵樹(shù),也可以排除。
下一步為誤差測(cè)定,誤差是真值標(biāo)記與與前饋過(guò)程所產(chǎn)生輸出之間的偏差。
下一步是反向傳播,通過(guò)神經(jīng)網(wǎng)絡(luò)反向發(fā)送誤差,此過(guò)程類(lèi)似前饋過(guò)程,只是以相反方向進(jìn)行。
每個(gè)人工神經(jīng)元都對(duì)其值進(jìn)行微調(diào),這是基于通過(guò)神經(jīng)網(wǎng)絡(luò)后向傳播的誤差,可生成更準(zhǔn)確的網(wǎng)絡(luò)。一個(gè)訓(xùn)練周期:包括前饋、誤差測(cè)定、反向傳播還遠(yuǎn)遠(yuǎn)不夠。為了訓(xùn)練網(wǎng)絡(luò),通常需要數(shù)千個(gè)這樣的周期,最終結(jié)果應(yīng)該是模型能夠根據(jù)新數(shù)據(jù)做出準(zhǔn)確預(yù)測(cè)。
-
傳感器
+關(guān)注
關(guān)注
2551文章
51204瀏覽量
754526 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46030 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13852瀏覽量
166579
原文標(biāo)題:Apollo自動(dòng)駕駛?cè)腴T(mén)課程第④講 — 感知(上)
文章出處:【微信號(hào):Apollo_Developers,微信公眾號(hào):Apollo開(kāi)發(fā)者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論