好看的电视剧,辰东全部小说,完美世界txt下载

轉(zhuǎn)載自：量子位（QbitAI）

惡劣天氣下，自動駕駛汽車也能準(zhǔn)確識別周圍物體了？！

西安電子科大、上海AI Lab等提出多模態(tài)融合檢測算法E2E-MFD，將圖像融合和目標(biāo)檢測整合到一個(gè)單階段、端到端框架中，簡化訓(xùn)練的同時(shí)，提升目標(biāo)解析性能。

相關(guān)論文已入選頂會NeurlPS 2024 Oral，代碼、模型均已開源。

其中圖像融合是指，把不同來源（比如可見光和紅外相機(jī)）的圖像合并成一張，這樣就能在一張圖像中同時(shí)看到不同相機(jī)捕捉到的信息；目標(biāo)檢測即找出并識別圖像中的物體。

端到端意味著，E2E-MFD算法可以一次性處理這兩個(gè)任務(wù)，簡化訓(xùn)練過程。

而且，通過一種特殊的梯度矩陣任務(wù)對齊（GMTA）技術(shù)，這兩個(gè)任務(wù)還能互幫互助，互相優(yōu)化。

最終實(shí)驗(yàn)結(jié)果顯示，E2E-MFD在信息傳遞、圖像質(zhì)量、訓(xùn)練時(shí)間和目標(biāo)檢測方面均優(yōu)于現(xiàn)有方法。

E2E-MFD：多模態(tài)融合檢測端到端算法

眾所周知，精確可靠的目標(biāo)解析在自動駕駛和遙感監(jiān)測等領(lǐng)域至關(guān)重要。

僅依賴可見光傳感器可能會導(dǎo)致在惡劣天氣等復(fù)雜環(huán)境中的目標(biāo)識別不準(zhǔn)確。

可見光-紅外圖像融合作為一種典型的多模態(tài)融合（MF）任務(wù)，通過利用不同模態(tài)的信息互補(bǔ)來解決這些挑戰(zhàn)，從而促進(jìn)了多種多模態(tài)圖像融合技術(shù)的快速發(fā)展。

諸如CDDFuse和DIDFuse方法采用兩步流程：

首先訓(xùn)練多模態(tài)融合網(wǎng)絡(luò)（MF），然后再訓(xùn)練目標(biāo)檢測（OD）網(wǎng)絡(luò)，用來分別評估融合效果。

盡管深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)跨模態(tài)表征能力上取得了顯著進(jìn)展，并帶來了多模態(tài)融合的良好結(jié)果，但大多數(shù)研究主要集中在生成視覺上吸引人的圖像，而往往忽略了改進(jìn)下游高級視覺任務(wù)的能力，如增強(qiáng)的目標(biāo)解析。

最近的研究開始設(shè)計(jì)聯(lián)合學(xué)習(xí)方法，將融合網(wǎng)絡(luò)與目標(biāo)檢測和圖像分割等高級任務(wù)結(jié)合在一起。

其中，多模態(tài)融合檢測（MFD）方法中MF與OD的協(xié)同已成為一個(gè)活躍的研究領(lǐng)域。

這種協(xié)同作用使得MF能夠生成更豐富、更有信息量的圖像，從而提升OD的性能，而OD則為MF提供了有價(jià)值的目標(biāo)語義信息，從而準(zhǔn)確地定位和識別場景中的物體。

通常，MFD網(wǎng)絡(luò)采用一種級聯(lián)設(shè)計(jì)，其中聯(lián)合優(yōu)化技術(shù)使用OD網(wǎng)絡(luò)來引導(dǎo)MF網(wǎng)絡(luò)創(chuàng)建便于目標(biāo)檢測的圖像。

但是依舊存在以下問題：

1）當(dāng)前的優(yōu)化方法依賴于多步驟、漸進(jìn)的聯(lián)合方法，影響訓(xùn)練效率；

2）這些方法過于依賴目標(biāo)檢測（OD）信息來增強(qiáng)融合，導(dǎo)致參數(shù)平衡困難并易于陷入單個(gè)任務(wù)的局部最優(yōu)解。

因此，尋求一個(gè)統(tǒng)一的特征集，同時(shí)滿足每個(gè)任務(wù)的需求，仍然是一項(xiàng)艱巨的任務(wù)。

為此，研究提出了一種名為E2E-MFD的端到端多模態(tài)融合檢測算法。

（1）這是一種高效同步聯(lián)合學(xué)習(xí)的方法，將圖像融合和目標(biāo)檢測創(chuàng)新性地整合到一個(gè)單階段、端到端的框架中，這種方法顯著提升了這兩項(xiàng)任務(wù)的成果。

（2）引入了一種新的GMTA技術(shù)，用于評估和量化圖像融合與目標(biāo)檢測任務(wù)的影響，幫助優(yōu)化訓(xùn)練過程的穩(wěn)定性，并確保收斂到最佳的融合檢測權(quán)重配置。

（3）通過對圖像融合和目標(biāo)檢測的全面實(shí)驗(yàn)驗(yàn)證，展示了所提出方法的有效性和穩(wěn)健性。在水平目標(biāo)檢測數(shù)據(jù)集M3FD和有向目標(biāo)檢測數(shù)據(jù)集DroneVehicle上與最先進(jìn)的融合檢測算法相比，E2E-MFD表現(xiàn)出強(qiáng)大的競爭力。

其整體架構(gòu)如下：

展開來說，E2E-MFD通過同步聯(lián)合優(yōu)化，促進(jìn)來自兩個(gè)領(lǐng)域的內(nèi)在特征的交互，從而實(shí)現(xiàn)簡化的單階段處理。

為了協(xié)調(diào)細(xì)粒度的細(xì)節(jié)與語義信息，又提出了一種全新的對象-區(qū)域-像素系統(tǒng)發(fā)育樹（ORPPT）概念，并結(jié)合粗到細(xì)擴(kuò)散處理（CFDP）機(jī)制。

該方法受視覺感知自然過程的啟發(fā)，專為滿足多模態(tài)融合（MF）和目標(biāo)檢測（OD）的具體需求而設(shè)計(jì)。

此外，研究引入了梯度矩陣任務(wù)對齊（GMTA）技術(shù)，以微調(diào)共享組件的優(yōu)化，減少傳統(tǒng)優(yōu)化過程中固有的挑戰(zhàn)。

這確保了融合檢測權(quán)重的最優(yōu)收斂，增強(qiáng)了多模態(tài)融合檢測任務(wù)的準(zhǔn)確性和有效性。

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

E2E-MFD在多個(gè)常用數(shù)據(jù)集（TNO、RoadScene、M3FD 和 DroneVehicle）上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)運(yùn)行在一張 GeForce RTX 3090 GPU上。

模型基于PyTorch框架實(shí)現(xiàn)，部分代碼在M3FD數(shù)據(jù)集上使用了Detectron2框架，并通過預(yù)訓(xùn)練的DiffusionDet初始化目標(biāo)檢測網(wǎng)絡(luò)。

優(yōu)化器采用AdamW，批量大小為1，學(xué)習(xí)率設(shè)為2.5×10??，權(quán)重衰減為1e-4。

模型共訓(xùn)練了15,000次迭代。

在DroneVehicle數(shù)據(jù)集上，實(shí)驗(yàn)基于MMRotate 0.3.4框架，使用預(yù)訓(xùn)練的LSKNet模型進(jìn)行初始化，并通過12個(gè) epoch的微調(diào)進(jìn)行優(yōu)化，批量大小為4。

實(shí)驗(yàn)結(jié)果

研究提供了不同融合方法在TNO、RoadScene和M3FD數(shù)據(jù)集上的定量結(jié)果。

模型的訓(xùn)練（Tr.）和測試（Te.）時(shí)間均在NVIDIA GeForce RTX 3090上統(tǒng)計(jì)。

可以看出，E2E-MFD在MI指標(biāo)上普遍獲得了最佳度量值，表明其在信息傳遞方面比其他方法從兩個(gè)源圖像中提取了更多有用的信息。

EN值進(jìn)一步顯示，E2E-MFD能夠生成包含清晰邊緣細(xì)節(jié)且對象與背景對比度最高的圖像。

較高的VIF值則表明，E2E-MFD的融合結(jié)果不僅具有高質(zhì)量的視覺效果，同時(shí)在失真度方面較低。

此外，該方法的訓(xùn)練時(shí)間最快，表明在新的數(shù)據(jù)集上能夠?qū)崿F(xiàn)更快速的迭代更新。

生成融合圖像的測試時(shí)間在所有方法中排名第三。

定性結(jié)果如下圖所示，所有融合方法均在一定程度上融合了紅外和可見光圖像的主要特征，但E2E-MFD具備兩個(gè)顯著優(yōu)勢。

首先，它能夠有效突出紅外圖像的顯著特征，例如在M3FD數(shù)據(jù)集中，E2E-MFD捕捉到了騎摩托車的人員。

與其他方法相比，E2E-MFD展示了更高的物體對比度和識別能力。

其次，它保留了可見圖像中的豐富細(xì)節(jié)，包括顏色和紋理。

在M3FD數(shù)據(jù)集中，E2E-MFD的優(yōu)勢尤為明顯，比如能夠清晰顯示白色汽車的后部以及騎摩托車的人。

E2E-MFD在保留大量細(xì)節(jié)的同時(shí)，保持了圖像的高分辨率，并且沒有引入模糊現(xiàn)象。而其他方法則未能同時(shí)實(shí)現(xiàn)這些優(yōu)勢。

為了更有效地評估融合圖像對下游檢測任務(wù)的影響，研究在M3FD數(shù)據(jù)集上使用了YOLOv5s檢測器對所有SOTA方法進(jìn)行了測試，結(jié)果如表所示。

與單模態(tài)檢測相比，SOTA方法在融合圖像上的表現(xiàn)明顯提升，表明良好融合的圖像能夠有效地支持下游檢測任務(wù)。

E2E-MFD生成的融合圖像在YOLOv5s檢測器上表現(xiàn)最佳，同時(shí)在DiffusionDet檢測器上也取得了出色的成績。

即使與端到端目標(biāo)檢測方法（E2E-OD）相比，E2E-MFD的方法仍顯示出了顯著的性能提升，充分證明了其訓(xùn)練范式和方法的有效性。

檢測結(jié)果的可視化如下圖所示。

當(dāng)僅使用單模態(tài)圖像作為輸入時(shí)，檢測結(jié)果較差，常常漏檢諸如摩托車和騎手等目標(biāo)，尤其是在圖像右側(cè)靠近汽車和行人的區(qū)域。

幾乎所有的融合方法都通過融合兩種模態(tài)的信息，減少了漏檢現(xiàn)象并提升了檢測的置信度。

通過設(shè)計(jì)端到端的融合檢測同步優(yōu)化策略，E2E-MFD生成了在視覺上和檢測上都非常友好的融合圖像，尤其在處理遮擋和重疊的目標(biāo)時(shí)表現(xiàn)出色，比如圖像右側(cè)藍(lán)色橢圓中的摩托車和重疊的行人。

在DroneVehicle數(shù)據(jù)集上的目標(biāo)檢測定量結(jié)果多模態(tài)如表所示，E2E-MFD達(dá)到了最高的精度。

此外，使用生成的融合圖像在YOLOv5s-OBB和LSKNet上進(jìn)行檢測時(shí)，較單一模態(tài)至少提高了5.7%和3.1%的AP值，驗(yàn)證了方法的魯棒性。

這證明了融合圖像的優(yōu)異質(zhì)量，表明它們不僅在視覺上令人滿意，還為檢測任務(wù)提供了豐富的信息。

小結(jié)

研究提出了多模態(tài)融合檢測算法E2E-MFD，僅以單步訓(xùn)練過程同時(shí)完成融合和檢測任務(wù)。

引入了一個(gè)系統(tǒng)發(fā)育樹結(jié)構(gòu)和粗到細(xì)擴(kuò)散處理機(jī)制，來模擬在不同任務(wù)需求下，不同視覺感知中需要完成的這兩項(xiàng)任務(wù)。

此外，研究對融合檢測聯(lián)合優(yōu)化系統(tǒng)中的任務(wù)梯度進(jìn)行了對齊，消除聯(lián)合優(yōu)化過程中兩個(gè)任務(wù)的梯度優(yōu)化沖突。

通過將模型展開到一個(gè)設(shè)計(jì)良好的融合網(wǎng)絡(luò)和檢測網(wǎng)絡(luò)，可以以高效的方式生成融合與目標(biāo)檢測的視覺友好結(jié)果，而無需繁瑣的訓(xùn)練步驟和固有的優(yōu)化障礙。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴