好看的历史书籍推荐,君子以泽,风凌天下

從視頻中估計3D結構和相機運動是計算機視覺中的一個關鍵問題，這個技術在自動駕駛領域有著廣闊的工業應用前景。目前自動駕駛的核心技術是LiDAR（激光雷達），一種運用雷達原理，采用光和激光作為主要傳感器的汽車視覺系統。LiDAR傳感器賦予了自動駕駛汽車能夠看到周邊環境的“雙眼”，激光雷達技術越先進，視覺感知的精準程度越高，這是自動駕駛得以實現的底層技術基礎。但是最近幾年，放在攝像頭上的深度學習研究，發展很蓬勃。相比之下，雖然激光雷達 (LiDAR)的數據有諸多優點，但相關學術進展并不太多。相機+數據+神經網絡的組合，正在迅速縮小與LiDAR的能力差距。

無需相機參數、單目、以無監督學習的方式從未標記場景視頻中搞定深度圖！

什么是深度圖？

深度圖像（depth image)也被稱為距離影像（range image），由相機拍攝，是指將從圖像采集器到場景中各點的距離（深度）作為像素值的圖像，它直接反映了景物可見表面的幾何形狀。單位為mm，效果參考下圖：

在場景視頻景深學習領域，谷歌AI和機器人實驗室聯合公布了三項最新研究突破：

第一，證明了可以以一種無監督的方式訓練深度網絡，這個深度網絡可以從視頻本身預測相機的內在參數，包括鏡頭失真（見圖1）。

第二，在這種情況下，他們是第一個以幾何方式從預測深度直接解決遮擋的問題。

第三，大大減少了處理場景中移動元素所需的語義理解量：只需要一個覆蓋可能屬于移動對象的像素的單個掩碼，而不是分割移動對象的每個實例并跨幀跟蹤它。

圖1：從未知來源的視頻中學習深度的方法的定性結果，通過同時學習相機的外在和內在參數來實現。由于該方法不需要知道相機參數，因此它可以應用于任何視頻集。所有深度圖（在右側可視化，作為差異）都是從原始視頻中學習而不使用任何相機內在函數。從上到下：來自YouTube8M的幀，來自EuRoC MAV數據集，來自Cityscapes和來自KITTI的幀。

推特網友對此不吝贊美：“這是我見過的最令人印象深刻的無監督結果之一。來自未標記視頻的深度圖對于自動駕駛非常有用:)“

以下是論文具體內容：

從視頻中估計3D結構和相機運動是計算機視覺中的一個關鍵問題，這個技術在自動駕駛領域有著廣闊的工業應用前景。

解決該問題的傳統方法依賴于在多個連續幀中識別場景中的相同點，并求解在這些幀上最大程度一致的3D結構和相機運動。

但是，幀之間的這種對應關系只能針對所有像素的子集建立，這導致了深度估計不確定的問題。與通常處理逆問題一樣，這些缺口是由連續性和平面性等假設填充的。

深度學習能夠從數據中獲得這些假設，而不是手工指定這些假設。在信息不足以解決模糊性的地方，深度網絡可以通過對先前示例進行歸納，以生成深度圖和流場。

無監督方法允許單獨從原始視頻中學習，使用與傳統方法類似的一致性損失，但在訓練期間對其進行優化。在推論中，經過訓練的網絡能夠預測來自單個圖像的深度以及來自成對或更長圖像序列的運動。

隨著對這個方向的研究越來越有吸引力，很明顯，物體運動是一個主要障礙，因為它違反了場景是靜態的假設。已經提出了幾個方向來解決該問題，包括通過實例分割利用對場景的語義理解。

遮擋是另一個限制因素，最后，在此方向的所有先前工作中，必須給出相機的內在參數。這項工作解決了這些問題，因此減少了監督，提高了未標記視頻的深度和運動預測質量。

首先，我們證明了可以以一種無監督的方式訓練深度網絡，這個深度網絡從視頻本身預測相機的內在參數，包括鏡頭失真（見圖1）。

其次，在這種情況下，我們是第一個以幾何方式從預測深度直接解決遮擋的問題。

最后，我們大大減少了處理場景中移動元素所需的語義理解量：我們需要一個覆蓋可能屬于移動對象的像素的單個掩碼，而不是分割移動對象的每個實例并跨幀跟蹤它。

這個掩模可能非常粗糙，實際上可以是矩形邊界框的組合。獲得這樣的粗糙掩模是一個簡單得多的問題，而且與實例分割相比，使用現有的模型可以更可靠地解決這個問題。

除了這些定性進展之外，我們還對我們的方法進行了廣泛的定量評估，并發現它在多個廣泛使用的基準數據集上建立了新的技術水平。將數據集匯集在一起，這種能力通過我們的方法得到了極大的提升，證明可以提高質量。

表1：總結了在KITTI上訓練的模型和評估結果，使用給定相機內建和學習相機內建兩種方式來評估我們方法的深度估計，結果顯而易見，我們獲得了當前最佳SOTA。

表2：總結了在Cityscapes上訓練和測試的模型的評估結果，我們的方法優于以前的方法，并從學習的內建中獲益。

表3：深度估計的消融實驗。在所有實驗中，訓練集是Cityscapes（CS）和KITTI組合，我們分別在Cityscapes（CS）和KITTI（Eigen partition）上測試模型。每行代表一個實驗，其中與主方法相比進行了一次更改，如“實驗”行中所述。數字越小越好。

除了這些定性的進步，我們對我們的方法進行了廣泛的定量評估，發現它在多個廣泛使用的基準數據集上建立了一個新的技術狀態。將數據集集中在一起，這種方法大大提高了數據集的質量。

最后，我們首次演示了可以在YouTube視頻上學習深度和相機內在預測，這些視頻是使用多個不同的相機拍攝的，每個相機的內建都是未知的，而且通常是不同的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6192

瀏覽量
105896
LIDAR

LIDAR

+關注

關注
10

文章
328

瀏覽量
29499

原文標題：谷歌AI：根據視頻生成深度圖，效果堪比激光雷達

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關注！文章轉載請注明出處。

科技為用戶而生！海爾智家大腦HomeGPT連獲三項大獎

用戶體驗的全面提升。連獲三項大獎，讓家更懂用戶所需用戶的好評與行業認可是科技實力的最佳證明。短短兩個月內，海爾智家大腦HomeGPT入選“2024年工信部‘數字三品’應用場景典型案例”，榮獲“2024年度山東省信息產業協會科

發表于 01-24 11:36 ?111次閱讀

松下電氣榮獲SGS三項服務認證

近日，松下電氣設備(中國)有限公司在國際公認的測試、檢驗和認證機構SGS的嚴格評審下，榮獲了商品售后服務“五星級”、售后服務完善度“鉑金級”以及顧客滿意度“鉑金級”三項認證證書。這一榮譽的獲得

發表于 01-22 13:40 ?102次閱讀

鴻海榮獲2024 IR Magazine三項大獎

與服務商鴻海科技集團（TWSE:2317）宣布榮獲全球權威“投資者關系雜志”《IR Magazine》頒發“最佳企業 - 科技業”、“最佳科技應用（包含AI）”以及“最佳投資人關系人員”三項大獎，肯定公司作為科技產業領導者之一，不斷結合各種創新模式與投資人溝通。今年鴻海一

發表于 12-07 18:10 ?353次閱讀

蘋果iOS 18.2將推三項備忘錄AI功能,提升創作效率

11月6日，據外媒報道，蘋果公司正籌備推出第二波Apple Intelligence（蘋果智能）功能，并計劃在下個月發布的iOS 18.2更新中，為備忘錄應用帶來三項關鍵的人工智能改進，旨在提升用戶的創作效率和日常記錄體驗。

發表于 11-06 14:58 ?544次閱讀

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

偏見、倫理道德等問題。此外，如何更好地將AI與科學研究人員的傳統工作模式相融合，也是一個亟待解決的問題。未來，隨著技術的不斷進步和應用場景的拓展，AI for Science有望在更多

發表于 10-14 09:16

3D ToF三維場景距離(景深)測量系統簡介

電子發燒友網站提供《3D ToF三維場景距離(景深)測量系統簡介.pdf》資料免費下載

發表于 09-29 10:55 ?0次下載

3D ToF<b class='flag-5'>三</b>維<b class='flag-5'>場景</b>距離(<b class='flag-5'>景深</b>)測量系統簡介

谷歌Pixel 9系列AI功能搶眼,蘋果被指AI領域落后

8月15日，谷歌意外提前揭曉了其新品發布會，借助Pixel 9系列手機搭載的Gemini AI技術，在蘋果iPhone 16系列發布前夕搶占了科技頭條。此舉不僅展示了谷歌在人工智能領域

發表于 08-15 15:31 ?625次閱讀

谷歌Chrome瀏覽器新增三大AI功能，提升用戶體驗

谷歌近日宣布，在其廣受歡迎的Chrome瀏覽器中引入了三項前沿的AI技術功能，旨在為用戶提供更加智能、便捷的瀏覽體驗。這些新功能由Gemini技術強力驅動，目前已在Chrome桌面版上線，標志著

發表于 08-05 11:26 ?739次閱讀

谷歌AI新突破：為無聲視頻智能配音

近日，谷歌DeepMind團隊公布了一項革命性的技術——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術。這一技術的出現

發表于 06-21 10:50 ?538次閱讀

谷歌推出能制作旅行攻略的AI工具

谷歌近日發布了一項令人矚目的新功能，它是一款能夠借助自然語言對話幫助用戶生成旅行行程和出游建議的AI工具。這款工具的推出，標志著谷歌在人工智能領域

發表于 03-29 11:08 ?728次閱讀

維信諾主導三項柔性顯示器件團體標準發布

近日，維信諾昆山公司憑借其深厚的技術積累和行業影響力，主導制定并發布了三項團體標準：T/SOECC 014-2024《柔性顯示器件折痕測試方法》、T/SOECC 015-2024《柔性顯示器

發表于 03-13 10:37 ?1050次閱讀

NanoEdge AI的技術原理、應用場景及優勢

等領域。以下是一些具體的應用場景： 1 . 智能家居：通過將 NanoEdge AI 集成到智能家居設備中，可以實現對家庭環境的實時監控和智能控制，如溫度調節、照明控制、安防監控等。 2.工業自動化

發表于 03-12 08:09

中興通訊榮獲GTI Awards 2024三項大獎，展現5G領域硬核實力

近日，在備受矚目的MWC24巴塞羅那大會上，中興通訊憑借其卓越的技術創新和應用實力，榮獲了三項GTI Awards 2024大獎。這些獎項不僅是對中興通訊在5G領域的突出貢獻的認可，更是對其持續引領行業發展的肯定。

發表于 03-03 15:40 ?1074次閱讀

高通在2024 MWC展示AI領域新突破

在2024年巴塞羅那世界移動通信大會（2024 MWC）上，高通技術公司展現了其在AI領域的最新成果，從全新的高通?AI Hub到前沿研究突破

發表于 02-27 10:57 ?1034次閱讀

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構，旨在實現視頻

發表于 02-04 13:49 ?1083次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

場景視頻景深學習領域,谷歌AI公布三項最新研究突破

評論

科技為用戶而生！海爾智家大腦HomeGPT連獲三項大獎

松下電氣榮獲SGS三項服務認證

鴻海榮獲2024 IR Magazine三項大獎

蘋果iOS 18.2將推三項備忘錄AI功能,提升創作效率

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

3D ToF三維場景距離(景深)測量系統簡介

谷歌Pixel 9系列AI功能搶眼,蘋果被指AI領域落后

谷歌Chrome瀏覽器新增三大AI功能，提升用戶體驗

谷歌AI新突破：為無聲視頻智能配音

谷歌推出能制作旅行攻略的AI工具

維信諾主導三項柔性顯示器件團體標準發布

NanoEdge AI的技術原理、應用場景及優勢

中興通訊榮獲GTI Awards 2024三項大獎，展現5G領域硬核實力

高通在2024 MWC展示AI領域新突破

谷歌推出AI擴散模型Lumiere