前言:
在7月底的一篇文章中,九章智駕提到,數據閉環能力是自動駕駛下半場的“入場券”,這一觀點在行業內引起了廣泛共鳴。
在數據閉環體系中,仿真技術無疑是非常關鍵的一環。仿真的起點是數據,而數據又分為真實數據跟合成數據。隨著真實數據“規模小、質量低、使用難度大”等問題日漸暴露,合成數據越來越受重視。
顧名思義,合成數據(synthetic data)就是通過計算機技術生成的數據,而不是由真實事件產生的數據。但合成數據又具備“可用性”,能夠在數學上或統計學上反映原始數據的屬性,因此也可以用來訓練、測試并驗證模型——OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生產的數據來進行訓練。
在2022年底,筆者曾寫過5篇關于自動駕駛仿真的科普文,但這幾篇文章對合成數據的著墨不多。過去的兩個月里,筆者在學習合成數據的過程中,又遇到了不少疑問,帶著這些疑問,筆者請教了十多位業內專家,然后形成“合成數據科普文”系列。
在本系列文章的撰寫過程中,筆者得到了光輪智能CEO謝晨、圖森首席科學家王乃巖、辰韜資本趙磊、復睿微電子張俊川、百度仿真專家徐志健、昆易電子方志剛、“車路慢慢”運營者李漫漫、PanoSim王文威等朋友的支持,在此表示感謝。
自動駕駛合成數據科普一:不做真實數據的“顛覆者”,做“杠桿”
自動駕駛的仿真,最早就是以合成數據為主。這里講的合成數據,主要是指由人工基于規則搭建的場景,這背后的技術,就是業內常說的WorldSim。通常,基于WorldSim搭建的場景,還需要用Unreal等游戲引擎來做圖像渲染。直到今天,WorldSim+游戲引擎仍然是自動駕駛行業用得最多的合成技術之一。
看起來,基于WorldSim+游戲引擎的合成數據能在一定程度上彌補真實數據不足的問題,然而,在實際使用中,這種合成數據存在一個很難克服的短板:真實度還不夠高。用更專業的術語來說是“保真度”不夠高。
這一痛點,決定了基于WorldSim+游戲引擎的合成數據基本上只能用來做測試,很難用于做算法訓練。
為了避開WorldSim+游戲引擎技術的這一短板,有一些公司試圖將真實道路數據“轉換成數學模型”。然而,這一設想實施起來困難重重。
但合成數據“可用性”的提升,并未因此而停止。
真正能幫合成數據提升可用性的,是更高的保真度和更強的泛化能力。GAN、VAE和Diffusion Model等模型在自動駕駛仿真中的應用,已經證明了這一點;而當下廣受追捧的NeRF技術,也需要保證泛化能力才有可能被廣泛應用。
當下大熱的AI大模型能,也將在自動駕駛仿真中占有一席之地。事實上,AI大模型+NeRF的組合,被一些從業者視為幫合成數據攻克保真度和泛化能力這兩大難題的關鍵武器。
隨著合成數據面臨的主要難題被一一攻克,真實數據“規模小、質量低、使用難度大”的問題也不再那么令人擔憂。
通常,在談起合成數據時,人們本能地以為它的主要價值是彌補真實數據“數量不足”的問題。但這可能是一個嚴重的誤解。
在筆者看來,真實數據的最主要問題并不是“太少”,而是“質量低,使用難度大”。所以,哪怕真實數據的規模很大,合成數據仍然是必不可少的。不信的話,看看“最不缺”真實數據的特斯拉是怎么做的吧——特斯拉也在使用合成數據!
在國內,各家已有自動駕駛量產車型上路的主機廠也不缺真實數據,但這些數據的利用率究竟“高達”20%、10%還是1%,其實是存在很大的疑問的。
不過,真實數據質量低、使用難度大給主機廠帶來的困擾,恰合也就是合成數據的用武之地。
有意思的是,不同于L4公司普遍用合成數據來“彌補”真實數據的不足,一些以提供合成數據服務為主業的公司更傾向于將合成數據定位為真實數據的“杠桿”。在后者看來,合成數據的使命和愿景并不是要去頂替真實數據,而是要做真實數據的“放大器”,幫助主機廠或自動駕駛公司提高真實數據的使用效率。
下面,我們將以1.1萬字的篇幅來盤點一下“合成數據究竟能解決真實數據的哪些痛點”。
一、兼顧隱私保護與數據的可用性
在真實場景中,自動駕駛車輛的傳感器采集到的信息經常包括車牌、人臉,但出于隱私保護的需求,這些數據通常大都無法直接使用,而是得先做脫敏或加密才行。但脫敏不僅意味著一筆額外的成本,而且,如果脫敏處理不好,數據的價值也會大打折扣,甚至根本無法使用。
但如果是根據實際需求搭建一些不包含隱私信息的數據,就可在兼顧隱私保護的前提下確保數據的可用性。
在美國和歐洲,合成數據已經是一個很大的產業了,但在中國,合成數據還處于萌芽階段,其中有一個重要的原因是:
美歐國家在文化和法律層面都會對隱私保護比較講究,因此,企業不得不通過采用合成數據來避免高度依賴真實數據所帶來的風險;而在中國,長期以來,無論在文化層面還是法律層面,隱私都沒有受到足夠的重視,所以,企業可以“肆無忌憚”地使用真實數據,這也導致了中國缺乏合成數據發展的土壤。
但情況正在發生變化。一方面,在中國,普通個體關于隱私保護的權利意識在覺醒;另一方面,法律層面也不允許企業肆意濫用各種隱私數據了。
單從隱私保護的角度考慮,國內公司也將越來越多地降低對真實數據的依賴程度。
二、避開高精地圖的資質障礙
除了圖商等極少數有資質的公司,大多數公司都無法通過路采獲取真實數據的方式來繪制高精地圖,為了避開這一問題,很多公司推出了“去高精地圖”方案,但這一方案對公司的前融合算法能力、規控算法能力都提出了新的挑戰,實際上,真正能落地的公司并不多。
但如果能用合成數據來制作高精地圖,那問題就簡單得多了。
在中國,我們尚未看到有公司采用合成數據來制作高精地圖,但在美國,已經有了類似的先例了。
2021年11月,在一場題為 Under the Hood的活動上,Cruise仿真技術戰略主管 Sid Gandhi 披露,在向新的城市拓展時,他們不必重新繪制城市地圖來跟蹤車道變更或街道封閉等“不可避免發生的環境變化”,而是利用一項名為 WorldGen 的技術,準確、大規模地生成整個城市,“從奇特的布局到最小的細節”。
為了確保最佳的世界創建,Cruise 考慮了一天 24 小時不同時間段的照明和天氣條件等因素,甚至系統地測量了舊金山一系列路燈的光線。
對于無法在現實路況下收集的特定場景,Cruise則使用 Morpheus。Morpheus 是一個可以根據地圖上的特定位置生成合成數據的系統。
據曾擔任過Cruise仿真負責人的光輪智能CEO謝晨說:
Crusie的 WorldGen和Morpheus并不是用合成數據來做高精地圖,而是對真實世界做3D重建。但無論如何,將車道變更或街道封閉及“從奇特的布局到最小的細節”都納入3D重建中,重建后的信息元素已經很接近高精地圖了。
在美國,自動駕駛公司采集真實道路數據并不會受到如在中國這般嚴格的限制,但Crusie仍然采用了合成數據,這給那些被高精地圖政策束縛了手腳的中國公司提供了一種新思路。
此外,今后受數據合規相關法規政策影響的,就不限于高精地圖數據了,還有用于感知算法訓練的數據回傳。
(這一點,九章在6月30日發的《“去高精地圖”跟“輕高精地圖”有啥區別?落地的挑戰又是啥?》一文的第七章“感知算法訓練或將受到數據合格政策的影響”部分已做過詳細的分析,并在此后也從其他平臺發布的類似內容中得到進一步印證,在此不再贅述。)
可以想見,接下來,用真實道路數據做算法訓練的難度是越來越大了——不是沒法做,關鍵是對車端脫敏的要求太高了,甚至可能還需要跟有測繪資質的圖商合作。
受這一政策沖擊較少的公司,應該就是那些率先開始擁抱合成數據的公司。
三、高效生成在真實場景中很難獲取的Corner Case
大家都清楚,自動駕駛系統很難徹底取代人,最關鍵的原因是對各種corner case的應對能力不足,而應對能力的不足又源于數據量不夠。這正是合成數據大有可為的地方。
大量的corner case,在真正發生前,沒有人能想得到——預期功能安全第三象限里面的“unknown,unsafe”一類,所以無法在真實道路上做模擬。這類corner case,沒法通過基于人工規則的合成數據(WorldSim)來生成,也沒法通過對真實世界做3D重建的技術(NeRF)來生成,但有望通過基于AIGC的合成數據來獲取。
有的corner case,盡管人能想象得到“大概會怎樣”,但畢竟太危險(known,unsafe),所以,也不適合在真實道路上做模擬。這種corner case,沒法通過NeRF技術來生成,但可以通過WorldSim來生成。當然,也有望通過AIGC來生成。
有的corner case,算不上有多么unsafe,但在真實世界中確實很罕見。如雨、霧、雪和極端光線等極端天氣跟某種極端交通流的組合。這些,也需要通過合成數據技術(同上,不包括NeRF)來生成。
(為何這一章會在多處提到了有許多corner case無法通過當下大熱的NeRF技術來生成?這個問題的答案,我們將在本系列的第二篇文章中做詳細的闡釋。)
有許多corner case,真實數據中其實有的,但無奈真數據中corner case的密度太低,挖掘成本太高,這個時候,工程師們如果沒有足夠的耐心或“實在等不及”,則直接選擇合成數據便是最佳策略。
有了合成數據,主機廠或自動駕駛公司便可在幾小時內模擬數百萬個行人(現實中,這通常需要幾個月才能完成)。這些模擬可能涵蓋不同照明條件、目標位置和惡劣環境下(暴雨、極寒、濃霧等)的示例?;蛘?,可以插入隨機噪聲來模擬臟污的攝像頭、霧水和其他視覺障礙物。
此外,真實數據由于高度受制于采集場景的限制,所以,corner case在樣本的分布上也很難有效滿足算法的需求。而合成數據,可以有針對性地生成分布狀況更滿足訓練需求的corner case,這更有助于提升算法的性能。
四、“非必要,不采集”,降低數據采集、回傳及存儲環節的成本
許多主機廠都聲稱已經量產上路的自動駕駛車型每天都在回傳數據,但這個所謂的“數據回傳”究竟實現到什么程度、所謂的“影子模式”是否真的落地了,一直是個玄學。
之前只有為數不多的測試車的時候,數據的問題相對好辦,畢竟,“回傳”可以通過硬盤來解決,篩選可以在云端做,然而,在量產車上,通過硬盤來解決數據“回傳”的道路走不通了,篩選出有效數據這個工作就要在車端完成。
在3月份的《自動駕駛數據閉環系列之一:理想豐滿,現實骨感》一文中,我們提到,在量產車上采集數據會占用一些系統資源,比如計算、存儲等。
理論上,可以假設計算資源、網絡帶寬等都不受限制,但在實際落地過程中,如何保證采集數據不影響量產車上自動駕駛系統的正常運行,例如,如何不影響自動駕駛系統的延遲等,這是一個需要解決的問題。
因此,在設計的時候,就需要考慮到采集數據等對自動駕駛系統運行的影響。
此外,在數據量特別大的時候,數據回傳的成本也會非常高。
單車每日回傳的數據量大概為百兆級。在研發階段,車輛總數可能只有幾十輛或者幾百輛,但是到了量產階段,車輛數目的量級可以達到上萬、幾十萬甚至更多。那么,量產階段,整個車隊日產生的數據量就是很大的數字。據某數據管理供應商提供的信息,某造車新勢力每個月僅用來做數據回傳的流量費就高達“大幾千萬”。
另一方面,急劇增加的數據量還給存儲空間以及數據處理的速度都帶來了挑戰。
量產之后,數據處理的延遲需要和研發階段保持在同一個量級。但如果底層的基礎設施跟不上,數據處理的延遲就會隨著數據量的增長而相應地增加,這樣會極大地拖慢研發流程的進度。對于系統迭代來講,這種效率的降低是不可接受的。
一位業界專家告訴九章智駕:
目前,我們還沒有看到哪家公司具備處理量產車上回傳的大規模數據的能力。即使是某家在數據閉環層面做得比較前沿的造車新勢力,即便是每輛量產車每天只回傳5分鐘的數據,他們也難以應對這樣的數據量,因為當前的存儲設備、文件讀取系統、計算工具等都還無法應對極大的數據量。
要應對越來越大的數據量,底層的基礎設施以及平臺的設計都需要相應升級。
工程團隊需要開發完善的數據訪存SDK。由于視覺數據、雷達數據的文件尺寸都非常大,數據的訪問、查詢、跳轉、解碼過程都需要效率足夠高,否則會大大拖慢研發進度。
如果能做到盡可能多地使用合成數據來模擬一些場景,只有在合成數據無法滿足要求的時候再回傳真實數據,即“非必要,不采集、不回傳”,那跟數據采集、回傳和存儲相關的成本就會大幅度下降。
五、自帶完美標簽,不用再做標注
車端數據在回傳到云端后,需要先做好標注后才能使用。據稱,在大模型用于數據標注后,已經有高達80%的數據標注可以通過自動化的方式來完成,但還有至少20%涉及復雜場景、多目標、語義復雜的數據需要由人工來完成“精標”。
當下大熱的BEV+Transformenr技術,對數據標注的需求進一步上升。
以往,需要標注的主要是前視攝像頭的數據,2D 標注框+ 3D 位置就已經是標注的全部內容了;而今,在BEV+Transformer方案下, 所有相關的攝像頭(可能超過7個)能看到的所有障礙物、車道線、車輛的運動狀態都需要對應的標注, 并且還要統一在同一坐標系下,還有大量的語義信息也需要標注,而標注成本,也從之前的每幀10元左右上漲到每幀30-40元,甚至更高。
人工標注的工作量遠超外人想象。據毫末智行數據智能科學家賀翔在6月底的一場自動駕駛公開課上的說法,一張關于十字路口的照片,要把位置、天氣、擁擠狀況、其道路使用者、廣告牌等各種元素都標注出來,并能在此基礎上做場景篩選,可能100個標簽也不夠用。
假如車上有8-12個攝像頭、1-2個激光雷達,10秒鐘的視頻里面可能有上千張圖片,標注成本得幾千元。
一般的檢測框,一分鐘的內容,標注需要一小時左右;點云分割,一分鐘的內容,標注需要幾個小時;但對更復雜的任務做4D標注,可能一分鐘的任務需要花超過一天時間才能完成。
后面要做端到端的算法訓練,在給這一幀的內容打標簽時,還得考慮該標簽如何跟其他幀的內容做關聯。
總的趨勢是,自動駕駛行業對標注的要求越來越高了,這意味著,投入到一分鐘視頻上的標注成本越來越高了。
在7月底的一場沙龍上,某自動駕駛公司COO稱,在數據處理的高峰期,他們曾同時跟超過100家標注公司合作,不僅直接成本很高,而且,供應商管理的復雜度也極高。
做人工標注,如何在數據量極大的情況下,保證標注結果的準確率、一致性也是一大挑戰。想象一下,標注工人連續幾天坐在辦公桌前做同樣的工作時間,幾乎就像在工廠的傳送帶上工作一樣, 在這種情形下,ta一定會時不時地犯一些奇怪的錯誤。
如果標注的結果不準確、不完整,那基于這些數據訓練出來的模型的性能就會受到影響。
但合成數據自帶圖像和激光雷達的“真值”標簽,包括 2D 和 3D 邊界框、語義和實例分割、深度、光流、運動矢量、關鍵點等。并且,對被遮擋行人/物體這種很難做人工標注的場景,合成數據也可以自帶完美標簽。
在成本方面,與需要標注的真實數據相比,自帶標簽的合成數據也具有明顯優勢。
合成數據服務商AI.Reverie 認為,人工標注一張圖片可能需要6美元(這還不算數據回傳、篩選及存儲的成本),但通過合成數據技術生成同樣一張自帶標簽的圖片只需要6美分。
誠然,合成數據無法完全取代真實數據,但合成數據使用率的上升,對真實數據的依賴度下降,就可以減少因為真實數據“不好用”而產生的不必要的成本。
全球數據標注龍頭公司Scale AI已敏銳地意識到了這一趨勢。
過去幾年,算法訓練對數據標注的饑渴需求,造成了一個很有意思的現象是:自動駕駛公司和主機廠的自動駕駛業務都沒掙到錢,但做數據標注的公司卻掙到錢了。全球數據標注龍頭Scale AI甚至因此而估值超過73億美元。
不過,Scale AI也已經意識到,隨著合成數據的應用逐漸深入,數據標注業務的營收會受到不小的沖擊。因此,在2022上半年,該公司推出了一個名為Scale Synthetic的合成數據平臺,宣布進入合成數據產業。他們甚至稱,合成數據是自己在2022年的“首要任務”。
數據標注龍頭進軍合成數據,邏輯是“在別人能干掉我之前,我先掌握他們的技能,大不了自己干掉自己”,這算是一場自我革命了。
作為被合成數據“革命”的對象,數據標注公司積極擁抱合成數據,這又從反面進一步印證了自帶標簽的合成數據相比于真實數據的優勢。
六、可編程,可交互
看起來,各家公司手上都積累了不少真實數據,但真實數據用來做仿真,有個很嚴重的痛點是:復用性差。
比如,在做路采的時候,車輛的芯片平臺、傳感器架構及制動系統是怎樣的,那我在仿真系統里做測試時,車輛的這些硬件配置也必須跟路采時所用的車輛配置一致。
某工具鏈公司的仿真負責人說:
在用真實道路數據做仿真的情況下,一旦傳感器的位置或者型號有變更,這一組數據的價值就降低,甚至會‘作廢’。
究其原因,真實數據在使用時無法調整任何參數,而只能做簡單的“回放”——也被稱為“回灌”(LogSim)。
復睿微電子仿真負責人張峻川在一次公開分享中提到,WorldSim(用合成數據做仿真)像在玩游戲,而LogSim(用真實道路數據做仿真)則更像是電影,你只能看,沒法參與,沒法生成與原始記錄不同的傳感器數據,因此,LogSim天然沒法解決交互性的問題。
可以想見,沒法解決交互問題的LogSim,只能用于測試驗證一個現成的算法“是不是OK”,卻不能用于從頭來訓練一個算法。
確有一些公司曾嘗試把采集到的場景里面的元素都完成參數化,但目前還沒有成熟的案例落地。
但合成數據天然具有可編程性,很多參數都是可以調整的,因此,數據復用的難度將大幅度降低。
(合成數據的可編程性或泛化能力、可復用性,因AI的參與度而有所不同,總的來說,AI的參與度越高,合成數據的泛化能力越強,這一點,我們將在本系列的第二篇文章中做更詳細的分析,在此暫不贅述。)
豐田及其投資的合成數據公司Parallel Domain都將合成數據稱為 Programmable Data即“可編程數據”。Parallel Domain在其官網上稱:“我們可以對我們希望在訓練數據中獲得的任何輸出進行編程......通過組合參數掃描,為每輛車生成數據,乘以每種照明條件、每種天氣條件,每種油漆顏色?!?/p>
英偉達在對外介紹合成數據時經常提到一個詞“域隨機化”(Domain Randomization),即通過在合成數據的生成過程中引入各種隨機性和變化,使得生成的數據能夠覆蓋更廣泛的場景。
英偉達說的“域隨機化”,包括改變某個特定對象的顏色、光照、紋理、材質、變換等多種屬性,也包括添加和修改傳感器的位置和參數,以及定義其他道路使用者的運動狀態。此外,改變一天的時間、太遠的位置、溫度、道路的濕度,也是“域隨機化”的一部分。
在理想的情況下,用轎車去采集的數據,如果把視角調整成卡車視角,那這一組數據就可以用于訓練卡車的感知算法。
專注于人類數據的Synthesis AI甚至能夠以編程方式自定義人的面部數據集。為滿足DMS方向客戶的需求,Synthesis 生成了大約 100,000 個涵蓋不同性別、年齡、體重指數、膚色和種族的“合成人”。
通過該平臺,數據科學家可以定制化身的姿勢以及頭發、面部表情、注釋方向、發型、服裝(例如面具和眼鏡)以及環境方面(例如照明,甚至虛擬相機的“鏡頭類型”)。
對合成數據做編程的最大意義是,可以讓corner cace都可以泛化出數千個“變體”,由此,訓練出來的模型會具有很強的魯棒性和泛化能力,從而更容易適應真實世界中的各種變化和不確定性。
此外,合成數據生成過程的參數化,使機器學習工程師能夠更好地控制每次迭代,并讓數據集中已存在內容的更有可追溯性。
七、 通過隨機化及調整場景分布來解決“過擬合”的問題
在學習合成數據的過程中,筆者注意到,不少開發者都反映,基于真實數據訓練出的模型,很容易出現“過擬合”(Overfitting)的問題。
所謂過擬合,指模型在訓練數據上表現良好,但在新的、未見過的數據上表現較差的情況。當模型過度擬合時,它學習到了訓練數據中的細節和噪聲,而無法泛化到新的數據上。
那么,真實數據是不是要比合成數據更有可能引發模型的“過擬合”問題?
光輪智能CEO謝晨認為:
嚴格地說,“過擬合”跟訓練數據是真實數據還是合成數據并沒有必然關系,真正導致“過擬合”的,是訓練數據集中的場景分布跟真實世界不一致,導致數據集可能無法捕捉到真實世界的復雜性和多樣性——而不管這個“數據集”究竟是真實數據集還是合成數據集。
謝晨舉例說:
比如,很多自動駕駛系統在晚上或者雨天表現不太好,這是因為他們當初做訓練數據采集的時候,采的大部分都是白天和晴天的數據。
英偉達仿真產品經理Matt Cragun也做過類似的解釋:
如果大部分真實數據都是在白天條件下收集的,那么在該數據集上訓練的算法在夜間或弱光條件下可能表現不佳。
再比如,仿真公司Applied Intuition發現,某個感知模型很難準確地檢測到騎自行車的人和起摩托車的人,原因在于,在用于訓練這個模型的真實數據集中,騎行者出現的頻率遠低于車輛和步行者——前者出現的頻率不到后者的1/170。
那么,該如何避免“過擬合”的問題呢?筆者從ChatGPT 3.5上得到的對策有8條,如下圖所示:
其中,跟訓練數據相關的對策是如下兩條:
1.通過對訓練數據進行擴充,如隨機旋轉、平移、縮放、翻轉、添加噪聲等操作,增加訓練樣本的多樣性;
2.對輸入數據進行規范化或標準化,使其具有相似的尺度和分布,可以幫助模型更好地學習和泛化。
鑒于真實數據是“死的”,無法編程,因此,要對真實數據做如上操作,基本上是不太可能的。所以,更容易用來解決“過擬合”問題的訓練數據,基本只能是合成數據了。
英偉達主要通過合成數據的域隨機化來克服“過擬合”問題。所謂域隨機化,即在合成數據的生成過程中引入各種隨機性和變化(這也是對合成數據做泛化的一種特殊形式),使得生成的數據能夠覆蓋更廣泛的場景。
比如,英偉達曾在測試中發現,某個基于合成數據訓練出來的模型未能在大多數真實圖像上充分檢測到門,因為它在模擬中過度擬合了門的紋理。為了防止門的紋理過度擬合,英偉達仿真團隊在 30 種不同的類木紋理中對門的紋理應用了隨機化。
與此類似的是,為了使模型對墻壁上的 QR 碼等噪聲具有魯棒性,英偉達仿真團隊還應用了 DR overtexture,將墻壁的紋理隨機化為不同的紋理,包括 QR 碼和其他合成紋理。
再比如,英偉達還發現,某個基于合成數據訓練的模型在低溫照明條件下有很多誤報,其原因在于,仿真環境中的照明保持穩定和恒定,而在現實中,照明條件多種多樣。為避免同類問題再次發生,英偉達仿真團隊在合成數據中的天花板燈上添加了光溫 域隨機化,以隨機化燈光的移動、強度和顏色。
曾擔任過英偉達自動駕駛仿真主管的謝晨也認同英偉達在解決“過擬合”問題上采取的思路。
謝晨補充說:
光輪智能在生產合成數據的過程中,堅持的一個原則是“守正出奇”,即在客戶特別需要的增量數據方面,他們按照客戶的要求做定制;在客戶不特別提要求的地方,他們盡量讓各種場景的分布貼近真實世界。
比如,將高速路和城市道路的分布比例、白天和晚上的分布比例、雨雪天氣和晴天的分布比例設置得盡量跟真實世界一致。
基于這種數據訓練出的模型,就不太容易出現“過擬合”的問題。
我們在上文中提到,針對基于真實數據訓練出的感知模型很難檢測到騎行者的問題,Applied Intution公司將其原因歸結為“騎自行車和騎摩托車手的人在數據集中出現的頻率遠低于行人和汽車”,然后,他們采取的對策是,往訓練數據集中添加一些騎行者出現頻率比較高的合成數據。
Applied Intution將原本基于100%的真實數據集訓練出來的模型設定為“基線模型”,然后在實驗中發現,與基線模型相比,將合成數據跟真實數據混合在一起做訓練,感知模型對騎行者的識別結果得到了顯著改善。
Applied Intuion進一步發現,先在合成數據上對模型做預訓練,然后再在 100% 的真實數據上對其進行微調,則模型對騎行者的識別能力可顯示出特別明顯的提升——無論合成數據在訓練數據集中的占比是多少,基于該數據集訓練出的模型在性能上始終優于基線模型。
(按類別的 mAP 分數。與 100% 真實世界數據的基線相比,混合訓練和微調實驗提高了騎行者的 mAP 分數。圖片摘自Applied Intution官網。)
在下方的兩組圖片中,左側的圖片顯示,僅根據真實世界數據訓練的基線模型無法檢測到距自車較近的騎行者,而右側圖片則顯示,根據合成數據進行預訓練的可以模型成功檢測到該騎行者。
可以看到,盡管“過擬合”跟訓練數據是真實數據還是合成數據并沒有必然關系,但由于合成數據更容易解決“分布比例”的問題,因此,總體上來說,合成數據確實更有可能解決“過擬合”的問題。
在談到“過擬合”的話題時,謝晨進一步解釋說:
“過擬合”是用一個低維的東西去打高維時比較常見的問題,在本質上,這其實是一個小模型的問題,往后看,隨著參數量越來越多、模型越來越大,“過擬合”的問題會越來越輕。
謝晨提到,Waymo之前僅感知就有200多個模型,但接下來可能會用1個大模型統領所有這些模型,等大模型出來了,“過擬合”的問題就會大幅度減少。
鑒于真實數據不僅量不夠,且使用難度大,對Waymo來說,要訓練大模型,就必須依賴合成數據。據悉,Waymo最近計劃將合成數據的使用率提升1000倍。
八、給真實數據“加杠桿”
前段時間,在學習合成數據的過程中,筆者突然想到一個問題:莫非,Waymo和Cruise這些美國的無人駕駛公司,堅持“一條道走到黑”、死磕L4的最大底氣是,他們在賭合成數據?一旦合成數據對提升算法效果的價值能跟真實數據相媲美,他們就不用再擔心“數據不夠用”了?
起初,這只是筆者單方面的猜測,但隨后,筆者也帶著這一猜測跟曾擔任過Cruise仿真主管的謝晨做過一些交流,謝晨是認可筆者這一猜測的。
當然了,對真實道路數據不足的L4公司來說,用合成數據去補充、代替或“顛覆”真實數據,或多或少總會有一些無奈的成分在里面。那么,像光輪智能這樣的第三方合成數據服務商,是如何給合成數據定位的呢?
謝晨稱:
他們并不打算用合成數據取代真實數據(承認合成數據也無法代表現實世界的多樣性),而是用合成數據及相關技術來提升真實數據的使用效率。
在主機廠或自動駕駛公司把真實數據提供給他們后,他們可以拿這些數據去基于NeRF技術做3D重建或泛化,并且加上Sim2Real(用Diffusion Model來提升數據保真度),這就把真實數據轉換成了合成數據;然后,再在仿真系統里將這些合成數據跟真實數據“混搭”,通過這種“混搭”,以真實數據為主的數據集也間接地具備了“泛化能力”。
事實上,重建后產生新的數據,并且真實數據“混搭”,也是真實數據實現“泛化”的最有效方式。
通過這種“混搭”或泛化,真實數據的使用效率將大幅度上升。
真實數據跟合成數據“混搭”的比例,英偉達等多家公司實踐的結果是,7:3(即合成數據占30%)的效果比較理想。
7:3這個比例,相當于在真實數據的基礎上再增加了超過40%的數據量,但由于新增的那40%都是合成數據,有很強的泛化能力、可以做N多次排列組合,那么,最終用于算法訓練的corner case的數量就不是增加了40%,而是增加了幾十倍、甚至是幾百倍!
由此可見,合成數據非但不是真實數據的“競爭對手”“顛覆者”,反而還可以給真實數據“加杠桿”“賦能”。
如果能利用好合成數據這個“杠桿”,其他主機廠或自動駕駛公司也有條件擁有“特斯拉量級”的corner case數據。
在聊到這里時,筆者又臨時想到了一個問題:這樣看來,合成數據公司跟傳統做LogSim和WorldSim的仿真公司并不是競爭對手,而可能是合作伙伴?
謝晨說:
沒錯。我們其實已經跟一些做工具鏈的公司談合作了,他們手上有一些真實數據,但這些數據的3D重建、泛化等工作,會交給光輪智能來做。
九、有望“搞定”感知的仿真
當前,自動駕駛行業做的仿真,基本上僅限于規控的仿真,因為,感知的仿真實在太難做了。但過去的兩個多月里,筆者在學習合成數據時發現,幾乎所有做自動駕駛合成數據的公司,都會拿仿真感知的仿真來舉例。
看起來,隨著合成數據的日漸成熟,困擾自動駕駛行業很久的感知難題終于有望取得突破了。由于規控的仿真已相對成熟,那一旦感知仿真突破,端到端的仿真就沒多大障礙了。
這個主題比較復雜,一兩段話也說不清楚,我們將在本系列的第四篇文章中做更詳細的分析。敬請期待。
十、使仿真可以真正服務于研發
在過去的一兩年里,特斯拉、Waymo、Cruise與英偉達這些公司的仿真部門,服務的對象首先是公司的研發部門,然后才是測試部門;而國內大部分公司的仿真,服務的對象僅限于自己或客戶公司的測試部門。
這種區別背后的原因在于,在特斯拉、Waymo、Cruise、英偉達這些公司的仿真,既可以用來做算法的測試驗證,也可以用來做算法訓練;而國內大部分公司的仿真,只能用來做測試驗證。
又是什么導致了這種不同呢?對合成數據的擁抱程度、所使用的合成數據的可用性。
我們在上文已經提到過,真實數據無法泛化、缺乏交互能力,所以,基于真實數據的仿真,只能用于對算法的邏輯做測試驗證,而不能用于算法訓練。
那么,基于合成數據的仿真,能用來做算法訓練嗎?這個也得看合成數據的質量了——只有同時滿足“泛化能力足夠強”和“保真度足夠高”這兩個標準的才可以。
基于WorldSim的合成數據,保真度無法保證,泛化能力也一般;基于當下大熱的NeRF技術生成的合成數據,保真度是沒什么問題了,但泛化能力也僅局限于“調整視角/傳感器的安裝位置”......因此,這些盡管也會被用于算法訓練,但效果并不是很理想。
不過,隨著AI大模型日漸成熟,并且,大模型在合成數據生成過程中的參與度越來越高,合成數據逐漸具備了同時兼顧保真度和泛化能力的可能性。比如,由Diffusion Model和World Model生成的合成數據。這樣的合成數據,就可以用來做算法訓練了。
如果能進一步將AI大模型跟NeRF結合起來,那合成數據在算法訓練方面可發揮的空間就更大了。這一路線或可幫助那些真實數據不多、但合成數據技術足夠強、并且擁抱合成數據也足夠積極的公司取得一定的競爭優勢,至少是減少他們的劣勢。
合成數據,或許正是一直被外界質疑為“數據不夠”的Waymo、Cruise和Zoox這些美國公司敢于“一條道走到黑”、死磕L4的底氣所在吧。事實上,這幾家公司一直將合成數據作為其技術棧的核心組成部分之一。
國內的主機廠中,蔚來通過積極擁抱合成數據,已開始用仿真來支持研發。接下來,隨著合成數據的價值贏得越來越多的認可,應該會有更多主機廠擁抱這一趨勢吧。
而對第三方仿真公司來說,只有在服務對象從客戶公司的測試部門拓展至研發部門,能對算法訓練做出自己的貢獻時,他們才算是最大程度地實現了自己的“人生價值”。
結語:
我們在前面已多次提到多,數據閉環能力,是自動駕駛下半場的“入場券”。重要的話不嫌多,在這里可以再重復一遍。
合成數據是數據閉環體系的重要組成部分,并且,合成數據不僅具備很多真實數據不具備的優勢,而且還可以給真實數據“加杠桿”,因此,我們也可以認為,那些率先擁抱合成數據的公司,等于率先拿到了自動駕駛的“入場券”。
而那些合成數據服務商,則相當于是在生產和銷售自動駕駛下半場的“入場券”。
提供這一入場券的公司,在國外,除英偉達這樣的巨頭外,還有Applied Intution、Parallel Domain、Cognata、Datagen等初創公司。
其中,Applied Inntution成立于2017年,但該公司早在2020年就已經盈利;在2021年底,該公司的估值達到了36億美元;2023年5月,該公司以7000萬美元現金收購了無人駕駛卡車公司Embark。
該公司的業務僅聚焦于自動駕駛這個單一賽道,能在成立三年內就盈利,并在此后估值飆漲,甚至還能拿出足夠的現金來收購其他公司,也足見美國自動駕駛駕駛公司及資本市場對擁抱合成數據的積極程度。
在國內,百度、華為云及51World等公司近些年一直在探索合成數據,而在近一兩年新成立的公司中,光輪智能是一個典型代表。
創辦光輪智能之前,謝晨曾先后擔任Crusie仿真主管、英偉達自動駕駛仿真主管、蔚來自動駕駛仿真主管,在各家公司都經歷了基于合成數據的仿真從0到1的過程。目前,光輪智能核心技術團隊的幾名骨干成員也有類似的經歷。
雖然成立比較晚,但成立晚有一個優勢就是,光輪智能充分吸收了其他公司在自動駕駛仿真方面的一些經驗教訓,因而,從一開始就避開了很多坑。謝晨認為,仿真要做好,必須“虛實結合”,并且,比較要要將仿真跟AI深度結合。
關于仿真跟AI的結合,謝晨說:
目前,大多數公司的做法是用AI來輔助仿真,而我們的思路在則是用仿真來輔助AI。
那么,究竟什么是“虛實結合”,什么是“用AI輔助仿真”,什么又是“用仿真輔助AI”呢?這些內容,我們將在本系列的第二篇文章中做更詳細的展開。敬請期待。
-
數據
+關注
關注
8文章
7104瀏覽量
89287 -
AI
+關注
關注
87文章
31288瀏覽量
269643 -
自動駕駛
+關注
關注
784文章
13899瀏覽量
166699
原文標題:自動駕駛合成數據科普一:不做真實數據的“顛覆者”,做“杠桿”
文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論