今天的高級人工智能開發仍然深深植根于 1950 年代的計算機科學哲學,包括“垃圾進,垃圾出”這句話。這句格言提醒我們,人工智能模型的好壞取決于它所訓練的數據。
從晚期癌癥篩查到推薦一部新電影,數據科學家需要大量多樣的數據集來訓練 AI 模型。對于現實世界的數據來說,這可能是一個重大挑戰。通常出于隱私原因受到保護,真實數據可能很難獲得,而且獲取成本也很高,而且可能不像預期的那樣多樣化。
Rev Lebaredian(來源:英偉達)
幸運的是,人工智能可以通過合成數據集自行救援——計算機生成的模擬可確保提供充足的多樣化和匿名訓練數據。數據是完全匿名的,可以使用各種方法創建,例如通用對抗網絡或使用更多非 AI 程序的模擬器,以確保與真實數據非常相似。通過使用合成數據集,人工智能開發人員可以從更高性能和更健壯的模型中受益。
數據的騙局
隨著開發人員達到現成數據的極限,他們很快將需要尋找其他地方來改進他們的模型。合成數據是計算機模擬或算法生成的信息,可替代現實世界的數據,以填補模型需求和數據可用性之間的差距。
數據科學家有很多方法可以生成合成數據。模擬和 3D 渲染是很好的起點。例如,一輛自動駕駛汽車通常是通過讓它在真正的道路上行駛之前駕駛數千英里的虛擬道路來訓練的。通用對抗網絡,即創建新數據的生成模型,也可用于數據生產。多虧了這些,合成數據收集變得比以往任何時候都更容易獲得和更有效。
分析公司 Gartner 最近報告*,合成數據正處于從一個雜耍變成未來人工智能背后的主要力量的軌道上。Gartner 在一項研究中指出,“合成數據通過允許較小的組織在沒有大量數據的情況下創建 AI 模型,有效地解決了他們的冷啟動問題,從而使競爭環境民主化。”
人工數據滿足 AI 的關鍵需求
AI 已經無處不在,因為它已經通過智能設備和技術融入我們的生活,涵蓋醫療保健、零售、娛樂、自動駕駛汽車、智能空間等領域,這些智能設備和技術正在加速我們走向未來。
將人工智能用作數字鏡子是其發展的下一步。然而,特定環境中的變化可能是無數的。襯衫的顏色可能有多種色調和色調。房間的燈光隨著太陽的移動或燈具的開啟而變化。
這個隧道中車輛的場景使用了間接照明。這是一個難以實時準確渲染的場景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器啟用(來源:Nvidia)
捕捉條件的復雜性使得各種合成數據集對于 AI 模型制作至關重要。與從主要來源收集數據所需的時間和費用相比,可以收集合成數據為數字雙胞胎提供動力。這可以最大限度地訪問大量不同的數據,并增加免于隱私問題的好處。
Gartner 注意到這一人工智能資產的重要性,還指出,“合成數據通常被視為質量較低的替代品,只有在真實數據難以獲取、價格昂貴或受到監管限制時才有用。這錯過了合成數據的真正潛力。事實是,如果沒有合成數據,您將無法構建高質量、高價值的 AI 模型。”
現實真的很隨機
多樣化的訓練數據集是構建 AI 模型的關鍵,但現實世界的數據可能不足。域隨機化的內置功能使機器人模擬應用程序和合成數據生成工具 Nvidia Isaac Sim 能夠隨機改變模擬中的紋理、顏色、照明和位置。
Nvidia Drive Sim 也是如此,這是一個用于測試自動駕駛汽車的模擬平臺。它能夠改變路牌的大小或語言或太陽的位置。
O'Reilly Media 的報告“使用合成數據加速 AI ”中強調了這些功能,該報告強調安全和效率是模擬中的優先事項。根據該報告,“使用合成數據可以解決的一些問題成本太高或太危險(例如,在訓練模型控制自動駕駛汽車的情況下),無法使用更傳統的方法解決,或者根本無法解決。”
Nvidia Isaac 模擬引擎創建了更好的逼真環境,并簡化了合成數據生成和域隨機化,為工程師和開發人員在廣泛的應用程序中訓練和部署機器人構建數據集(來源:Nvidia)
隨機化條件(例如照明、顏色和對象放置)對于創建各種合成訓練數據以實現更準確的 AI 模型至關重要。這些數字世界的變化反映了現實生活中經常出現的意外和不可預測的變化。
例如,在工廠中,當不同的工人處理同一個物體時,一個工人處理的物體可能最終處于不同的位置。在訓練機器人如何使用合成數據和模擬在真實工廠中工作時,環境條件(如定位)的變化非常重要。這些能力使強大的智能工廠和城市的生產成為可能。
圖形與人工智能之間的關鍵環節
除了虛擬城市和工廠,合成數據為計算機圖形學的復興鋪平了道路,因為模擬 3D 世界現在是訓練 AI 模型的關鍵組成部分。在 3D 世界中,物體應該下落,身體部位應該彎曲,皮膚應該被貼上紋理以與人類的所有運動部位非常相似。
個人在虛擬世界中出現的不同方式,具有自然的身體變化、面部特征和行為,說明了合成數據的真正力量。多樣化的合成數據可以準確地彌合虛擬世界和現實世界之間的差距,其特征從萬有引力定律到身體動作再到皮膚紋理。
人類因不同的膚色、反應和表情而彼此不同,這些都可以在媒體制作和數字復制品中展示。數字人類只是難題的一部分,因為照明和物體定位等環境條件在計算機圖形和模擬中同樣重要。
例如,自動駕駛汽車需要能夠在太陽低落時做出反應,這可能會妨礙能見度。合成數據可以通過創建更真實的虛擬環境來幫助改善模擬世界,這些虛擬環境是真正的數字雙胞胎。生成物理上準確的、基于物理的環境和人類極具挑戰性,需要高級模擬、高性能計算資源和大量數據。
Nvidia Drive Sim 使用高保真和物理精確的模擬來創建一種安全、可擴展且具有成本效益的方式,將自動駕駛汽車帶到我們的道路上(來源:Nvidia)
人工智能推進自己的未來
人工智能使用合成數據進行自我改進的能力使其成為一項獨特而強大的技術。綜合數據是提高用于高級模型和模擬的穩健訓練數據的質量和數量的關鍵。
每一波人工智能創新都建立在上一波的基礎上。合成數據的機會將超越其在當前人工智能應用中的應用,擴展到農業、自動駕駛汽車、醫療保健、機器人等行業。
在為 AI 開發數據源時,不要讓“人工”和“合成”這兩個詞阻止您。數據可能是人為創建的,但結果對于真正的成功至關重要。很快,將出現一個極其精確的數字現實鏡像,使用合成數據高效準確地構建。
——Rev Lebaredian 是 Nvidia 的仿真技術副總裁
*Gartner,“Maverick Research:忘記你的真實數據——合成數據是 AI 的未來”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。
審核編輯 黃昊宇
-
AI
+關注
關注
87文章
31278瀏覽量
269641 -
人工智能
+關注
關注
1792文章
47508瀏覽量
239223 -
先進技術
+關注
關注
0文章
24瀏覽量
6247
發布評論請先 登錄
相關推薦
評論