欢乐颂第三季,我欲封天,雪鹰领主

今天的高級人工智能開發仍然深深植根于 1950 年代的計算機科學哲學，包括“垃圾進，垃圾出”這句話。這句格言提醒我們，人工智能模型的好壞取決于它所訓練的數據。

從晚期癌癥篩查到推薦一部新電影，數據科學家需要大量多樣的數據集來訓練 AI 模型。對于現實世界的數據來說，這可能是一個重大挑戰。通常出于隱私原因受到保護，真實數據可能很難獲得，而且獲取成本也很高，而且可能不像預期的那樣多樣化。

Rev Lebaredian（來源：英偉達）

幸運的是，人工智能可以通過合成數據集自行救援——計算機生成的模擬可確保提供充足的多樣化和匿名訓練數據。數據是完全匿名的，可以使用各種方法創建，例如通用對抗網絡或使用更多非 AI 程序的模擬器，以確保與真實數據非常相似。通過使用合成數據集，人工智能開發人員可以從更高性能和更健壯的模型中受益。

數據的騙局

隨著開發人員達到現成數據的極限，他們很快將需要尋找其他地方來改進他們的模型。合成數據是計算機模擬或算法生成的信息，可替代現實世界的數據，以填補模型需求和數據可用性之間的差距。

數據科學家有很多方法可以生成合成數據。模擬和 3D 渲染是很好的起點。例如，一輛自動駕駛汽車通常是通過讓它在真正的道路上行駛之前駕駛數千英里的虛擬道路來訓練的。通用對抗網絡，即創建新數據的生成模型，也可用于數據生產。多虧了這些，合成數據收集變得比以往任何時候都更容易獲得和更有效。

分析公司 Gartner 最近報告*，合成數據正處于從一個雜耍變成未來人工智能背后的主要力量的軌道上。Gartner 在一項研究中指出，“合成數據通過允許較小的組織在沒有大量數據的情況下創建 AI 模型，有效地解決了他們的冷啟動問題，從而使競爭環境民主化。”

人工數據滿足 AI 的關鍵需求
AI 已經無處不在，因為它已經通過智能設備和技術融入我們的生活，涵蓋醫療保健、零售、娛樂、自動駕駛汽車、智能空間等領域，這些智能設備和技術正在加速我們走向未來。

將人工智能用作數字鏡子是其發展的下一步。然而，特定環境中的變化可能是無數的。襯衫的顏色可能有多種色調和色調。房間的燈光隨著太陽的移動或燈具的開啟而變化。

這個隧道中車輛的場景使用了間接照明。這是一個難以實時準確渲染的場景示例，但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器啟用（來源：Nvidia）

捕捉條件的復雜性使得各種合成數據集對于 AI 模型制作至關重要。與從主要來源收集數據所需的時間和費用相比，可以收集合成數據為數字雙胞胎提供動力。這可以最大限度地訪問大量不同的數據，并增加免于隱私問題的好處。

Gartner 注意到這一人工智能資產的重要性，還指出，“合成數據通常被視為質量較低的替代品，只有在真實數據難以獲取、價格昂貴或受到監管限制時才有用。這錯過了合成數據的真正潛力。事實是，如果沒有合成數據，您將無法構建高質量、高價值的 AI 模型。”

現實真的很隨機

多樣化的訓練數據集是構建 AI 模型的關鍵，但現實世界的數據可能不足。域隨機化的內置功能使機器人模擬應用程序和合成數據生成工具 Nvidia Isaac Sim 能夠隨機改變模擬中的紋理、顏色、照明和位置。

Nvidia Drive Sim 也是如此，這是一個用于測試自動駕駛汽車的模擬平臺。它能夠改變路牌的大小或語言或太陽的位置。

O'Reilly Media 的報告“使用合成數據加速 AI ”中強調了這些功能，該報告強調安全和效率是模擬中的優先事項。根據該報告，“使用合成數據可以解決的一些問題成本太高或太危險（例如，在訓練模型控制自動駕駛汽車的情況下），無法使用更傳統的方法解決，或者根本無法解決。”

Nvidia Isaac 模擬引擎創建了更好的逼真環境，并簡化了合成數據生成和域隨機化，為工程師和開發人員在廣泛的應用程序中訓練和部署機器人構建數據集（來源：Nvidia）

隨機化條件（例如照明、顏色和對象放置）對于創建各種合成訓練數據以實現更準確的 AI 模型至關重要。這些數字世界的變化反映了現實生活中經常出現的意外和不可預測的變化。

例如，在工廠中，當不同的工人處理同一個物體時，一個工人處理的物體可能最終處于不同的位置。在訓練機器人如何使用合成數據和模擬在真實工廠中工作時，環境條件（如定位）的變化非常重要。這些能力使強大的智能工廠和城市的生產成為可能。

圖形與人工智能之間的關鍵環節

除了虛擬城市和工廠，合成數據為計算機圖形學的復興鋪平了道路，因為模擬 3D 世界現在是訓練 AI 模型的關鍵組成部分。在 3D 世界中，物體應該下落，身體部位應該彎曲，皮膚應該被貼上紋理以與人類的所有運動部位非常相似。

個人在虛擬世界中出現的不同方式，具有自然的身體變化、面部特征和行為，說明了合成數據的真正力量。多樣化的合成數據可以準確地彌合虛擬世界和現實世界之間的差距，其特征從萬有引力定律到身體動作再到皮膚紋理。

人類因不同的膚色、反應和表情而彼此不同，這些都可以在媒體制作和數字復制品中展示。數字人類只是難題的一部分，因為照明和物體定位等環境條件在計算機圖形和模擬中同樣重要。

例如，自動駕駛汽車需要能夠在太陽低落時做出反應，這可能會妨礙能見度。合成數據可以通過創建更真實的虛擬環境來幫助改善模擬世界，這些虛擬環境是真正的數字雙胞胎。生成物理上準確的、基于物理的環境和人類極具挑戰性，需要高級模擬、高性能計算資源和大量數據。

Nvidia Drive Sim 使用高保真和物理精確的模擬來創建一種安全、可擴展且具有成本效益的方式，將自動駕駛汽車帶到我們的道路上（來源：Nvidia）

人工智能推進自己的未來

人工智能使用合成數據進行自我改進的能力使其成為一項獨特而強大的技術。綜合數據是提高用于高級模型和模擬的穩健訓練數據的質量和數量的關鍵。

每一波人工智能創新都建立在上一波的基礎上。合成數據的機會將超越其在當前人工智能應用中的應用，擴展到農業、自動駕駛汽車、醫療保健、機器人等行業。

在為 AI 開發數據源時，不要讓“人工”和“合成”這兩個詞阻止您。數據可能是人為創建的，但結果對于真正的成功至關重要。很快，將出現一個極其精確的數字現實鏡像，使用合成數據高效準確地構建。

——Rev Lebaredian 是 Nvidia 的仿真技術副總裁

*Gartner，“Maverick Research：忘記你的真實數據——合成數據是 AI 的未來”，Leinar Ramos，Jitendra Subramanyam，2021 年 6 月 24 日。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31278

瀏覽量
269641
人工智能

人工智能

+關注

關注
1792

文章
47508

瀏覽量
239223
先進技術

先進技術

+關注

關注
0

文章
24

瀏覽量
6247

NVIDIA發布Cosmos?平臺，助力物理AI系統發展

基礎模型、高級tokenizer、護欄以及加速視頻處理管線等多項先進技術。其中，Cosmos世界基礎模型(WFM)是平臺的核心，它使開發者能夠輕松生成大量基于物理學的逼真合成數據。這些數據對于

發表于 01-08 15:36 ?284次閱讀

車載總線通信數據庫開發工具 - VDE

對車型開發至關重要。INTEWORK-VDE（Vehicle Database Editor）Cloud是一款基于B/S架構的車載總線通信數據庫設計和管理系統。

發表于 01-03 09:43 ?614次閱讀

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

及限制。因此，真實數據和合成數據的結合是克服 EAI 中數據可用性挑戰的戰略方法。另外，收集的數據和生成的數據都必須經過時間和空間對齊，這

發表于 12-24 00:33

加密算法的選擇對于加密安全有多重要？

加密算法的選擇對于加密安全至關重要，因為它直接影響到數據保護的有效性和可靠性。以下是幾個關鍵點來說明加密算法選擇的重要性：加密強度：加密算法的加密強度直接關系到

發表于 12-17 15:59 ?136次閱讀

云端AI開發環境分析

當今，云端AI開發環境作為支撐AI技術快速迭代與應用部署的關鍵基礎設施，扮演著至關重要的角色。下面，AI部落小編為您分析云端

發表于 11-25 10:27 ?174次閱讀

充足的儲能對于風能和太陽能可變發電量至關重要

太陽能

深圳崧皓電子
發布于 :2024年11月22日 07:11:43

AI大模型的訓練數據來源分析

AI大模型的訓練數據來源廣泛且多元化，這些數據源對于構建和優化AI模型至關重要。以下是對

發表于 10-23 15:32 ?859次閱讀

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

和數量直接影響到模型的準確性和可靠性。因此，數據獲取、處理、分析和質量控制在AI for Science中至關重要。此外，數據驅動的研究范式也促使科學家從傳統的假設驅動轉向更加靈活和開

發表于 10-14 09:16

無刷電機驅動芯片方案的選擇至關重要

在當今科技飛速發展的時代，無刷電機因其高效、低噪、長壽命等顯著優勢，在眾多領域得到了廣泛應用，從工業自動化到智能家居，從電動汽車到航空航天。而在無刷電機系統中，驅動芯片方案的選擇至關重要，它直接影響

發表于 09-05 17:28 ?654次閱讀

選擇正確的負載組對于準確的電源測試至關重要

電路電源測試

深圳崧皓電子
發布于 :2024年07月31日 07:53:35

夏季雷雨頻繁，新能源車輛車載充電機與整車防水設計至關重要

車載充電機（On-Board Charger，OBC）與車載直流轉換器（DC-DC Converter）作為新能源汽車上至關重要的零部件，需要有特殊的防水處理。

發表于 07-30 09:07 ?368次閱讀

為什么加速數據處理對各行各業的AI創新都至關重要

在各行各業，AI 正在用機器驅動的計算來推動創新。在金融領域，銀行正在使用 AI 更快地檢測欺詐行為并確保賬戶安全；電信公司正在使用 AI 優化網絡以提供優質服務；科學家正在使用 AI

發表于 07-05 10:46 ?709次閱讀

ai開發需要什么配置

AI開發是一個復雜的過程，涉及到多個方面的配置。硬件配置 AI開發需要高性能的硬件支持，主要包括以下幾個方面： 1.1 CPU AI

發表于 07-02 09:54 ?1337次閱讀

為什么數字孿生對于智慧城市至關重要

對其進行預測。中易云GIS與數字孿生系統數字孿生在智慧城市中的重要性智慧城市可以解決近年來快速城市化帶來的環境和社會問題，從而提高居民生活質量，同時實現更加可持續的城市模式的發展之路。數字孿生聯動真實場景的

發表于 06-04 11:23 ?617次閱讀

為何電感器對于大數據及人工智能產業發展至關重要

電感器作為智能設備電路中的重要元件，已經成為推動大數據和智能產業發展與革新的基礎技術。科達嘉通過技術創新，為大數據和人工智能領域提供高可靠的電感解決方案和豐富的電感器產品型號。

發表于 02-28 14:48 ?523次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

合成數據對于 AI 開發至關重要

評論

NVIDIA發布Cosmos?平臺，助力物理AI系統發展

車載總線通信數據庫開發工具 - VDE

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

加密算法的選擇對于加密安全有多重要？

云端AI開發環境分析

充足的儲能對于風能和太陽能可變發電量至關重要

AI大模型的訓練數據來源分析

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

無刷電機驅動芯片方案的選擇至關重要

選擇正確的負載組對于準確的電源測試至關重要

夏季雷雨頻繁，新能源車輛車載充電機與整車防水設計至關重要

為什么加速數據處理對各行各業的AI創新都至關重要

ai開發需要什么配置

為什么數字孿生對于智慧城市至關重要

為何電感器對于大數據及人工智能產業發展至關重要