2023年5月,在ITF World 2023半導體大會上,英偉達創始人兼CEO黃仁勛介紹了英偉達的多模態具身智能系統NvidiaVIMA,能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,標志著AI能力的顯著進步。
此外,在特斯拉召開2023年年度股東大會上,馬斯克展示了人形機器人Optimus的全新型號,和具身智能機器人幾乎劃等。馬斯克表示,人形機器人將是今后特斯拉主要的長期價值來源,他也認為以具身智能機器人為代表的產品有望成為人工智能的下一浪潮。
具身智能涉及多學科
具身智能有望打開 AI 新空間,引領人工智能下一站浪潮。實現具身智能需要多個學科的交叉能力。當前具身智能產業鏈中包括數字基礎設施、機器人制造、機器視覺、多模態大模型的廠商等相關環節投資機會值得重點關注。機器人制造:為具身智能提供了機械的身體和基本的運動控制。
深度學習:該學科中的神經網絡仍然是具身智能中主要的工具。為具身智能提供推理能力;強化學習,從環境反饋中,幫助具身智能調優模型。
多模態:計算機視覺,為具身智能提供處理視覺信號能力;語音與自然語言處理,為具身智能提供理解與對話能力,實現與人類交互。
計算機圖形學:其開發的物理仿真環境給具身智能提供了真實物理世界的替代,大大加快了學習的速度并降低了成本。認識科學:幫助具身智能理解人類,構建認識與價值。
具身機器人技術架構
具身智能的出現有望持續引領“大模型+機器人”潮流。具身智能機器人是具身智能的實體形態,有望成為 AI 的最終載體。其整體架構由感知層、交互層、運動層組成。與工業機器人不同,具身智能機器人若能像人一樣與環境交互、感知、決策、完成任務,將不得不提升感知層和認知層的能力。因此,感知層和認知層是工業機器人向具身智能機器人邁進的門檻。
感知層類似人的五官,負責收集環境信息,在單一場景下機器或許可以通過感知來繞過決策控制。感知層中視覺的重要程度較高,視覺感知或是具身智能機器人的核心。
感知層需要與運動層交互印證:首先視覺感知需要與物理實存進行交互印證,是具身智能實現的基礎;感知能力提升可使機器人運動更加“擬人化”:視覺感知通過與運動系統的執行參量、信息數據交互修正,使具身機器人從傳統的僵化肢體運動提升為為高自由度、高精密、多表現形式的運動。
決策交互層作為核心處理樞紐,需要類似人類大腦的處理能力,滿足機器在理解指令、分解 任務、規劃子任務、識別物體完成人機交互和環境交互等方面的需求,多維度的人機交 互在傳統的機器人領域是一大難題。因而當下的研究更多體現在特定指令下對于環境交互的探索,也即如何更智能地執行特定物理任務上。
GPT-4 出現讓機器人對于現實世界中圖像、文字、數據的理解進入新臺階。根據微軟最新的一項研究,將 GPT 拓展至機器人領域,實現語言控制機械臂、無人機等多個平臺。多模態的引入拓展了交互的豐富性,大幅提升人機交互和環境交互能力,助力機器人能 力再上新臺階。未來有望在更多場景落地應用,包括自動駕駛、工業自動化、 醫療健康、家用服務、教育、娛樂等眾多領域,幫助人類實現極端環境作業、 多領域降本增效。
多模態大模型與機器的融合
具身智能作為人工智能重要應用,需要多復合型的模型能力。阿里巴巴張勇表示制造業是 AI 大模型的重要戰場,未來 10 年最大的機會就在于云、AI 與物理世界機器的融合。
除了諸如視覺、自然語言處理等單領域模型的縱深發展,多模態大模型的加持或將成為下一步重要的應用方向。AIGC 為具身智能突破技術瓶頸提供新思路。AIGC的“智能”表現在能夠進行上下文理解和情景感知,輸出文字、圖像、聲音。
進入 AIGC 時代后,GPT 等大模型有望作為人類與機器人溝通的橋梁。即通過 將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理 解,幫助機器人處理具身推理任務。AI 大模型浪潮下,谷歌、微軟、 阿里等巨頭均發力探索 AI大模型與具身智能的融合。目前,諸多大廠已在具身智能領域進行布局,谷歌發布史上最大通才模型 PaLM-E;微軟探 索如何將 ChatGPT 擴展到機器人領域;阿里巴巴-千問大模型正在實驗接入工業機器人等。
風險揭示:信息出自公開數據,內容不做具體操作指導,客戶 亦不應將其作為投資決策的唯一參考因素。據此買入,責任自負,股市有 風險,投資需謹慎。
審核編輯黃宇
-
機器人
+關注
關注
211文章
28618瀏覽量
207927 -
AI
+關注
關注
87文章
31429瀏覽量
269832
發布評論請先 登錄
相關推薦
評論