今年加入 OpenAI 的大牛、前特斯拉 AI 總監 Karpathy 在最近的一次開發者活動上表示:AI 智能體,代表了 AI 的一種未來!
不僅是他,全球 AI 領域的大佬和科技巨頭對 AI 智能體的發展都表現出極大興趣,并寄予厚望。
大語言模型的出現,無疑給 AI 智能體的發展帶來了全新的想象力,因此盡管在眾多 AI 智能體還未達到完全模擬人類智能的程度的情況下,仍然吸引了全球關注,因為它的出現意味著人類在未來實現通用人工智能的目標上邁出的重要一步。
這個在大模型技術與應用之上誕生的全新賽道,搶跑的人意味著能夠擁有先發優勢。
OmBot自主智能體的誕生
在今天的 2023 世界人工智能大會上,聯匯科技發布了基于大模型能力的自主智能體(Auto AI Agent )——OmBot 歐姆智能體,并針對典型場景需求,推出了首批應用。
OmBot 歐姆智能體橫空出世的背后,是聯匯科技技術團隊的一次 “蓄謀已久”。
公司核心團隊來自全球計算機殿堂 —— 卡內基梅隆大學,實驗室對于自主化智能體的探索從 90 年代就已經開始。2014 年,聯匯科技首席科學家趙天成攻讀博士時,已經成功研發了全球第一個多模態智能體平臺DialPort,讓不同高校的智能體(機器人)在一個平臺匯集,并讓他們一同協作幫助人類完成各種任務。
這些智能體的專業領域各不相同。
例如有些是幫助訂餐廳,有些是幫你分析電影,有些是幫你處理文案等等。隨著智能程度的不斷增加,DialPort 匯集了超過 100 個智能體能力,為超過 100 篇學術研究項目提供了智能體的基礎平臺,更是影響了包括 AmazonAlexa 在內的眾多目前已經成熟的交互智能體的設計思路。
自主智能體的初步探索
那么,什么是自主智能體呢?
聯匯科技給出了明確的回答 ——智能體是能夠感知環境、自主決策并且具備短期與長期記憶的計算機模型,它能夠模仿人類大腦工作機制,根據任務目標,主動完成任務。
聯匯自主智能體包含了認知、記憶、思考、行動四大核心能力,作為一種自動、自主的智能體,它以最簡單的形式中在循環中運行,每次迭代時,它們都會生成自我導向的指令和操作。因此,它不依賴人類來指導命令,具備高度可擴展性。
自主智能體核心能力
認知是智能體獲取環境信息的過程。將原始數據轉化為計算機可以理解和處理的形式,而人類 80% 的信息輸入來自于視覺。
記憶是智能體存儲和提取信息的能力。包括短期記憶和長期記憶,前者用于存儲臨時的信息,后者用于存儲更持久的知識和經驗,并最終由記憶在決策和行動中發揮價值。
思考是智能體對感知和記憶進行分析、推理和決策的過程。使用各種算法和技術來處理感知數據和記憶信息,以生成合理的決策和行動計劃。其中,語言是我們思考的核心邏輯。
行動是智能體基于感知、記憶和思考結果采取的具體行為。包括控制機制和執行器,用于將決策轉化為實際的物理行動或其他形式的輸出。
第一批自主智能體是什么
當自主智能體具備了以上 4 類核心能力后,自然而然面向不同行業、不同需求、不同場景的第一批智能體應運而生 —— 視頻小歐、文檔小歐和 AIGC 小歐。
是的,聯匯首次推出的自主智能體并不止一個,而是一批。
他們能做什么呢?
視頻小歐可以成為新零售場景中的智慧店長。通過與攝像頭視覺信息結合,利用歐姆大模型智能識別店內發生的一切,形成機器人記憶,并自主決策提示交互信息。自主關注店內值得關注的事件,在必要時進行提示。通過與機器人對話交互,用戶可以隨時詢問店內發生過的一切,協助店鋪的管理運營。
視頻小歐成為自主思考的智慧店長
文檔小歐可以成為個人和企業的學習助理。面對電力、石油、醫學等行業專業知識學習成本高、查詢困難的痛點,文檔問答機器人可以將專業知識有效集成到向量數據庫,并存儲記憶,形成專業機器人,通過多模態內容理解與內容生成,智能回復用戶問題,并給出專業的回答。
文檔小歐幫助行業小白解決專業問題
AIGC 小歐可以成為媒體、文化、游戲等行業的剪輯助手。通過 AIGC 實現媒體視頻素材的一鍵成片,針對視頻主題,語言模塊完成視頻內容文案生成,隨后拆分為更加細節的視頻鏡頭描述,依托語言理解能力,對素材庫視頻進行搜索、剪輯和生成,最終大幅降低視頻制作門檻。
AIGC 小歐一鍵成片
現場,聯匯科技行嗨發布了基于 OmBot 歐姆智能體與大模型技術的行業級智慧文旅底座,為文旅全行業提供包含元宇宙、AIGC、智慧助手等典型場景快速賦能。
面向行業、企業、個人等不同主體千變萬化的需求,OmBot 歐姆智能體將通過高效調教,實現個性化智能體的快速生成與進化,未來的自主智能體,不是一個,也不是一批,而是 “人均” 單位下的應有盡有。
自主智能體會像孫悟空的分身猴毛,有需要就可以快速的實現。
歐姆大模型 3.0 來了!
仔細體驗首批自主智能體,不難發現,在應用過程中,認知與思考是自主智能體核心能力的核心。
對于認知與思考的解決方案,聯匯依賴的是背后的多模態大模型。
早在 2019 年,聯匯科技就與 OpenAI CLIP 模型同期推出了歐姆模型 1.0,實現跨模態搜索,隨后的歐姆大模型 2.0,聚焦開放目標識別,實現了從圖文檢索的到目標理解的躍遷。
目前,聯匯科技正式推出歐姆大模型 3.0,直指行業性能最強、真正落地應用的大模型。
這次的歐姆大模型 3.0 實現了哪些飛躍呢?
OmModel V3 正式發布
開放識別方面,歐姆大模型支持對視覺圖像、視頻進行標簽全開放識別。預訓練中已經包含了數十億的高質量圖文匹配數據,包含大量的環境背景,目標類型,目標屬性與行為特征,疊加全圖細粒度級別的理解,圖文的語義匹配,圖文問答等多任務的訓練,使歐姆大模型 3.0 具備了能力涌現的保障。
歐姆大模型 3.0 不再局限于固定的目標類型清單,而是通過語義理解去理解視覺中的任意目標,甚至是描述的方式去定義目標。
開放識別
視覺問答方面,構建了私有的十億級媒體數據和物聯網數據,包括無人機視角,監控視角等,通過多任務訓練,歐姆大模型 3.0 將包括自然語言解析、邏輯推理、圖像理解以及自然語言生成等AI 能力進行深度融合。將視覺模型和語言模型進行細粒度的對齊,讓其可以理解人類指令,并合理作答。
另外,歐姆大模型可以在針對圖片進行問答之后進行多輪對話推理,并擴充視覺之外的信息。
視覺問答
認知推理方面,通過不斷提升歐模大模型的內容理解與多模態的語義對齊的能力,結合語言模型的能力,歐模大模型能夠做到基于視覺認知的推理,并由此支撐智能體所需要的認知與推理能力。
例如,看到兒童摔倒,模型可以推理要立即檢查兒童有沒有受傷??吹接行『⒃诖斑叄P涂梢蕴嵝岩⒁鈨和陌踩?吹狡孔悠屏扬嬃洗蚍?模型可以提醒馬上清理防止有人滑倒。
在開放識別、視覺問答的基礎上,認知推理的能力能夠賦能智能體從被動的識別轉為主動推理,進行思考與決策,并提出相應的智能解決方案。
推理認知
高效微調方面,針對傳統全參數微調消耗大量 GPU 計算與存儲資源的情況,聯匯從模型訓練和模型推理兩方面入手,使得歐姆大模型能夠好用、易用。
在模型訓練上,聯匯自主設計 PEFT 羽量微調技術,與標準全參數微調相比,僅微調模型參數的一小部分,訓練參數量小于 1%,在大幅降低計算和存儲成本的同時,實現媲美全參數微調的性能表現。這樣的做法能夠真實降低大模型的微調訓練門檻,快速適配用戶長尾場景的訓練需求。
訓練參數量小于 1%
在模型推理上,聯匯推出針對多模態大模型的推理運行系統 ——Hydra 九頭蛇部署架構,通過多卡集群部署蛇身,由多個公用的底座模型組成,而各個算法任務只需要部署羽量級的蛇頭模型,實現 MaaS 架構。在推理時,蛇頭模型可與任意公用蛇身模型結合產生識別結果,且新增算法任務只需增加羽量級蛇頭模型。從而實現了 GPU 集群資源的高效利用,并突破算法任務部署顯存資源的上限。
Hydra 九頭蛇部署架構
作為成熟的大模型,歐姆大模型擁有良好性能的同時,依舊在不斷自我進化。聯匯研發團隊構建了一套完善的人在環路指令學習進化體系。
人在環路指令學習進化體系
對于一個迭代升級后的新版本大模型,首先需要經過質量部的錘煉,通過基于內部量化數據集進行能力驗證,再配置并測試各種算法任務,確保模型的升級成功。在模型實際部署上線后,持續跟蹤算法任務運行情況,記錄并反饋模型潛在缺陷和優化點。
數據部據此對新算法任務、長尾場景和模型識別缺陷等關鍵點,使用完整的數據回流體系進行針對性的數據采集、數據清洗、和指令學習數據集生成等操作。
在指令學習數據集完成累積周期后,算法組將基于質量組的反饋以及數據組采集的數據對歐姆大模型進行新一版本的迭代優化訓練,針對性提高模型在業務算法上的能力,增強泛化能力。
基于由效果評估、升級策略、數據回流、優化升級構成的人在環路指令學習進化體系,歐姆大模型可以對底座模型進行有效的指令學習、迭代升級,從而在現有的算法任務上有更好的表現。
這也意味著每隔幾個月,歐姆大模型都會迭代進化得更加強大。
完善的工具鏈和工程化框架
成功的大模型在應用層面落地需要與之配套的工具鏈與工程化框架。
為了幫助用戶更好、更快的使用大模型技術與產品,聯匯正式發布歐姆大模型工具軟件集合,用 AI - 原生的思路,重新想象 AI 智能體的開發工具,讓開發者可以快速構建未來的爆款智能體!
歐姆大模型應用體系
過去幾年間,聯匯科技構建了完善的針對視覺理解場景的工具鏈平臺。開發者可以利用自然語言靈活的表述識別需求,OmVision Studio、OmVision OS 等平臺與系統,提升算法生產效率的同時,有效降低了人工智能技術的應用門檻,為更多的企業與行業賦能。
OmVision 應用體系
今天,聯匯科技首次發布針對智能體的 OmBot OS 操作系統。開發者可以基于靈活的模塊配置,將多模態大模型、向量數據庫、人機交互認知架構進行深度融合,為構建基于多模態數據感知、認知、思考與行動的智能體奠定基礎。
OmBot OS 架構
OmBot OS 提供自帶的長期記憶模塊,同時允許開發者用戶編寫主動思考模塊與交互響應模塊,支持響應式問答與主動推薦思考的任務場景。同時支持記憶反思模塊,模擬人類對于長期記憶的主動壓縮與思考過程,從繁雜的原始記憶中抽取出更加高維度的抽象記憶信息,讓我們的智能體更加人性化。
OmBot OS 讓開發者可以基于靈活的模塊配置,將多模態大模型、向量數據庫、人機交互等技術進行深度融合,為構建基于多模態數據進行感知、認知、思考與行動的智能體奠定了基礎。
以更開放的方式擁抱 AGI 時代
完善的產品矩陣與人在環路指令學習進化體系為聯匯科技的技術生長打下扎實基礎,在此之上的對外開放能力同樣令人期待。
聯匯首席科學家趙天成博士表示,我們相信在未來,每個人與每一家企業都可以在 AI 的能力加持,具備更好的記憶、認知和決策能力,我們現在的技術方向,就是讓機器不斷與我們人類對齊,持續進化,最終真正為人類所用。
在這樣的過程中,聯匯科技始終以用戶為中心,不斷進化能力、迭代產品、開放生態,推動降低人工智能使用門檻,加速推動普惠 AI 賦能千行百業。
在 AGI 時代來臨之際,人工智能的范式變革正在加速,曾經的故事正在成為現實。
審核編輯 黃宇
-
AI
+關注
關注
87文章
31139瀏覽量
269476 -
智能體
+關注
關注
1文章
158瀏覽量
10596 -
OpenAI
+關注
關注
9文章
1100瀏覽量
6576
發布評論請先 登錄
相關推薦
評論