“通用人工智能將打造智能汽車的‘智慧飛輪’,讓人、車和模型之間產(chǎn)生更多有效交互,打通三者之間的互動(dòng)閉環(huán),讓AI更精準(zhǔn)地理解人的需求,帶來更好的駕乘體驗(yàn)?!?商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛在2023中國電動(dòng)汽車百人會(huì)智能汽車論壇上說。
上周,由中國電動(dòng)汽車百人會(huì)主辦,清華大學(xué)、中國汽車工程學(xué)會(huì)、中國汽車工業(yè)協(xié)會(huì)、中國汽車技術(shù)研究中心、中國汽車工程研究院協(xié)辦的2023中國電動(dòng)汽車百人會(huì)論壇在北京成功舉辦。 商湯科技聯(lián)合創(chuàng)始人王曉剛教授受邀出席會(huì)議,并發(fā)表《通用人工智能下的智能汽車》主旨演講,為人們描繪了通用人工智能(AGI)賦能人機(jī)共智的美好未來。
以下為王曉剛教授演講內(nèi)容梳理。
通用人工智能引發(fā)新一輪范式革新
新年伊始,ChatGPT 、GPT-4 掀起了通用人工智能的熱潮,這是一場(chǎng)新的技術(shù)革命。 非常有幸與大家一起探討通用人工智能和多模態(tài)大模型為智能汽車帶來的機(jī)遇和挑戰(zhàn)。
2022年以來,新的通用人工智能開始以更加高效的方式解決海量的開放式任務(wù)。 它更加接近人的智能,而且能夠產(chǎn)生有智慧的內(nèi)容,也帶來了新的研究范式——基于一個(gè)非常強(qiáng)大的多模態(tài)基模型,通過強(qiáng)化學(xué)習(xí)和人的反饋,不斷解鎖模型的新能力。
那么,什么是通用人工智能? 它與現(xiàn)有的人工智能系統(tǒng)有哪些區(qū)別?
其實(shí),現(xiàn)有的人工智能系統(tǒng)也能夠接收多模態(tài)數(shù)據(jù),但輸出的任務(wù)都是事先定義好的,若為系統(tǒng)增加一個(gè)新任務(wù),就要對(duì)其進(jìn)行重新設(shè)計(jì),還要采集大量樣本。
而在通用人工智能時(shí)代,人們通過輸入提示詞和多模態(tài)內(nèi)容,便可生成多模態(tài)數(shù)據(jù)。 更重要的是,它可以用自然語言方式生成任務(wù)描述,以非常靈活的方式應(yīng)對(duì)大量長尾問題和開放性任務(wù),甚至是一些主觀的描述。
比如,在做一些特定場(chǎng)景的檢索任務(wù)時(shí),一個(gè)現(xiàn)有的人工智能系統(tǒng)可能有幾十個(gè)標(biāo)簽。 商湯做過實(shí)驗(yàn),如果用自然語言描述可能會(huì)有1萬多個(gè)詞,通過它們的組合去描述各種任務(wù),實(shí)際上是非常強(qiáng)大且靈活的。
舉個(gè)例子,給定一張自動(dòng)駕駛場(chǎng)景中的圖片,判斷是否需要減速。 通過現(xiàn)有的 AI系統(tǒng),首先要做物體檢測(cè),然后在物體框里做文字識(shí)別,最后做決策,整個(gè)過程每一個(gè)模塊都是事先定義好的任務(wù)。
而在通用人工智能技術(shù)下,給定圖像,人們只需用自然語言去問圖像問題,比如“這個(gè)圖標(biāo)是什么意思? ”“接下來應(yīng)該做什么?” 模型本身不會(huì)發(fā)生變化,輸出端通過自然語言的方式給出一系列邏輯推理,最后得出結(jié)論。 比如,它會(huì)告訴你“限速30公里”“前面100米是學(xué)校的區(qū)域”“有小孩”“應(yīng)該小心駕駛”“需將車速降到30公里以下”等操作。
可以看到,這都是一些開放式的新任務(wù),可以對(duì)人工智能系統(tǒng)帶來非常大的變革。
從“數(shù)據(jù)飛輪”到“智慧飛輪
通用人工智能還有非常強(qiáng)的一點(diǎn),它能夠產(chǎn)生內(nèi)容,而且是有智慧的內(nèi)容。
自動(dòng)駕駛/智能汽車領(lǐng)域有“數(shù)據(jù)飛輪”說法,即模型能夠加持終端,采取高質(zhì)量的數(shù)據(jù)對(duì)模型進(jìn)行更新,然后再從終端提升數(shù)據(jù)的量和質(zhì)。
通用人工智能時(shí)代則會(huì)產(chǎn)生“智慧飛輪”,人和模型之間可以產(chǎn)生互動(dòng)。 當(dāng)人們?yōu)槟P洼斎階lign With Human Intention時(shí),雖然模型很強(qiáng)大,但它并不知道人們需要什么樣的能力,不過通過人的反饋,它就能更好地理解人需要它展示什么樣的能力而去解鎖更多的技能,同時(shí)模型為人輸出有智慧的內(nèi)容,從而激發(fā)人們更多的創(chuàng)作智慧,隨后又會(huì)產(chǎn)生新的“智慧飛輪”。
值得一提的是,AGI對(duì)算力的需求非常大。 ChatGPT具備1750億參數(shù), 需要3000~5000張A100訓(xùn)練卡,一次訓(xùn)練的成本上千萬美金。 直到今天,它的推理成本每天也高達(dá)幾百萬美金。
2021年,商湯提前布局,在上海臨港建立了人工智能計(jì)算中心(AIDC)。 作為SenseCore商湯 AI大裝置的算力基座,AIDC基于2.7萬塊GPU的并行計(jì)算系統(tǒng)實(shí)現(xiàn)了5.0 exaFLOPS的算力輸出,可支持最多20個(gè)千億參數(shù)量超大模型(以千卡并行)同時(shí)訓(xùn)練。
從2019年開始,商湯從10億參數(shù)的視覺模型研發(fā),到今天有320億參數(shù)全球最大規(guī)模的通用視覺模型。 在NLP領(lǐng)域,商湯當(dāng)前也有接近2000億參數(shù)的大模型,有能力去訓(xùn)練1800億參數(shù)的多模態(tài)大模型。 所以,未來通用人工智能基于多模態(tài)的基模型可以做視覺感知、語言理解、內(nèi)容生成和推理決策。
通用人工智能賦能絕影駕、艙、云三位一體產(chǎn)品體系
商湯絕影是商湯旗下的智能汽車業(yè)務(wù)板塊,堅(jiān)持駕、艙、云三位一體的發(fā)展策略,希望通過駕艙融合帶來更好的駕乘體驗(yàn)。
商湯AI云能夠?yàn)樽詣?dòng)駕駛提供數(shù)據(jù)閉環(huán)服務(wù),能夠使智能座艙成為第三生活空間。 同時(shí),AI云也為通用人工智能賦能智能駕駛和智能座艙奠定了非常強(qiáng)大的基礎(chǔ)。
在自動(dòng)駕駛領(lǐng)域,BEV是當(dāng)前主流的技術(shù)路線,未來可以朝著多模態(tài)、通用智能的方向發(fā)展。
通過AIGC可生成困難樣本,在模型中輸入多模態(tài)數(shù)據(jù),同時(shí)自動(dòng)駕駛多模態(tài)大模型可以做到感知和決策一體化。 在輸出端,通過環(huán)境解碼器可對(duì)3D環(huán)境進(jìn)行重建,實(shí)現(xiàn)環(huán)境的可視化理解; 行為解碼可生成完整的路徑規(guī)劃; 同時(shí),動(dòng)機(jī)解碼器可以用自然語言描述推理的過程,進(jìn)而使自動(dòng)駕駛系統(tǒng)變得可以解釋。
商湯基于多模態(tài)大模型,可做到數(shù)據(jù)的感知閉環(huán)和決策閉環(huán)。 從前端自動(dòng)采集高質(zhì)量的數(shù)據(jù),到利用大模型進(jìn)行自動(dòng)化的數(shù)據(jù)標(biāo)注和產(chǎn)品檢測(cè),能夠幾百倍地提升模型迭代的效率并降低成本。
在智能座艙板塊,通用人工智能可以使基模型具備對(duì)空間環(huán)境理解、用戶狀態(tài)感知、多模態(tài)指令解析及多輪邏輯對(duì)話、內(nèi)容生成等一系列能力,進(jìn)而賦能包括情緒感知、智能助手、基于情感的對(duì)話、創(chuàng)意內(nèi)容生成、個(gè)性交互等一系列功能,不斷地提升座艙的個(gè)性化體驗(yàn)。
同時(shí),應(yīng)用場(chǎng)景也可以從上車、行車、停車、離車,進(jìn)而拓展到娛樂、辦公、購物、休息等等。
實(shí)際上,智能汽車是通用人工智能實(shí)現(xiàn)閉環(huán)的一個(gè)理想場(chǎng)景,人類已經(jīng)可以做到人機(jī)共駕。 未來,車和模型之間能夠產(chǎn)生更有效的互動(dòng),從而完成從人到車、到模型的互動(dòng)閉環(huán),通用人工智能可為人們提供更好的駕乘體驗(yàn),解鎖無限的想象空間。
商湯愿與客戶及合作伙伴共同邁向通用人工智能時(shí)代!
審核編輯:湯梓紅
-
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239249 -
智能汽車
+關(guān)注
關(guān)注
30文章
2878瀏覽量
107408 -
商湯科技
+關(guān)注
關(guān)注
8文章
515瀏覽量
36118
原文標(biāo)題:商湯絕影智能汽車事業(yè)群總裁王曉剛:通用人工智能下的智能汽車
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論