商湯科技及聯(lián)合實(shí)驗(yàn)室共49篇論文入選,涵蓋文生圖、3D數(shù)字人、自動(dòng)駕駛、目標(biāo)檢測(cè)、視頻分割等多個(gè)與大模型和生成式AI相關(guān)的熱點(diǎn)方向。
基于商湯AI大裝置SenseCore和“日日新SenseNova”大模型體系。在生成式AI和視覺(jué)大模型等領(lǐng)域,商湯提出多項(xiàng)極具價(jià)值的技術(shù)突破和研究范式創(chuàng)新。“商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示:持續(xù)深耕AI基礎(chǔ)設(shè)施建設(shè)、堅(jiān)持做注重產(chǎn)業(yè)實(shí)踐的學(xué)術(shù)研究、深耕人才階梯式培養(yǎng),是商湯多年來(lái)在全球?qū)W術(shù)舞臺(tái)上不斷產(chǎn)出創(chuàng)新成果的基石。商湯將積極擁抱大模型帶來(lái)的全新研究范式,不斷提升研發(fā)體系,堅(jiān)持將基礎(chǔ)研究與業(yè)務(wù)發(fā)展緊密融合,為行業(yè)貢獻(xiàn)更具價(jià)值的技術(shù)成果。”
多項(xiàng)技術(shù)突破和范式創(chuàng)新
大模型及生成式AI成焦點(diǎn)
大模型和生成式AI在全球范圍內(nèi)備受矚目,也為學(xué)術(shù)研究提出了諸多具有挑戰(zhàn)性的全新課題。生成式AI方向的文生圖領(lǐng)域,如何讓模型更容易生成與人類(lèi)偏好相符的圖像?在論文《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》中,商湯研究團(tuán)隊(duì)將人類(lèi)偏好引入Stable Diffusion的模型訓(xùn)練中,證明了人類(lèi)偏好信息可以提升Stable Diffusion生成的圖像質(zhì)量,尤其在人體、四肢等經(jīng)典的failure case中更是展示了優(yōu)異的效果。
將人類(lèi)偏好引入StableDiffusion的模型訓(xùn)練過(guò)程
數(shù)字人是生成式AI的重要領(lǐng)域,但其制作依然需要一定門(mén)檻。商湯研究團(tuán)隊(duì)在論文《SHERF: Generalizable Human NeRF from a Single Image》中提出一種基于單張圖片的可泛化、可驅(qū)動(dòng)人體神經(jīng)輻射場(chǎng)方法,僅需一張任意角度的3D人體圖片,結(jié)合必要的參數(shù),就能實(shí)現(xiàn)3D數(shù)字人重建和驅(qū)動(dòng),有望簡(jiǎn)化3D數(shù)字人的創(chuàng)作流程。
基于單張圖片的人體神經(jīng)輻射場(chǎng)重建和驅(qū)動(dòng)
高質(zhì)量的3D人體數(shù)據(jù)集是研究眾多人體相關(guān)的感知模型、重建模型和生成式AI的基礎(chǔ)。商湯研究團(tuán)隊(duì)在論文《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》中提出一個(gè)合成數(shù)據(jù)集SynBody,其構(gòu)建了穿著衣物的參數(shù)化人體模型,并生成了海量的人體虛擬數(shù)據(jù),有助于3D人體感知和重建的模型訓(xùn)練。此外,團(tuán)隊(duì)公布了開(kāi)源代碼庫(kù)XRFeitoria,一個(gè)合成數(shù)據(jù)渲染工具箱,通過(guò)提供方便的Python API與CLI工具,極大簡(jiǎn)化了制作虛擬數(shù)據(jù)集的流程。
SynBody是基于分層人體模型的大規(guī)模合成
數(shù)據(jù)集,可用于人體感知與建模等任務(wù)
在自動(dòng)駕駛場(chǎng)景的3D目標(biāo)檢測(cè)領(lǐng)域,商湯團(tuán)隊(duì)還在論文《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》中提出一種新的用于多視角3D檢測(cè)的時(shí)序增強(qiáng)訓(xùn)練方式——?dú)v史幀物體預(yù)測(cè)(HoP),不僅在nuScenes測(cè)試集上使用ViT-L得到了68.5%NDS和62.4%mAP,超過(guò)了排行榜上所有3D物體檢測(cè)器,還可以即插即用,無(wú)縫集成到最先進(jìn)的 BEV 檢測(cè)框架中,重塑3D檢測(cè)時(shí)序利用的新范式。
HoP算法框架圖
此外,本屆ICCV,商湯科技還在目標(biāo)檢測(cè)、視頻分割、3D感知與重建、半監(jiān)督學(xué)習(xí)、NeRF等領(lǐng)域取得諸多技術(shù)創(chuàng)新突破。
開(kāi)源開(kāi)放
構(gòu)建大模型時(shí)代
產(chǎn)學(xué)研協(xié)同新生態(tài)
產(chǎn)學(xué)研協(xié)同是實(shí)現(xiàn)學(xué)術(shù)研究成果到行業(yè)應(yīng)用轉(zhuǎn)化的高效路徑。商湯不斷夯實(shí)技術(shù)研究的同時(shí),也積極參與和舉辦各類(lèi)學(xué)術(shù)交流和競(jìng)賽活動(dòng),促進(jìn)創(chuàng)新成果產(chǎn)出,探索大模型時(shí)代產(chǎn)學(xué)研協(xié)作模式的構(gòu)建。
同時(shí),商湯長(zhǎng)期致力于推動(dòng)AI基礎(chǔ)設(shè)施和開(kāi)源生態(tài)的建設(shè),與開(kāi)發(fā)者共創(chuàng)共建,共同推動(dòng)AI社區(qū)的繁榮發(fā)展。
商湯早在2018年開(kāi)源的計(jì)算機(jī)視覺(jué)框架OpenMMLab已在GitHub上收獲超過(guò)8.7萬(wàn)個(gè)星標(biāo)。
今天,商湯的開(kāi)源項(xiàng)目已拓展到?jīng)Q策智能、大語(yǔ)言模型、拓展現(xiàn)實(shí)、數(shù)據(jù)平臺(tái)、高性能訓(xùn)練和推理框架、AI智能體框架等領(lǐng)域,為學(xué)術(shù)界的科研突破和工業(yè)界的產(chǎn)業(yè)落地提供全方位的算法與平臺(tái)支撐。
其中,在大語(yǔ)言模型領(lǐng)域,商湯與上海AI實(shí)驗(yàn)室等聯(lián)合推出的書(shū)生·浦語(yǔ)大模型(InternLM)在開(kāi)源社區(qū)和產(chǎn)業(yè)界產(chǎn)生廣泛影響。
最新的InternLM-20B模型性能先進(jìn)且應(yīng)用便捷,以不足三分之一的參數(shù)量,達(dá)到當(dāng)前被視為開(kāi)源模型標(biāo)桿的Llama2-70B的能力水平。
秉承開(kāi)源、開(kāi)放的發(fā)展理念,商湯愿與行業(yè)伙伴共同迎接大模型的新一輪科技革命,讓AI技術(shù)釋放更廣泛的產(chǎn)業(yè)價(jià)值。
相關(guān)閱讀,戳這里
《商湯聯(lián)合團(tuán)隊(duì)斬獲CVPR最佳論文,推出首個(gè)“感知決策一體化”自動(dòng)駕駛通用大模型》
原文標(biāo)題:ICCV 2023生成式AI引人矚目,商湯多項(xiàng)技術(shù)突破展現(xiàn)中國(guó)“創(chuàng)新力”
文章出處:【微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
商湯科技
+關(guān)注
關(guān)注
8文章
513瀏覽量
36109
原文標(biāo)題:ICCV 2023生成式AI引人矚目,商湯多項(xiàng)技術(shù)突破展現(xiàn)中國(guó)“創(chuàng)新力”
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論