《自然-通訊》主要發(fā)表自然科學(xué)各個(gè)領(lǐng)域的高質(zhì)量研究成果,影響因子16.6。
研究成果提出一個(gè)基于分布式合成對(duì)抗網(wǎng)絡(luò)的聯(lián)邦學(xué)習(xí)框架DSL(DistributedSynthetic Learning),可利用多中心的多樣性醫(yī)療圖像數(shù)據(jù)來(lái)聯(lián)合學(xué)習(xí)圖像數(shù)據(jù)的生成。
該分布式框架通過(guò)學(xué)習(xí)得到一個(gè)圖像數(shù)據(jù)生成器,可以更靈活地生成數(shù)據(jù),進(jìn)而可替代多中心的真實(shí)數(shù)據(jù),用于下游具體機(jī)器學(xué)習(xí)任務(wù)的訓(xùn)練,并具備較強(qiáng)可擴(kuò)展性。
伴隨大模型快速發(fā)展,Model as a Service(MaaS,模型即服務(wù))正成為一大趨勢(shì)。MaaS的大模型需要從海量的、多類型的數(shù)據(jù)中學(xué)習(xí)通用特征和規(guī)則,從而具備較強(qiáng)的泛化能力。
DSL框架能在保護(hù)數(shù)據(jù)隱私的同時(shí),巧妙解決醫(yī)療大模型訓(xùn)練中常見(jiàn)的數(shù)據(jù)量不足的瓶頸,有效賦能MaaS的大模型訓(xùn)練。
在這一技術(shù)支撐下,商湯“醫(yī)療大模型工廠”能夠幫助醫(yī)療機(jī)構(gòu)更高效、高質(zhì)量地訓(xùn)練針對(duì)不同臨床問(wèn)題的醫(yī)療大模型,使大模型在醫(yī)療領(lǐng)域的應(yīng)用半徑得以延伸。
兼顧隱私保護(hù)和數(shù)據(jù)共享
創(chuàng)新聯(lián)邦學(xué)習(xí)模式打造
“數(shù)據(jù)生產(chǎn)工廠”
深度學(xué)習(xí)模型需要大量且多樣性的數(shù)據(jù)“喂養(yǎng)”。
醫(yī)療領(lǐng)域?qū)τ脩綦[私保護(hù)有著極高要求,使得模型訓(xùn)練的醫(yī)療數(shù)據(jù)在多樣性和標(biāo)注質(zhì)量上都受到限制,也使多中心的醫(yī)療數(shù)據(jù)收集和醫(yī)療AI模型的開發(fā)迭代面臨較大挑戰(zhàn)。
如何調(diào)和隱私保護(hù)和數(shù)據(jù)共享協(xié)作的矛盾?
“聯(lián)邦學(xué)習(xí)提供了全新的解題思路。聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)方法, 可以在不共享數(shù)據(jù)的情況下對(duì)多中心的數(shù)據(jù)進(jìn)行聯(lián)合建模,聯(lián)合學(xué)習(xí)某一特定應(yīng)用模型。”
與主流的聯(lián)邦學(xué)習(xí)模式不同,DSL框架的學(xué)習(xí)目標(biāo)是數(shù)據(jù)生成器,而非具體應(yīng)用的任務(wù)模型。
該分布式架構(gòu)由一個(gè)位于中央服務(wù)器的數(shù)據(jù)生成器和多個(gè)位于不同數(shù)據(jù)中心的數(shù)據(jù)鑒別器組成。
在學(xué)習(xí)過(guò)程中,中央生成器負(fù)責(zé)生成“假”的圖像數(shù)據(jù),并發(fā)送給各個(gè)數(shù)據(jù)中心,各個(gè)數(shù)據(jù)中心用本地的真實(shí)數(shù)據(jù)和“假”數(shù)據(jù)進(jìn)行對(duì)比后將結(jié)果回傳給中央服務(wù)器,并基于反饋結(jié)果訓(xùn)練中央生成器生成更仿真的圖像數(shù)據(jù)。
分布式的合成學(xué)習(xí)結(jié)束后,中央生成器可作為“數(shù)據(jù)生產(chǎn)工廠”,根據(jù)給定的約束條件(標(biāo)注)生成高質(zhì)量仿真圖像數(shù)據(jù),從而得到一個(gè)由生成數(shù)據(jù)組成的數(shù)據(jù)庫(kù)。
該數(shù)據(jù)庫(kù)可替代真實(shí)數(shù)據(jù),用于下游具體任務(wù)的學(xué)習(xí),使下游模型的更新迭代不再受到真實(shí)數(shù)據(jù)可訪問(wèn)性制約。同時(shí),該方法通過(guò)分布式架構(gòu)和聯(lián)邦學(xué)習(xí)方式保證中央服務(wù)器無(wú)需接觸數(shù)據(jù)中心真實(shí)數(shù)據(jù),也不需要同步各中心的鑒別器模型,有效保障了數(shù)據(jù)安全和隱私保護(hù)。
?DSL框架包含一個(gè)中央生成器和多個(gè)分布式鑒別器,每個(gè)鑒別器位于一個(gè)醫(yī)療實(shí)體中。經(jīng)過(guò)訓(xùn)練的生成器可以作為“數(shù)據(jù)生產(chǎn)工廠”,為下游具體任務(wù)的學(xué)習(xí)構(gòu)建數(shù)據(jù)庫(kù)
賦能MaaS新生態(tài)
為醫(yī)療大模型開發(fā)迭代
按下加速鍵
DSL框架已通過(guò)多個(gè)具體應(yīng)用的驗(yàn)證。
包括:大腦多序列MRI圖像生成及下游的大腦腫瘤分割任務(wù),心臟CTA圖像生成及下游的全心臟結(jié)構(gòu)分割任務(wù),多種器官的病理圖像生成及細(xì)胞核實(shí)例分割任務(wù)等。
在可擴(kuò)展性方面,該方法還可支持多模態(tài)數(shù)據(jù)中缺失模態(tài)數(shù)據(jù)的生成、持續(xù)學(xué)習(xí)等不同場(chǎng)景。
?不同應(yīng)用中生成數(shù)據(jù)示例:(a) 心臟CTA,(b) 大腦多模態(tài)MRI,(c) 病理圖像;生成的數(shù)據(jù)構(gòu)成大數(shù)據(jù)庫(kù)可用于下游具體任務(wù)模型的學(xué)習(xí),例如:(d) 全心分割,(e) 腦腫瘤分割,(f) 細(xì)胞核分割
DSL框架的構(gòu)建,也有利于推動(dòng)MaaS服務(wù)模式發(fā)展。
MaaS的醫(yī)療大模型在數(shù)據(jù)學(xué)習(xí)過(guò)程中,同樣會(huì)遇到醫(yī)療數(shù)據(jù)隱私安全保護(hù)問(wèn)題。基于DSL框架,可以有效地從多中心多樣性數(shù)據(jù)中建立數(shù)據(jù)集倉(cāng)庫(kù),通過(guò)生成數(shù)據(jù),為大模型的開發(fā)迭代提供創(chuàng)新思路。
細(xì)化到具體應(yīng)用場(chǎng)景,DSL框架可助力醫(yī)療機(jī)構(gòu)高效開展跨中心、跨地域模型訓(xùn)練工作。
不同區(qū)域醫(yī)療機(jī)構(gòu)在疾病數(shù)據(jù)多樣性方面存在明顯地域性差異,過(guò)去受限于數(shù)據(jù)安全和隱私保護(hù)要求,使用跨中心醫(yī)療數(shù)據(jù)聯(lián)合訓(xùn)練醫(yī)療模型難度大。而借助DSL框架,有望幫助醫(yī)療機(jī)構(gòu)更加高效便捷地開展跨中心醫(yī)療模型訓(xùn)練。
在2023 WAIC世界人工智能大會(huì)上,商湯科技與行業(yè)伙伴合作推出醫(yī)療大語(yǔ)言模型、醫(yī)療影像大模型、生信大模型等多種垂類基礎(chǔ)模型群,覆蓋CT、MRI、超聲、內(nèi)鏡、病理、醫(yī)學(xué)文本、生信數(shù)據(jù)等不同醫(yī)療數(shù)據(jù)模態(tài)。并展示了融入醫(yī)療大模型的升級(jí)版“SenseCare智慧醫(yī)院”綜合解決方案,以及多個(gè)醫(yī)療大模型落地案例。
借助商湯大裝置的超大算力和醫(yī)療基礎(chǔ)模型群的堅(jiān)實(shí)基礎(chǔ),商湯得以成為“醫(yī)療大模型工廠”,幫助醫(yī)療機(jī)構(gòu)針對(duì)不同臨床問(wèn)題高效訓(xùn)練模型,甚至輔助機(jī)構(gòu)實(shí)現(xiàn)模型自主訓(xùn)練。
?WAIC期間商湯科技展示大模型在醫(yī)療領(lǐng)域的多個(gè)落地應(yīng)用案例
隨著DSL框架的推出,醫(yī)療大模型訓(xùn)練將有望突破“數(shù)據(jù)孤島”的桎梏,一定程度上降低醫(yī)療大模型的訓(xùn)練門檻,有助于加速模型開發(fā)迭代,使醫(yī)療大模型的應(yīng)用范圍得以覆蓋更多臨床醫(yī)療問(wèn)題。
商湯科技將持續(xù)聚焦醫(yī)療機(jī)構(gòu)的多樣化需求,推動(dòng)醫(yī)療大模型在更多醫(yī)療場(chǎng)景落地。 點(diǎn)擊“閱讀原文“查看論文詳情
相關(guān)閱讀,戳這里
《多場(chǎng)景落地!商湯打造“醫(yī)療大模型工廠”引領(lǐng)智慧醫(yī)療持續(xù)創(chuàng)新》
《嘉會(huì)醫(yī)療與商湯科技達(dá)成戰(zhàn)略合作》
原文標(biāo)題:解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊
文章出處:【微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
商湯科技
+關(guān)注
關(guān)注
8文章
510瀏覽量
36090
原文標(biāo)題:解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題,商湯最新研究成果登「Nature」子刊
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論