生成式AI正為醫(yī)療大模型迭代按下加速鍵。近日，商湯科技聯(lián)合行業(yè)合作伙伴，結(jié)合生成式人工智能和醫(yī)療圖像數(shù)據(jù)的多中心聯(lián)邦學(xué)習(xí)發(fā)表的最新研究成果《通過(guò)分布式合成學(xué)習(xí)挖掘多中心異構(gòu)醫(yī)療數(shù)據(jù)》(MiningMulti-Center Heterogeneous Medical Data with Distributed Synthetic Learning)，登上國(guó)際頂級(jí)學(xué)術(shù)期刊Nature子刊《自然-通訊》(NatureCommunications)。

《自然-通訊》主要發(fā)表自然科學(xué)各個(gè)領(lǐng)域的高質(zhì)量研究成果，影響因子16.6。

研究成果提出一個(gè)基于分布式合成對(duì)抗網(wǎng)絡(luò)的聯(lián)邦學(xué)習(xí)框架DSL（DistributedSynthetic Learning），可利用多中心的多樣性醫(yī)療圖像數(shù)據(jù)來(lái)聯(lián)合學(xué)習(xí)圖像數(shù)據(jù)的生成。

該分布式框架通過(guò)學(xué)習(xí)得到一個(gè)圖像數(shù)據(jù)生成器，可以更靈活地生成數(shù)據(jù)，進(jìn)而可替代多中心的真實(shí)數(shù)據(jù)，用于下游具體機(jī)器學(xué)習(xí)任務(wù)的訓(xùn)練，并具備較強(qiáng)可擴(kuò)展性。

伴隨大模型快速發(fā)展，Model as a Service（MaaS，模型即服務(wù)）正成為一大趨勢(shì)。MaaS的大模型需要從海量的、多類型的數(shù)據(jù)中學(xué)習(xí)通用特征和規(guī)則，從而具備較強(qiáng)的泛化能力。

DSL框架能在保護(hù)數(shù)據(jù)隱私的同時(shí)，巧妙解決醫(yī)療大模型訓(xùn)練中常見(jiàn)的數(shù)據(jù)量不足的瓶頸，有效賦能MaaS的大模型訓(xùn)練。

在這一技術(shù)支撐下，商湯“醫(yī)療大模型工廠”能夠幫助醫(yī)療機(jī)構(gòu)更高效、高質(zhì)量地訓(xùn)練針對(duì)不同臨床問(wèn)題的醫(yī)療大模型，使大模型在醫(yī)療領(lǐng)域的應(yīng)用半徑得以延伸。

兼顧隱私保護(hù)和數(shù)據(jù)共享

創(chuàng)新聯(lián)邦學(xué)習(xí)模式打造

“數(shù)據(jù)生產(chǎn)工廠”

深度學(xué)習(xí)模型需要大量且多樣性的數(shù)據(jù)“喂養(yǎng)”。

醫(yī)療領(lǐng)域?qū)τ脩綦[私保護(hù)有著極高要求，使得模型訓(xùn)練的醫(yī)療數(shù)據(jù)在多樣性和標(biāo)注質(zhì)量上都受到限制，也使多中心的醫(yī)療數(shù)據(jù)收集和醫(yī)療AI模型的開發(fā)迭代面臨較大挑戰(zhàn)。

如何調(diào)和隱私保護(hù)和數(shù)據(jù)共享協(xié)作的矛盾？

“聯(lián)邦學(xué)習(xí)提供了全新的解題思路。聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)方法, 可以在不共享數(shù)據(jù)的情況下對(duì)多中心的數(shù)據(jù)進(jìn)行聯(lián)合建模，聯(lián)合學(xué)習(xí)某一特定應(yīng)用模型。”

與主流的聯(lián)邦學(xué)習(xí)模式不同，DSL框架的學(xué)習(xí)目標(biāo)是數(shù)據(jù)生成器，而非具體應(yīng)用的任務(wù)模型。

該分布式架構(gòu)由一個(gè)位于中央服務(wù)器的數(shù)據(jù)生成器和多個(gè)位于不同數(shù)據(jù)中心的數(shù)據(jù)鑒別器組成。

在學(xué)習(xí)過(guò)程中，中央生成器負(fù)責(zé)生成“假”的圖像數(shù)據(jù)，并發(fā)送給各個(gè)數(shù)據(jù)中心，各個(gè)數(shù)據(jù)中心用本地的真實(shí)數(shù)據(jù)和“假”數(shù)據(jù)進(jìn)行對(duì)比后將結(jié)果回傳給中央服務(wù)器，并基于反饋結(jié)果訓(xùn)練中央生成器生成更仿真的圖像數(shù)據(jù)。

分布式的合成學(xué)習(xí)結(jié)束后，中央生成器可作為“數(shù)據(jù)生產(chǎn)工廠”，根據(jù)給定的約束條件（標(biāo)注）生成高質(zhì)量仿真圖像數(shù)據(jù)，從而得到一個(gè)由生成數(shù)據(jù)組成的數(shù)據(jù)庫(kù)。

該數(shù)據(jù)庫(kù)可替代真實(shí)數(shù)據(jù)，用于下游具體任務(wù)的學(xué)習(xí)，使下游模型的更新迭代不再受到真實(shí)數(shù)據(jù)可訪問(wèn)性制約。同時(shí)，該方法通過(guò)分布式架構(gòu)和聯(lián)邦學(xué)習(xí)方式保證中央服務(wù)器無(wú)需接觸數(shù)據(jù)中心真實(shí)數(shù)據(jù)，也不需要同步各中心的鑒別器模型，有效保障了數(shù)據(jù)安全和隱私保護(hù)。

?DSL框架包含一個(gè)中央生成器和多個(gè)分布式鑒別器，每個(gè)鑒別器位于一個(gè)醫(yī)療實(shí)體中。經(jīng)過(guò)訓(xùn)練的生成器可以作為“數(shù)據(jù)生產(chǎn)工廠”，為下游具體任務(wù)的學(xué)習(xí)構(gòu)建數(shù)據(jù)庫(kù)

賦能MaaS新生態(tài)

為醫(yī)療大模型開發(fā)迭代

按下加速鍵

DSL框架已通過(guò)多個(gè)具體應(yīng)用的驗(yàn)證。

包括：大腦多序列MRI圖像生成及下游的大腦腫瘤分割任務(wù)，心臟CTA圖像生成及下游的全心臟結(jié)構(gòu)分割任務(wù)，多種器官的病理圖像生成及細(xì)胞核實(shí)例分割任務(wù)等。

在可擴(kuò)展性方面，該方法還可支持多模態(tài)數(shù)據(jù)中缺失模態(tài)數(shù)據(jù)的生成、持續(xù)學(xué)習(xí)等不同場(chǎng)景。

?不同應(yīng)用中生成數(shù)據(jù)示例：(a) 心臟CTA，(b) 大腦多模態(tài)MRI，(c) 病理圖像；生成的數(shù)據(jù)構(gòu)成大數(shù)據(jù)庫(kù)可用于下游具體任務(wù)模型的學(xué)習(xí)，例如：(d) 全心分割，(e) 腦腫瘤分割，(f) 細(xì)胞核分割

DSL框架的構(gòu)建，也有利于推動(dòng)MaaS服務(wù)模式發(fā)展。

MaaS的醫(yī)療大模型在數(shù)據(jù)學(xué)習(xí)過(guò)程中，同樣會(huì)遇到醫(yī)療數(shù)據(jù)隱私安全保護(hù)問(wèn)題。基于DSL框架，可以有效地從多中心多樣性數(shù)據(jù)中建立數(shù)據(jù)集倉(cāng)庫(kù)，通過(guò)生成數(shù)據(jù)，為大模型的開發(fā)迭代提供創(chuàng)新思路。

細(xì)化到具體應(yīng)用場(chǎng)景，DSL框架可助力醫(yī)療機(jī)構(gòu)高效開展跨中心、跨地域模型訓(xùn)練工作。

不同區(qū)域醫(yī)療機(jī)構(gòu)在疾病數(shù)據(jù)多樣性方面存在明顯地域性差異，過(guò)去受限于數(shù)據(jù)安全和隱私保護(hù)要求，使用跨中心醫(yī)療數(shù)據(jù)聯(lián)合訓(xùn)練醫(yī)療模型難度大。而借助DSL框架，有望幫助醫(yī)療機(jī)構(gòu)更加高效便捷地開展跨中心醫(yī)療模型訓(xùn)練。

在2023 WAIC世界人工智能大會(huì)上，商湯科技與行業(yè)伙伴合作推出醫(yī)療大語(yǔ)言模型、醫(yī)療影像大模型、生信大模型等多種垂類基礎(chǔ)模型群，覆蓋CT、MRI、超聲、內(nèi)鏡、病理、醫(yī)學(xué)文本、生信數(shù)據(jù)等不同醫(yī)療數(shù)據(jù)模態(tài)。并展示了融入醫(yī)療大模型的升級(jí)版“SenseCare智慧醫(yī)院”綜合解決方案，以及多個(gè)醫(yī)療大模型落地案例。

借助商湯大裝置的超大算力和醫(yī)療基礎(chǔ)模型群的堅(jiān)實(shí)基礎(chǔ)，商湯得以成為“醫(yī)療大模型工廠”，幫助醫(yī)療機(jī)構(gòu)針對(duì)不同臨床問(wèn)題高效訓(xùn)練模型，甚至輔助機(jī)構(gòu)實(shí)現(xiàn)模型自主訓(xùn)練。

?WAIC期間商湯科技展示大模型在醫(yī)療領(lǐng)域的多個(gè)落地應(yīng)用案例

隨著DSL框架的推出，醫(yī)療大模型訓(xùn)練將有望突破“數(shù)據(jù)孤島”的桎梏，一定程度上降低醫(yī)療大模型的訓(xùn)練門檻，有助于加速模型開發(fā)迭代，使醫(yī)療大模型的應(yīng)用范圍得以覆蓋更多臨床醫(yī)療問(wèn)題。

商湯科技將持續(xù)聚焦醫(yī)療機(jī)構(gòu)的多樣化需求，推動(dòng)醫(yī)療大模型在更多醫(yī)療場(chǎng)景落地。點(diǎn)擊“閱讀原文“查看論文詳情

相關(guān)閱讀，戳這里

《多場(chǎng)景落地！商湯打造“醫(yī)療大模型工廠”引領(lǐng)智慧醫(yī)療持續(xù)創(chuàng)新》

《嘉會(huì)醫(yī)療與商湯科技達(dá)成戰(zhàn)略合作》

原文標(biāo)題：解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題，商湯最新研究成果登「Nature」子刊

文章出處：【微信公眾號(hào)：商湯科技SenseTime】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

商湯科技

商湯科技

+關(guān)注

關(guān)注
8

文章
510

瀏覽量
36090

原文標(biāo)題：解決醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題，商湯最新研究成果登「Nature」子刊

文章出處：【微信號(hào)：SenseTime2017，微信公眾號(hào)：商湯科技SenseTime】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

商湯醫(yī)療聯(lián)合成立上海公共服務(wù)MaaS訓(xùn)練及成果轉(zhuǎn)化聯(lián)盟

助力構(gòu)建全鏈條大模型訓(xùn)練及成果轉(zhuǎn)化體系，打通產(chǎn)學(xué)研醫(yī)合作生態(tài)，商湯醫(yī)療再拓“醫(yī)療大

發(fā)表于 11-28 10:57 ?308次閱讀

如何訓(xùn)練自己的LLM模型

訓(xùn)練自己的大型語(yǔ)言模型（LLM）是一個(gè)復(fù)雜且資源密集的過(guò)程，涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟，以及一些關(guān)

發(fā)表于 11-08 09:30 ?549次閱讀

商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院簽署戰(zhàn)略合作協(xié)議

近日，商湯醫(yī)療與上海臨床創(chuàng)新轉(zhuǎn)化研究院（以下簡(jiǎn)稱“臨轉(zhuǎn)院”）簽署戰(zhàn)略合作協(xié)議。

發(fā)表于 11-07 14:45 ?402次閱讀

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源分析

AI大模型的訓(xùn)練數(shù)據(jù)來(lái)源廣泛且多元化，這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型

發(fā)表于 10-23 15:32 ?632次閱讀

SynSense時(shí)識(shí)科技與海南大學(xué)聯(lián)合研究成果發(fā)布

近日，SynSense時(shí)識(shí)科技與海南大學(xué)聯(lián)合在影響因子高達(dá)7.7的國(guó)際知名期刊《Computers in Biology and Medicine》上發(fā)表了最新研究成果，展示了如何用低維信號(hào)通用類腦

發(fā)表于 10-23 14:40 ?314次閱讀

中移芯昇發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施研究成果

8月23日，雄安新區(qū)RISC-V產(chǎn)業(yè)發(fā)展交流促進(jìn)會(huì)順利召開，芯昇科技有限公司（以下簡(jiǎn)稱“中移芯昇”）總經(jīng)理肖青發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施研究成果，為雄安新區(qū)建設(shè)新型智慧城市賦能增效。該成果

發(fā)表于 08-31 08:03 ?630次閱讀

谷歌發(fā)布革命性AI天氣預(yù)測(cè)模型NeuralGCM

在科技與自然科學(xué)的交匯點(diǎn)上，谷歌公司于7月23日宣布了一項(xiàng)重大突破——全新的人工智能天氣預(yù)測(cè)模型NeuralGCM。這一創(chuàng)新成果不僅融合了機(jī)器學(xué)習(xí)的前沿技術(shù)，還巧妙結(jié)合了傳統(tǒng)氣象學(xué)的精髓，其研究成果已在國(guó)際權(quán)威科學(xué)期刊《

發(fā)表于 07-23 14:24 ?502次閱讀

大語(yǔ)言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練，使

發(fā)表于 07-11 10:11 ?435次閱讀

llm模型訓(xùn)練一般用什么系統(tǒng)

LLM（Large Language Model，大型語(yǔ)言模型）是近年來(lái)在自然語(yǔ)言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)來(lái)進(jìn)行

發(fā)表于 07-09 10:02 ?416次閱讀

人臉識(shí)別模型訓(xùn)練流程

人臉識(shí)別模型訓(xùn)練流程是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要技術(shù)。本文將詳細(xì)介紹人臉識(shí)別模型的訓(xùn)練流程，包括數(shù)據(jù)準(zhǔn)備、

發(fā)表于 07-04 09:19 ?971次閱讀

人臉識(shí)別模型訓(xùn)練失敗原因有哪些

人臉識(shí)別模型訓(xùn)練失敗的原因有很多，以下是一些常見(jiàn)的原因及其解決方案： 數(shù)據(jù)集質(zhì)量問(wèn)題 數(shù)據(jù)集是訓(xùn)練人臉識(shí)別

發(fā)表于 07-04 09:17 ?624次閱讀

深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型，本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整

發(fā)表于 07-01 16:13 ?1275次閱讀

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的預(yù)訓(xùn)練

大語(yǔ)言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無(wú)需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而，隨著學(xué)習(xí)容量的增加，對(duì)預(yù)訓(xùn)練數(shù)據(jù)的需求也相

發(fā)表于 05-07 17:10

一種基于AlGaAs/GaAs漸變帶隙pn結(jié)探測(cè)器的單像素智能微型光譜儀

近日，Nature 子刊《Nature Communications》（IF=16.6）以“Single-pixel p-graded-n junction spectrometers

發(fā)表于 03-06 09:32 ?564次閱讀

商湯科技與庫(kù)醇科技達(dá)成合作為垂域大模型構(gòu)建高質(zhì)量大規(guī)模的領(lǐng)域微調(diào)數(shù)據(jù)

數(shù)字化轉(zhuǎn)型，為垂域大模型構(gòu)建高質(zhì)量大規(guī)模的領(lǐng)域微調(diào)數(shù)據(jù)。 ? 本次合作將基于商湯通用大模型進(jìn)行二次開發(fā)，給模型注入領(lǐng)域知識(shí)，

發(fā)表于 01-10 09:46 ?712次閱讀