站在新的一年回望過去,不管是在基礎(chǔ)設(shè)施、AI醫(yī)療場景成熟度、資本注入等環(huán)節(jié),以醫(yī)學(xué)影像AI產(chǎn)品為代表的醫(yī)療AI,終于迎來了一次集體綻放。
據(jù)雷鋒網(wǎng)《醫(yī)健AI掘金志》的統(tǒng)計(jì),前后已經(jīng)有八款產(chǎn)品獲批。事實(shí)上,醫(yī)療AI的商業(yè)化從來不是靠一己之力就能完成的任務(wù):行業(yè)標(biāo)準(zhǔn)的形成、審批層面的規(guī)范、數(shù)據(jù)質(zhì)量的提升、產(chǎn)業(yè)資源的整合,每一個(gè)環(huán)節(jié)都至關(guān)重要。
醫(yī)療AI發(fā)展的過程中,最重要的是做好頂層設(shè)計(jì)。
此前,中國醫(yī)學(xué)影像AI產(chǎn)學(xué)研用創(chuàng)新聯(lián)盟理事長、大會(huì)主席劉士遠(yuǎn)主任曾向《醫(yī)健AI掘金志》表示,“現(xiàn)在行業(yè)缺少的就是標(biāo)準(zhǔn),每個(gè)環(huán)節(jié)都是。雖然已經(jīng)有企業(yè)拿到三類證,但是這僅僅是一個(gè)開端。進(jìn)入臨床以前,任何一個(gè)醫(yī)療產(chǎn)品都要有效果考核體系,要考核有效性、安全性、穩(wěn)定性。”
作為醫(yī)學(xué)影像人工智能建設(shè)的要素之一,我國數(shù)據(jù)庫建設(shè)仍然缺乏。目前可公開的數(shù)據(jù)庫不多,數(shù)據(jù)的標(biāo)注標(biāo)準(zhǔn)也不統(tǒng)一。
而在2020年第二屆醫(yī)學(xué)影像AI大會(huì)上,醫(yī)學(xué)圖像數(shù)據(jù)庫放射影像數(shù)據(jù)庫建設(shè)項(xiàng)目正式啟動(dòng),建成后也將成為國內(nèi)首個(gè)醫(yī)學(xué)影像的標(biāo)準(zhǔn)化數(shù)據(jù)庫。
醫(yī)療AI,每一步都走在持久但正確的道路上。
今天介紹的文章主題正是圍繞“醫(yī)學(xué)影像數(shù)據(jù)庫”,由浙江大學(xué)應(yīng)用數(shù)學(xué)研究所的孔德興教授在第二屆醫(yī)學(xué)影像AI大會(huì)上發(fā)表。
孔德興教授是浙江大學(xué)特聘教授,博士生導(dǎo)師,應(yīng)用數(shù)學(xué)研究所長,研究方向是醫(yī)學(xué)圖像處理與醫(yī)學(xué)人工智能。發(fā)表了將近70篇SCI文章,擁有已授權(quán)發(fā)明專利7項(xiàng)。作為AI技術(shù)的前沿觀察者與參與者,孔德興教授在醫(yī)療數(shù)據(jù)庫的建設(shè)方面具有許多獨(dú)到的心得。
以下為孔德興教授的演講內(nèi)容,雷鋒網(wǎng)《醫(yī)健AI掘金志》作了不改變?cè)獾木庉嫞?/p>
孔德興:非常高興能在大會(huì)上介紹我們團(tuán)隊(duì)在數(shù)據(jù)庫建設(shè)方面的一些工作和探索,今天主要匯報(bào)數(shù)據(jù)庫的建設(shè)情況。
大數(shù)據(jù)是必須要做的,有以下三點(diǎn):
一是現(xiàn)在的發(fā)展階段面臨大數(shù)據(jù)的支持;
二是國家的重大戰(zhàn)略;
三是大數(shù)據(jù)對(duì)科學(xué)研究也提出了一些挑戰(zhàn)性的問題,在工業(yè)、農(nóng)業(yè)、商業(yè)、國防等等有重大的價(jià)值。
當(dāng)今時(shí)代是大數(shù)據(jù)的時(shí)代,在這里我用廣義相對(duì)論表述一下對(duì)大數(shù)據(jù)的理解,有以下幾點(diǎn),
第一點(diǎn):協(xié)變性,任何一個(gè)數(shù)據(jù)都是對(duì)客觀對(duì)象的描述,如同用不同的坐標(biāo)系描述物理規(guī)律,CT和超聲是對(duì)客觀對(duì)象不同模態(tài)的描述與刻畫。
第二點(diǎn):從量變到質(zhì)變過程中,人工智能測試的數(shù)據(jù)樣本量沒有一個(gè)準(zhǔn)確的概念,然而這個(gè)對(duì)臨床的準(zhǔn)確性是重要的,這關(guān)系到醫(yī)療人工智能產(chǎn)品的準(zhǔn)確率。
第三點(diǎn):醫(yī)學(xué)大數(shù)據(jù)有一個(gè)關(guān)聯(lián)聚合性原理。簡單來說,把每家醫(yī)院不共享的數(shù)據(jù)整合應(yīng)用,就會(huì)產(chǎn)生匯聚數(shù)據(jù)。各大醫(yī)院匯聚的是不同分布式的中心數(shù)據(jù),用一些分布式架構(gòu)匯聚起來。
通過技術(shù)手段可以破解數(shù)據(jù)庫帶來的挑戰(zhàn)。每家數(shù)據(jù)都是描述醫(yī)學(xué)規(guī)律的內(nèi)部本質(zhì)的規(guī)律,只是我們從不同的數(shù)據(jù)點(diǎn)反映側(cè)重點(diǎn)不一樣,匯聚起來產(chǎn)生一個(gè)整體的現(xiàn)象。
第四點(diǎn):數(shù)據(jù)的重整化,我們可以復(fù)制、標(biāo)注、加工利用數(shù)據(jù),使其不停完善,量變產(chǎn)生質(zhì)變,匯聚產(chǎn)生價(jià)值。
數(shù)據(jù)是一種新型的資源,而處理數(shù)據(jù)的算法是一種資產(chǎn),有了這些資源就有了算法。
好的數(shù)據(jù)是一種資源,是人工智能發(fā)展的基石,需要真實(shí)性、準(zhǔn)確性、完整性、可溯性等等。
隨著研究和企業(yè)產(chǎn)業(yè)化的深入,當(dāng)務(wù)之急是建立一些高質(zhì)量高標(biāo)準(zhǔn)的數(shù)據(jù)庫。從量變到質(zhì)變,從臨床醫(yī)學(xué)模式到循證醫(yī)學(xué)模式,從靜態(tài)處理到動(dòng)態(tài)處理,從單科影像到多模塊交叉,建立好的人工智能算法。所有的一切都是建立在好的數(shù)據(jù)基礎(chǔ)上。
從建立數(shù)據(jù)庫時(shí)間關(guān)系,我簡單按四點(diǎn)給大家分享一下。首先,醫(yī)學(xué)影像人工智能對(duì)數(shù)據(jù)的要求,建立數(shù)據(jù)庫的規(guī)范,數(shù)據(jù)庫標(biāo)準(zhǔn)的規(guī)范化,最后是建立數(shù)據(jù)庫面臨的問題。
首先,我們要提幾個(gè)概念,第一個(gè)是數(shù)據(jù)治理,一個(gè)好的數(shù)據(jù)庫離不開數(shù)據(jù)治理。總的來講,數(shù)據(jù)治理是數(shù)據(jù)資產(chǎn)管理形成前的一個(gè)集成活動(dòng),包括建庫的計(jì)劃和監(jiān)督執(zhí)行的要求。
另外一點(diǎn),數(shù)據(jù)治理有基本概念,是希望從零散的數(shù)據(jù)變成統(tǒng)一數(shù)據(jù),從很少?zèng)]有組織的流程到全方位的綜合治理,從零散的變成一個(gè)有計(jì)劃、有執(zhí)行、有治理的活動(dòng)。
數(shù)據(jù)治理有以下幾個(gè)特征:第一,因?yàn)槎嗄B(tài)多維度動(dòng)態(tài)化的特點(diǎn),數(shù)據(jù)采集難度大。第二,現(xiàn)階段方法手段較少。第三,數(shù)據(jù)關(guān)聯(lián)度高,關(guān)聯(lián)性復(fù)雜。
正如前面所說的,雖然超聲CT模態(tài)和表面形態(tài)不一樣,但是都是描述某一個(gè)人的肝癌信息。最后一點(diǎn)是,時(shí)間周期長。
我們希望,數(shù)據(jù)庫能做到這三個(gè)層面,第一是目前階段,數(shù)據(jù)庫把數(shù)據(jù)歸集起來變成一個(gè)有特殊結(jié)構(gòu)的數(shù)據(jù);
第二是把數(shù)據(jù)庫變成一個(gè)專家?guī)欤袛?shù)據(jù)入駐要求和標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn),治療方法等;
第三,希望數(shù)據(jù)庫能做到動(dòng)態(tài),比如肝癌,醫(yī)生通過隨訪肝癌高發(fā)原因,給政府提建議,共享疾病的現(xiàn)狀,從現(xiàn)在的被動(dòng)治療到疾病預(yù)防,這是至關(guān)重要的。
所以,我們的數(shù)據(jù)庫是有三個(gè):傳統(tǒng)數(shù)據(jù)庫,專家數(shù)據(jù)庫,然后到國家的數(shù)據(jù)庫。
數(shù)據(jù)管理和數(shù)據(jù)治理有不同之處。
數(shù)據(jù)治理是很大的框架,而數(shù)據(jù)管理是數(shù)據(jù)治理的一部分,同時(shí)數(shù)據(jù)治理對(duì)數(shù)據(jù)管理有指導(dǎo)和評(píng)估的作用。
數(shù)據(jù)治理的體系是需要從全局范圍描述大數(shù)據(jù)治理的主要內(nèi)容,包括保障機(jī)制,核心領(lǐng)域,實(shí)施評(píng)估等等。數(shù)據(jù)治理不是一個(gè)虛的東西,是一個(gè)系統(tǒng)的選擇,難度很大。
我希望,從不同模態(tài)數(shù)據(jù)整理出不同醫(yī)院的數(shù)據(jù),抽象出一個(gè)數(shù)據(jù)治理指導(dǎo)性原則,現(xiàn)在這個(gè)目標(biāo)對(duì)我們來說很有挑戰(zhàn)性,我們?cè)跀?shù)據(jù)治理做了大量的調(diào)研工作,今年年底能出來一個(gè)框架,可以進(jìn)行參考。
我們有一個(gè)數(shù)據(jù)的管理體系,管理體系的落實(shí)和指導(dǎo)有相對(duì)應(yīng)的管理工作機(jī)制,還有一個(gè)支撐數(shù)據(jù)管理的系統(tǒng)。
數(shù)據(jù)治理是一個(gè)全生命周期的管理過程,首先有一個(gè)數(shù)據(jù)采集,形成原始數(shù)據(jù)庫,數(shù)據(jù)歸集成為數(shù)據(jù)集;再做數(shù)據(jù)預(yù)處理,清洗成基礎(chǔ)的數(shù)據(jù)庫;通過醫(yī)學(xué)專家制定的標(biāo)準(zhǔn)指南來定義標(biāo)注。
其中,我們對(duì)標(biāo)注做了大量研究,發(fā)現(xiàn)各個(gè)研究機(jī)構(gòu)包括不同的學(xué)會(huì)、不同的企業(yè)和醫(yī)院標(biāo)準(zhǔn)不一樣,同樣的數(shù)據(jù)讓不同的研究機(jī)構(gòu)標(biāo)注,結(jié)果都不相同。
我們一旦建成標(biāo)準(zhǔn)數(shù)據(jù)庫,就進(jìn)行數(shù)據(jù)算法的訓(xùn)練和調(diào)用。算法的測試可以在醫(yī)院進(jìn)行,這對(duì)于整個(gè)數(shù)據(jù)庫的建設(shè)非常重要。因?yàn)獒t(yī)院數(shù)據(jù)的維度不同,包括來源地域不一樣,方法不一樣。
比如,用上海同濟(jì)醫(yī)院數(shù)據(jù)研發(fā)做出的人工智能產(chǎn)品,而沒有其他醫(yī)院的數(shù)據(jù),這個(gè)產(chǎn)品可能只適合同濟(jì)醫(yī)院。經(jīng)過藥監(jiān)局的批準(zhǔn)也只能適用同濟(jì)醫(yī)院。
在數(shù)據(jù)質(zhì)量管理體系中,對(duì)于數(shù)據(jù)的采集包括標(biāo)注的房間光線都有要求。在這樣的要求下,才能做到高質(zhì)量的數(shù)據(jù)結(jié)果。
隱私安全是建立數(shù)據(jù)庫的重中之重。國家衛(wèi)健委啟動(dòng)國家數(shù)據(jù)庫的建立,首要就是隱私保護(hù),包括在倫理方面都有很大的要求。
醫(yī)學(xué)影像人工智能發(fā)展對(duì)數(shù)據(jù)的要求,首先是符合建庫要求,具有科學(xué)性、權(quán)威性、先進(jìn)性,而且是動(dòng)態(tài)的,能根據(jù)發(fā)展去更新數(shù)據(jù),具體情況具體分析。
規(guī)范化構(gòu)建數(shù)據(jù)庫,目的是建立一個(gè)安全合規(guī)數(shù)據(jù)共享的數(shù)據(jù)庫。其組織形式是需要專家隊(duì)伍制定數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量評(píng)估標(biāo)準(zhǔn),然后討論實(shí)施。
標(biāo)準(zhǔn)建立以后每一個(gè)環(huán)節(jié)都需要一個(gè)規(guī)范化的執(zhí)行操作過程。我們建庫的出發(fā)點(diǎn)是需求的驅(qū)動(dòng),以患者為中心建立一個(gè)長效全景的數(shù)據(jù)庫。
國家衛(wèi)生健康委牽頭和浙江求是數(shù)理醫(yī)學(xué)研究院、清華大學(xué)長庚醫(yī)院、中國醫(yī)學(xué)影像AI產(chǎn)學(xué)研用創(chuàng)新聯(lián)盟正建設(shè)超聲、CT肺、肝臟臨床數(shù)據(jù)庫;
還有糖網(wǎng)病眼底數(shù)據(jù)庫和檢測數(shù)據(jù)庫,其他的比如浙江數(shù)理醫(yī)學(xué)學(xué)會(huì)等機(jī)構(gòu)都在建立,但是需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。
數(shù)據(jù)庫建立基本原則是臨床和科研的需求,需要把臨床、科研和企業(yè)產(chǎn)業(yè)化的標(biāo)準(zhǔn)統(tǒng)一起來,是在質(zhì)量控制體系下高效成本低的建庫標(biāo)準(zhǔn)。這是幾個(gè)基本原則。
數(shù)據(jù)的標(biāo)注也要規(guī)范化。標(biāo)準(zhǔn)和專家共識(shí)是至關(guān)重要的。我們要做一個(gè)標(biāo)準(zhǔn)流程讓醫(yī)生勾畫,人工做的和智能做的在標(biāo)準(zhǔn)的軟件中進(jìn)行。
數(shù)據(jù)標(biāo)注有以下難點(diǎn):首先,專家共識(shí)很難達(dá)成一致。比如如何合理組織專家隊(duì)伍,環(huán)境標(biāo)準(zhǔn),使用工具的可信度,不同人有不同的理解。
到現(xiàn)在為止,我們面臨的挑戰(zhàn)很多。
第一,社會(huì)資源投入不夠。建庫是一個(gè)規(guī)范的事情,是一個(gè)長城工程,需要大量的社會(huì)投入,需要我們政府、企業(yè)和研究機(jī)構(gòu)三方協(xié)同。
第二,數(shù)據(jù)庫建設(shè)滯后。
第三是數(shù)據(jù)類型比例不均,有的數(shù)據(jù)樣本量少,還有的數(shù)據(jù)更新比較快。
面對(duì)挑戰(zhàn),我們希望加快建設(shè),希望政府企業(yè)各方面一起投入,一起組建高質(zhì)量的專家組進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的制定。我們需要衛(wèi)健委統(tǒng)一國家數(shù)據(jù)資源,開放共享,不能讓勞動(dòng)白白付出。
這是一個(gè)國家工程,需要各個(gè)方面的投入,是一個(gè)功蓋千秋的工程,需要大家關(guān)注的一件事情。謝謝大家。
原文標(biāo)題:浙大孔德興:醫(yī)學(xué)影像數(shù)據(jù)庫,做持久且正確的事情 | 經(jīng)典回顧
文章出處:【微信公眾號(hào):IoT科技評(píng)論】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269110 -
智能醫(yī)療
+關(guān)注
關(guān)注
27文章
1384瀏覽量
74487
原文標(biāo)題:浙大孔德興:醫(yī)學(xué)影像數(shù)據(jù)庫,做持久且正確的事情 | 經(jīng)典回顧
文章出處:【微信號(hào):IoT_talk,微信公眾號(hào):醫(yī)健AI掘金志】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論