在計算機視覺和模式識別會議( CVPR )上, NVIDIA 研究人員發表了 35 多篇論文。這包括對 移動窗口 UNEt TRansformers ( Swin-UNETR )的研究,這是第一個基于變壓器的預訓練框架,專為 3D 醫學圖像分析中的自我監督任務而設計。這項研究是創建用于數據注釋的預訓練、大規模和自監督三維模型的第一步。
作為一種基于 transformer 的計算機視覺方法, Swin UNETR 采用了 MONAI ,這是一種開源的 PyTorch 框架,用于深入學習醫療成像,包括放射學和病理學。使用這種預訓練方案, Swin UNETR 為各種醫學圖像分割任務設定了新的最先進的基準,并一致證明了其有效性,即使只有少量的標記數據。
Swin UNETR 模型培訓
Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八個 GPU 和 AdamW 優化算法。對 5050 張來自健康和不健康受試者不同身體部位的公開 CT 圖像進行預訓練,以保持數據集的平衡。
對于 3D Swin transformer 編碼器的自我監督預訓練,研究人員使用了各種借口任務。隨機裁剪的標記使用不同的變換(如旋轉和剪切)進行增強。這些標記用于掩蔽體修復、旋轉和對比學習,用于編碼器學習訓練數據的上下文表示,而不會增加數據注釋的負擔。
圖 1 :。預培訓框架概述。輸入的 CT 圖像被隨機裁剪成子體積,并通過隨機內部剪切和旋轉進行增強,然后作為輸入饋送到 Swin-UNETR 編碼器
Swin UNETR 背后的技術
Swin Transformers 采用分層視覺 transformer ( ViT )進行非重疊窗口的局部自我注意計算。這打開了為大型公司創建醫療專用 ImageNet 的機會,消除了創建醫療 AI 模型需要大量高質量注釋數據集的瓶頸。
與 CNN 體系結構相比, ViT 在從未標記數據(數據集越大,預訓練主干越強)進行全局和局部表示的自監督學習方面表現出非凡的能力。用戶可以在下游任務(例如,分割、分類和檢測)中使用極少量的標記數據微調預訓練模型。
這種體系結構在本地窗口中計算自我注意,與 ViT 相比表現出更好的性能。此外, Swin Transformers 的層次性使其非常適合需要多尺度建模的任務。
繼領先的 UNETR 模型成功使用直接使用 3D 補丁嵌入的基于 ViT 的編碼器之后, Swin UNETR 使用了具有金字塔結構的 3D Swin transformer 編碼器。
在 Swin UNETR 的編碼器中,由于計算簡單的全局自我注意對于高分辨率特征地圖是不可行的,因此在本地窗口中計算自我注意。為了增加局部窗口以外的感受野,使用窗口移位來計算不同窗口的區域相互作用。
Swin UNETR 的編碼器通過跳過連接以五種不同的分辨率連接到剩余的類似 UNet 的解碼器。它可以為密集的預測任務(如醫學圖像分割)捕獲多尺度特征表示。
Swin UNETR 模型性能
在對 CT 中的 13 個腹部器官和 醫學分段十項全能( MSD ) 數據集中的分割任務使用 超越顱穹窿( BTCV )分割挑戰 進行微調后,該模型在公共排行榜上達到了最先進的精度。
BTCV
在 BTCV 中, SwinUnetr 的平均骰子數為 0.918 ,優于其他排名靠前的模型。
圖 2 :。 BTCV 挑戰多器官分割排行榜骰子結果
對于較小的器官,如脾靜脈和門靜脈( 3.6% )、胰腺( 1.6% )和腎上腺( 3.8% ),與之前的最先進方法相比,有了改進小器官數據標簽分割對于放射科醫生來說是一項極其困難的任務。
通訊簿標簽
在 MSD 中, Swin UNETR 在腦腫瘤、肺、胰腺和結腸方面取得了最先進的表現。心臟、肝臟、海馬、前列腺、肝血管和脾臟的結果具有可比性。總的來說, Swin UNETR 在所有 10 項任務中的平均骰子率為 78.68% ,是最好的,并在 MSD 排行榜上排名第一。
圖 4 :。使用 MSD 數據集進行肝血管分割任務的定性輸出。你可以看到, Swin UNETR 比 SOTA DiNTS 跑贏了 3% 。這一變化很重要,因為它會導致更準確的分段輸出
與DiNTS(一種用于醫學圖像分割的強大AutoML方法)相比,Swin UNETR使用更少的訓練時間,顯示出更好的分割性能。例如,肝血管分割任務的定性分割輸出證明了Swin UNETR能夠更好地建模長期空間依賴性。
圖 5 :。 Swin UNETR 模型體系結構由一個 Swin transformer 編碼器組成,該編碼器使用 3D 補丁,并通過不同分辨率的跳過連接連接到基于 CNN 的解碼器
結論
Swin UNETR 體系結構在使用變壓器的醫療成像方面提供了急需的突破。鑒于醫學成像需要快速構建準確的模型, Swin UNETR 體系結構使數據科學家能夠對大量未標記數據進行預訓練。這減少了放射科醫生、病理學家和其他臨床團隊進行專家注釋的成本和時間。這里我們展示了用于器官檢測和自動體積測量的 SOTA 分割性能。
審核編輯:郭婷
-
編碼器
+關注
關注
45文章
3646瀏覽量
134657 -
計算機
+關注
關注
19文章
7511瀏覽量
88078
發布評論請先 登錄
相關推薦
評論