醫(yī)學(xué)圖像數(shù)據(jù)很難處理,經(jīng)常包含旋轉(zhuǎn)倒置的圖像。這篇文章介紹如何利用深度學(xué)習(xí)以最小的工作量來(lái)修復(fù)醫(yī)療影像數(shù)據(jù)集,緩解目前構(gòu)建醫(yī)療 AI 系統(tǒng)中收集和清洗數(shù)據(jù)成本大的問(wèn)題。
在醫(yī)學(xué)成像中,數(shù)據(jù)存儲(chǔ)檔案是基于臨床假設(shè)的。不幸的是,這意味著當(dāng)你想要提取一個(gè)圖像時(shí),比如一個(gè)正面的胸部x光片,你通常會(huì)獲得一個(gè)存儲(chǔ)了許多其他圖像的文件夾,并且沒(méi)有簡(jiǎn)單的方法來(lái)對(duì)它們加以區(qū)分。
圖1:這些圖片來(lái)自于相同的文件夾是有道理的,因?yàn)樵诜派鋵W(xué)中我們記錄的是病例而非圖像。這是病人受傷后,同時(shí)掃描的所有身體部位。
根據(jù)機(jī)構(gòu)的不同,你可能會(huì)得到水平或垂直翻轉(zhuǎn)的圖像。它們可能包含反向像素值。他們可能會(huì)旋轉(zhuǎn)。問(wèn)題是,當(dāng)處理一個(gè)巨大的數(shù)據(jù)集,比如5萬(wàn)到十萬(wàn)個(gè)圖像時(shí),你怎么能在沒(méi)有醫(yī)生指導(dǎo)的情況下發(fā)現(xiàn)這些畸變呢?
您可以嘗試編寫(xiě)一些優(yōu)雅的解決方案,比如:因?yàn)榇蠖鄶?shù)胸部X光高度都比寬度高,因此在X光的兩側(cè)有黑色的邊界,所以如果底部有超過(guò)50個(gè)黑色的像素行,那么它可能旋轉(zhuǎn)了90度。
但和往常一樣,我們的經(jīng)驗(yàn)失敗了。
圖2:這里只有中間的圖像有經(jīng)典的“黑色邊框”
這些脆弱的規(guī)則不能解決上述問(wèn)題。
進(jìn)入software 2.0,我們使用機(jī)器學(xué)習(xí)來(lái)構(gòu)建我們無(wú)法自行編碼的解決方案。像旋轉(zhuǎn)的圖像這樣的問(wèn)題是embarrassingly learnable。這意味著機(jī)器可以像人類(lèi)一樣完美地實(shí)現(xiàn)這些任務(wù)。
因此,顯而易見(jiàn)的解決辦法是使用深度學(xué)習(xí)來(lái)為我們修復(fù)數(shù)據(jù)集。在這篇文章中,我將向您展示這些技術(shù)的可應(yīng)用領(lǐng)域,如何用最少的努力做到這一點(diǎn),并展示一些使用方法的示例。舉個(gè)例子,我將使用Wang等人開(kāi)發(fā)的CXR14數(shù)據(jù)集,它看起來(lái)是經(jīng)過(guò)精心策劃的,但有時(shí)仍然包含一些糟糕的圖片。如果你使用CXR14數(shù)據(jù)集,我們甚至可以給你包含430個(gè)新標(biāo)簽的數(shù)據(jù)集,這樣你就不用擔(dān)心那些糟糕的圖片了!
如此尷尬的問(wèn)題
我們真正需要問(wèn)的第一個(gè)問(wèn)題是現(xiàn)在的問(wèn)題是embarrassingly learnable么?
考慮到大多數(shù)的研究都是正常的,你需要一個(gè)非常高的精確度來(lái)防止排除那些“好“的研究。我們應(yīng)該瞄準(zhǔn)99.9%的目標(biāo)。
很酷的一點(diǎn)是,對(duì)于視覺(jué)上可以識(shí)別的問(wèn)題,它很簡(jiǎn)單,我們也可以很好地解決。一個(gè)很好的問(wèn)題是“你能想象一個(gè)單一的視覺(jué)規(guī)則來(lái)解決這個(gè)問(wèn)題嗎?”“ImageNet數(shù)據(jù)集的主要目的就是區(qū)分區(qū)分狗和貓,而解決辦法也肯定不是這樣。
有太多的變化,有太多的相似之處。我經(jīng)常在演講中使用這個(gè)例子:我甚至無(wú)法想象如何編寫(xiě)規(guī)則來(lái)直觀地區(qū)分這兩種類(lèi)型的動(dòng)物。這并不是令人embarrassingly learnable。
但在醫(yī)學(xué)數(shù)據(jù)中,許多問(wèn)題其實(shí)很簡(jiǎn)單。因?yàn)獒t(yī)學(xué)圖像的變化是很小的。解剖學(xué)、角度、光線、距離和背景都很穩(wěn)定。為了說(shuō)明這一點(diǎn),讓我們看一個(gè)來(lái)自CXR14的簡(jiǎn)單示例。在數(shù)據(jù)集中的普通胸部x光中,有一些是旋轉(zhuǎn)的(這在標(biāo)簽中沒(méi)有被識(shí)別,所以我們不知道是哪一個(gè))。它們可以旋轉(zhuǎn)90度左右,或180度的上下顛倒。
這是embarrassingly learnable么?
圖3:旋轉(zhuǎn)和垂直的胸部x光的區(qū)別真的非常簡(jiǎn)單
答案是肯定的。從視覺(jué)上看,異常的研究與正常的研究完全不同。你可以使用一個(gè)簡(jiǎn)單的視覺(jué)規(guī)則,比如“肩膀應(yīng)該高于心臟”,你會(huì)在所有的樣例上得到驗(yàn)證。鑒于解剖學(xué)是非常穩(wěn)定的,而且所有人都有肩膀和心臟,這應(yīng)該是一個(gè)可學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)規(guī)則。
“嗷嗷待哺”的數(shù)據(jù)
我們要問(wèn)的第二個(gè)問(wèn)題是:我們有足夠的訓(xùn)練數(shù)據(jù)嗎?
在旋轉(zhuǎn)圖像的情況下,我們當(dāng)然有足夠的數(shù)據(jù),我們可以進(jìn)行數(shù)據(jù)生成。我們所需要的只是幾千個(gè)普通的胸部x光片,然后隨機(jī)旋轉(zhuǎn)。例如,如果你使用的是numpy數(shù)組,你可能會(huì)使用這樣的函數(shù):
def rotate(image):
rotated_image = np.rot90(image, k = np.random.choice(range(1,4)), axes = (1,2))
return rotated_image
這只是在順時(shí)針?lè)较蛐D(zhuǎn)90 ,180度或270度。在這種情況下通常繞著第二和第三個(gè)軸旋轉(zhuǎn),因?yàn)榈谝粋€(gè)軸是通道的數(shù)量(根據(jù)theano矩陣維度的約定)。
注意:在這種情況下,CXR14數(shù)據(jù)集中幾乎沒(méi)有旋轉(zhuǎn)的圖像,所以不小心地“糾正”了已經(jīng)旋轉(zhuǎn)的圖像的幾率非常小。我們可以假設(shè)數(shù)據(jù)中沒(méi)有旋轉(zhuǎn)圖像,這樣有利于模型的學(xué)習(xí)。如果大量的不正常圖像,那么你最好同時(shí)選擇正常和不正常的圖像。因?yàn)橄裥D(zhuǎn)這樣的問(wèn)題很容易被識(shí)別的,我發(fā)現(xiàn)我可以在一個(gè)小時(shí)內(nèi)給出幾千個(gè)標(biāo)簽,所以這并不需要花費(fèi)太多的精力。由于這些問(wèn)題很簡(jiǎn)單,我經(jīng)常發(fā)現(xiàn)我只需要幾百個(gè)例子來(lái)“解決”這個(gè)挑戰(zhàn)。
所以我們建立了一個(gè)正常圖像的數(shù)據(jù)集,旋轉(zhuǎn)其中的一半,并相應(yīng)地標(biāo)記它們。在我的例子中,我選擇了4000個(gè)訓(xùn)練用例,其中2000個(gè)是旋轉(zhuǎn)的,2000個(gè)驗(yàn)證集案例中有1000個(gè)是經(jīng)過(guò)旋轉(zhuǎn)處理的。這似乎是一個(gè)相當(dāng)數(shù)量的數(shù)據(jù)(記住,根據(jù)經(jīng)驗(yàn)法則,在將誤差考慮在范圍之內(nèi),1000個(gè)例子可能是好的,而且它適合于RAM,所以很容易在我的家用電腦上進(jìn)行訓(xùn)練。
為了在機(jī)器學(xué)習(xí)中有一個(gè)有趣的變化,我不需要一個(gè)單獨(dú)的測(cè)試集。證明在Pudding中可見(jiàn):我將在整個(gè)數(shù)據(jù)集上運(yùn)行這個(gè)模型,并通過(guò)對(duì)數(shù)據(jù)進(jìn)行檢查來(lái)獲得測(cè)試結(jié)果。
總的來(lái)說(shuō),進(jìn)行這類(lèi)工作可以使我們的生活變得輕松。我縮小圖像到256 x 256像素,因?yàn)樾D(zhuǎn)檢測(cè)看起來(lái)不需要高分辨率,我使用一個(gè)經(jīng)過(guò)預(yù)先訓(xùn)練的resnet50,它以keras作為基礎(chǔ)網(wǎng)絡(luò)。對(duì)于使用預(yù)先訓(xùn)練的網(wǎng)絡(luò),并沒(méi)有一個(gè)明確的理由,因?yàn)閹缀跛心闶褂玫木W(wǎng)絡(luò)都會(huì)在一個(gè)簡(jiǎn)單的解決方案上得到收斂,但是它很簡(jiǎn)單,并且不會(huì)導(dǎo)致任何速度的減慢,因?yàn)闊o(wú)論如何訓(xùn)練時(shí)間都是快的。我使用了一組默認(rèn)的參數(shù),因?yàn)槲也粸檫@個(gè)簡(jiǎn)單的任務(wù)需要做任何調(diào)優(yōu)。
您可以使用手邊的任何網(wǎng)絡(luò)和編碼。一個(gè)VGG-net就行。一個(gè)densenet也可以。實(shí)際上,任何網(wǎng)絡(luò)都是可以實(shí)現(xiàn)這個(gè)任務(wù)的。
在幾十輪的迭代后,我在驗(yàn)證集上得到了我期待的結(jié)果:
圖4:AUC = 0.999, ACC = 0.996, PREC = 0.998, REC = 0.994 ?
很好,如果這是一項(xiàng)embarrassingly learnable任務(wù),我發(fā)現(xiàn)的正是我所期待的。
結(jié)果檢驗(yàn)
就像我之前說(shuō)過(guò)的,在醫(yī)學(xué)圖像分析中,我們總是需要檢查我們的結(jié)果。通過(guò)對(duì)照?qǐng)D片,確保模型或過(guò)程實(shí)現(xiàn)了你的目標(biāo)。
因此,最后一步是在整個(gè)數(shù)據(jù)集上運(yùn)行模型,進(jìn)行預(yù)測(cè),然后排除旋轉(zhuǎn)的研究。因?yàn)樵跀?shù)據(jù)中幾乎沒(méi)有旋轉(zhuǎn)的研究,盡管我知道這樣做以后,召回率會(huì)非常高,我可以簡(jiǎn)單地看一下所有被預(yù)測(cè)旋轉(zhuǎn)的圖像。
如果這是一個(gè)有大量異常圖像的問(wèn)題,比方說(shuō)包括了超過(guò)5%的異常數(shù)據(jù),那么收集幾百個(gè)隨機(jī)的案例并手工標(biāo)記一個(gè)測(cè)試集就會(huì)更有效率,然后你就可以跟蹤你的模型在適當(dāng)?shù)闹笜?biāo)上的精確度。
我特別關(guān)心的是任何被認(rèn)為是旋轉(zhuǎn)過(guò)的正常研究(假陽(yáng)性),因?yàn)槲也幌胧ビ袃r(jià)值的訓(xùn)練案例。這實(shí)際上一個(gè)超出你想象的擔(dān)憂,因?yàn)檫@個(gè)模型很可能會(huì)過(guò)度調(diào)用特定類(lèi)型的病例(可能是那些病人懶散和傾斜時(shí)記錄的病例),如果我們排除這些規(guī)則,我們將引入偏差數(shù)據(jù),不再有“真實(shí)世界”的代表數(shù)據(jù)集。這顯然對(duì)醫(yī)療數(shù)據(jù)很重要,因?yàn)槲覀兊哪繕?biāo)是構(gòu)建能夠在真正的診所工作的系統(tǒng)。
該模型總共將171個(gè)案例識(shí)別為“旋轉(zhuǎn)”的圖像。有趣的是,它實(shí)際上是一個(gè)“異?!?a target="_blank">探測(cè)器,識(shí)別出許多實(shí)際上并沒(méi)有旋轉(zhuǎn)的異常情況。這是有道理的,因?yàn)樗赡苁窃趯W(xué)習(xí)解剖學(xué)上的里程碑。任何不正常的東西,比如旋轉(zhuǎn)的電影或其他身體部位的x光,相比較于這場(chǎng)模型都被標(biāo)記了不同的標(biāo)簽。所以我們得到的結(jié)果比找到不正常旋轉(zhuǎn)的圖像要多得多。
在171個(gè)被選中的預(yù)測(cè)中,51個(gè)是被旋轉(zhuǎn)過(guò)的前胸x光片。鑒于患病率低得離譜(120,000個(gè)中有51個(gè)),這已經(jīng)是一個(gè)非常低的假正率了。
圖5:旋轉(zhuǎn)胸片的例子
在剩下的120個(gè)病例中,56個(gè)不是正面的胸片。主要是側(cè)面照和腹部x光片。不管怎樣,我還是想把這些都去掉。
其余的呢?有一種混合的研究,就是圖像包含大量黑色或白色的邊界,淘汰性研究,也就是說(shuō)整個(gè)圖像都是灰色的,反向像素水平的研究,等等。
總的來(lái)說(shuō),有大約10個(gè)研究,我稱(chēng)之為“假陽(yáng)性”(意思是挑出的圖像是我可能想要保存的正面x射線)。值得慶幸的是,即使你想把它們重新加起來(lái),只有171個(gè)預(yù)測(cè),因此容易進(jìn)行人工管理。
所以旋轉(zhuǎn)檢測(cè)器看起來(lái)像是部分地解決了一些其他的問(wèn)題(比如像素值的反轉(zhuǎn))。要知道它有多好,我們需要檢查它是否漏掉了其他壞的情況。我們可以測(cè)試這個(gè),因?yàn)橄袼刂档姆崔D(zhuǎn)很容易生成數(shù)據(jù)(對(duì)于圖像中的x,x=max-x)。
此處需要再一次提及embarrassingly learnable問(wèn)題。在這種情況下,在沒(méi)有機(jī)器學(xué)習(xí)的情況下,可能有一些方法可以做到這一點(diǎn)(柱狀圖應(yīng)該看起來(lái)很不一樣),但這也很簡(jiǎn)單。
那么,這個(gè)特定的探測(cè)器是否發(fā)現(xiàn)了比旋轉(zhuǎn)探測(cè)器更多的逆序呢?是的。旋轉(zhuǎn)探測(cè)器在整個(gè)數(shù)據(jù)集中發(fā)現(xiàn)了4個(gè),而反演探測(cè)器發(fā)現(xiàn)了38個(gè)反向研究。所以旋轉(zhuǎn)探測(cè)器只發(fā)現(xiàn)了部分差的研究。
書(shū)歸正傳:訓(xùn)練單個(gè)模型來(lái)解決每個(gè)問(wèn)題是正確的方法。
所以,我們需要特定的模型來(lái)完成額外的數(shù)據(jù)清洗任務(wù)。
滴水穿石
為了證明少量的標(biāo)簽數(shù)據(jù)是有用的,我使用旋轉(zhuǎn)檢測(cè)器(n=56)拍攝了橫向和不良區(qū)域的影片,并在它們上面訓(xùn)練了一個(gè)新模型。由于我沒(méi)有很多數(shù)據(jù),我決定用HOGwild,并且不使用驗(yàn)證集。由于這些任務(wù)是embarrassingly learnable,一旦它接近100%,它的泛化能力會(huì)有很好的表現(xiàn)。顯然這里有過(guò)度訓(xùn)練的風(fēng)險(xiǎn),但我仍然選擇冒險(xiǎn)。
實(shí)驗(yàn)證明結(jié)果非常好!我還發(fā)現(xiàn)了另外幾百個(gè)側(cè)面圖像,腹部圖像和一些骨盆的圖像。
顯然,如果我從頭開(kāi)始構(gòu)建這個(gè)數(shù)據(jù)集,它解決這個(gè)問(wèn)題會(huì)更容易,因?yàn)槲铱梢垣@得很多相關(guān)的非正面胸部圖像。對(duì)我來(lái)說(shuō),要比現(xiàn)在做得更好,我需要從我當(dāng)?shù)氐尼t(yī)院檔案中提取出一系列的圖像,這超出了這篇文章的論述范圍。所以我不能確定我取得了大部分的成就,但是從這樣一個(gè)小的數(shù)據(jù)集里,這是一個(gè)相當(dāng)不錯(cuò)的努力。
除了關(guān)于CXR14的數(shù)據(jù)外,我注意到的一件事是,我的模型在兒童的圖像上的表現(xiàn)很差。這些兒科圖像在外觀上與成人圖像是不同的,它們被旋轉(zhuǎn)探測(cè)器、倒置探測(cè)器和bad-部分探測(cè)器識(shí)別為“異常”。我建議他們應(yīng)該被忽略,但是隨著病人年齡被包含在標(biāo)簽中,這樣就可以在沒(méi)有深入學(xué)習(xí)的情況下完成??紤]到在5歲以下的數(shù)據(jù)集中,只有286個(gè)病人,我個(gè)人會(huì)把所有的病人排除在外,除非我特別想要研究那個(gè)年齡段的病人并且真正知道我在做什么,從醫(yī)學(xué)成像的角度來(lái)看。實(shí)際上,我可能會(huì)把所有10歲以下的人排除在外,因?yàn)檫@是一個(gè)合理的年齡,可以考慮到體型和病理特征更“成熟”。在10歲以下的人群中,約有1400例,約占1%。
書(shū)歸正傳:
小兒胸部X光與成人非常不同??紤]到低于10歲的數(shù)據(jù)只占大約1%的數(shù)據(jù),除非有很好的理由,否則應(yīng)該排除它們。
糟糕的定位和放大的圖像可能會(huì)成為一個(gè)問(wèn)題,但這是取決任務(wù)的,武斷地定義一個(gè)“壞圖像”對(duì)于所有任務(wù)來(lái)說(shuō)都是不可能的,這不是我想做的。還有一件事是特定于任務(wù)的。
總的來(lái)說(shuō),使用深度學(xué)習(xí)來(lái)解決簡(jiǎn)單的數(shù)據(jù)清理問(wèn)題效果很好。 經(jīng)過(guò)大約一個(gè)小時(shí)的時(shí)間,我已經(jīng)清理了數(shù)據(jù)集中大部分旋轉(zhuǎn)和倒置的圖像。我可能已經(jīng)確定了很大一部分的橫向圖像和其他身體部位的圖像,雖然我確信我需要為他們建立特定的探測(cè)器。如果沒(méi)有原始數(shù)據(jù),這對(duì)于這篇簡(jiǎn)單博客來(lái)說(shuō)太長(zhǎng)了。
從更廣泛的角度來(lái)看CXR14數(shù)據(jù),它沒(méi)有太多的圖像錯(cuò)誤。美國(guó)國(guó)家衛(wèi)生研究院的團(tuán)隊(duì)很好地整理了他們的數(shù)據(jù)。然而在醫(yī)療數(shù)據(jù)集里,情況并非總是如此,如果你想要建立高性能的醫(yī)療人工智能系統(tǒng),就一定需要利用臨床基礎(chǔ)設(shè)施來(lái)處理研究任務(wù)的噪音。
進(jìn)一步考慮
到目前為止,我們已經(jīng)解決了一些非常簡(jiǎn)單的挑戰(zhàn),但并不是我們?cè)卺t(yī)學(xué)成像中遇到的所有問(wèn)題都這么簡(jiǎn)單。
我們的團(tuán)隊(duì)在構(gòu)建大型髖部骨折數(shù)據(jù)集時(shí)應(yīng)用了這些技術(shù)。我們排除了來(lái)自其他身體區(qū)域的圖像,我們排除了植入金屬的病例,如髖關(guān)節(jié)置換,我們還放大了臀部區(qū)域,刪除了與我們的問(wèn)題無(wú)關(guān)的圖像區(qū)域,如髖部骨折不發(fā)生在臀部的情況。
我們是通過(guò)一個(gè)自動(dòng)文本挖掘過(guò)程來(lái)實(shí)現(xiàn)金屬排除的問(wèn)題的,這些假肢幾乎總是在出現(xiàn)的同時(shí)被發(fā)現(xiàn),所以我發(fā)現(xiàn)了與植入物有關(guān)的關(guān)鍵字。這些標(biāo)簽是在10分鐘左右被創(chuàng)建的。
在身體部分的錯(cuò)誤檢測(cè)和錯(cuò)誤的邊界框預(yù)測(cè)的情況下,我們沒(méi)有辦法自動(dòng)生成標(biāo)簽。所以直接進(jìn)行手工處理。即使是像邊界框預(yù)測(cè)這樣復(fù)雜的東西(這確實(shí)是一個(gè)解剖學(xué)上的里程碑式的鑒定任務(wù)),我們只需要大約750個(gè)案例,每個(gè)數(shù)據(jù)集只花了一個(gè)小時(shí)左右的時(shí)間。
在這種情況下,我們使用人工標(biāo)記的測(cè)試集來(lái)對(duì)結(jié)果進(jìn)行量化。從我們的一篇論文中:
考慮到對(duì)骨折問(wèn)題的標(biāo)記需要幾個(gè)月的時(shí)間,花費(fèi)額外的一個(gè)或兩個(gè)小時(shí)來(lái)獲得一個(gè)干凈的數(shù)據(jù)集是一個(gè)很小的代價(jià)。而且該系統(tǒng)現(xiàn)在可以接受任何臨床圖像,并且通過(guò)利用我們的知識(shí)可以自動(dòng)排除無(wú)關(guān)或低質(zhì)量的圖像。這正是一個(gè)醫(yī)學(xué)人工智能系統(tǒng)如何在現(xiàn)實(shí)應(yīng)用的案例,除非你想雇一個(gè)人來(lái)為你處理模型所分析的所有圖像。
總結(jié)
我們都認(rèn)為深度神經(jīng)網(wǎng)絡(luò)和人類(lèi)解決視覺(jué)問(wèn)題一樣好,只要有足夠的數(shù)據(jù)。然而,“足夠的數(shù)據(jù)”在很大程度上取決于任務(wù)的難度。
對(duì)于醫(yī)學(xué)圖像分析問(wèn)題的一個(gè)分支,它是我們?cè)跇?gòu)建醫(yī)學(xué)數(shù)據(jù)集時(shí)經(jīng)常需要解決的問(wèn)題,任務(wù)非常簡(jiǎn)單,這使得問(wèn)題很容易用少量的數(shù)據(jù)來(lái)解決。通常,模型只需要不到一個(gè)小時(shí)的時(shí)間來(lái)識(shí)別圖像,而醫(yī)生卻需要花費(fèi)幾個(gè)小時(shí)的時(shí)間來(lái)對(duì)每個(gè)數(shù)據(jù)集進(jìn)行人工處理。
作為該方法的證明并用于感謝閱讀我博客的讀者,我已經(jīng)提供了一組約430張不良圖像的標(biāo)簽,以排除CXR14數(shù)據(jù)集,并建議排除約1400名10歲以下兒童,除非你真的知道你為什么要保留這些數(shù)據(jù)。這不會(huì)改變?nèi)魏握撐牡慕Y(jié)果,但這些數(shù)據(jù)集的圖像清晰度越高越好。
我在這里所展示的結(jié)論沒(méi)有任何技術(shù)上的創(chuàng)新,這就是為什么我不寫(xiě)一篇相關(guān)的正式論文的原因。但對(duì)于我們這些正在構(gòu)建新數(shù)據(jù)集的人,特別是那些沒(méi)有深度學(xué)習(xí)經(jīng)驗(yàn)的醫(yī)生,我希望這可能會(huì)引發(fā)一些關(guān)于軟件2.0如何能夠以數(shù)量級(jí)的方式解決您的數(shù)據(jù)問(wèn)題的想法,因?yàn)樗仁謩?dòng)方法更省力。目前構(gòu)建令人驚嘆的醫(yī)療AI系統(tǒng)的主要障礙是收集和清理數(shù)據(jù)的巨大成本,在這種情況下,深度神經(jīng)網(wǎng)絡(luò)確實(shí)沒(méi)太大的用處。
我在Windows文件資源管理器中檢查了我所有的圖像!
我在這個(gè)博客文章的結(jié)尾附加了我的地址,我在我的空間中進(jìn)行旋轉(zhuǎn)探測(cè)器的預(yù)測(cè)。
我只是將我想要看到的案例轉(zhuǎn)移到一個(gè)新文件夾,然后打開(kāi)文件夾(使用“超大圖標(biāo)”的視圖模式)。這種尺寸的圖像大約是屏幕高度的四分之一,而且在大多數(shù)屏幕上都大到可以檢測(cè)到旋轉(zhuǎn)等大的異常。當(dāng)我用大的異常標(biāo)記圖像時(shí),我只是按下ctrl鍵點(diǎn)擊文件夾中的所有例子,然后將它們剪切/粘貼到一個(gè)新文件夾中。這就是我如何做到每小時(shí)1000個(gè)數(shù)據(jù)處理的的秘密。
就像這個(gè)系統(tǒng)的janky一樣,它比我從網(wǎng)上的repos或自己編寫(xiě)的大多數(shù)東西都要好得多。
用于移動(dòng)文件的python代碼非常簡(jiǎn)單,但在構(gòu)建數(shù)據(jù)時(shí)是我最常用的代碼,所以我想我應(yīng)該包括它:
pos = rotation_labs[rotation_labs[‘Preds’] > 0.5]
在這種情況下,rotationlabs是一個(gè)panda的dataframe,它存儲(chǔ)圖像索引/文件名和該案例的模型預(yù)測(cè)。我把它的子集變成了一個(gè)只有正例的dataframe。
for i in pos[‘Index’]:
fname = “F:/cxr8/chest xrays/images/” + i
shutil.copy(fname, “F:/cxr8/data building/rotation/”)
所有這些都是將相關(guān)的圖像復(fù)制到我所做的一個(gè)名為“rotation”的文件夾中。
然后我就可以去那個(gè)文件夾看一看。如果我做了一些手工管理,想要把這些圖像重新讀出來(lái),那么它就很簡(jiǎn)單了:
new_list = os.listdir(“F:/cxr8/data building/rotation/”)
-
醫(yī)療影像
+關(guān)注
關(guān)注
1文章
89瀏覽量
19256 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121350
原文標(biāo)題:實(shí)用:用深度學(xué)習(xí)方法修復(fù)醫(yī)學(xué)圖像數(shù)據(jù)集
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論