琅琊榜海宴小说,穿越小说完本 ,盗墓笔记txt全集下载

醫(yī)學(xué)圖像數(shù)據(jù)很難處理，經(jīng)常包含旋轉(zhuǎn)倒置的圖像。這篇文章介紹如何利用深度學(xué)習(xí)以最小的工作量來(lái)修復(fù)醫(yī)療影像數(shù)據(jù)集，緩解目前構(gòu)建醫(yī)療 AI 系統(tǒng)中收集和清洗數(shù)據(jù)成本大的問(wèn)題。

在醫(yī)學(xué)成像中，數(shù)據(jù)存儲(chǔ)檔案是基于臨床假設(shè)的。不幸的是，這意味著當(dāng)你想要提取一個(gè)圖像時(shí)，比如一個(gè)正面的胸部x光片，你通常會(huì)獲得一個(gè)存儲(chǔ)了許多其他圖像的文件夾，并且沒(méi)有簡(jiǎn)單的方法來(lái)對(duì)它們加以區(qū)分。

圖1：這些圖片來(lái)自于相同的文件夾是有道理的，因?yàn)樵诜派鋵W(xué)中我們記錄的是病例而非圖像。這是病人受傷后，同時(shí)掃描的所有身體部位。

根據(jù)機(jī)構(gòu)的不同，你可能會(huì)得到水平或垂直翻轉(zhuǎn)的圖像。它們可能包含反向像素值。他們可能會(huì)旋轉(zhuǎn)。問(wèn)題是，當(dāng)處理一個(gè)巨大的數(shù)據(jù)集，比如5萬(wàn)到十萬(wàn)個(gè)圖像時(shí)，你怎么能在沒(méi)有醫(yī)生指導(dǎo)的情況下發(fā)現(xiàn)這些畸變呢？

您可以嘗試編寫(xiě)一些優(yōu)雅的解決方案，比如：因?yàn)榇蠖鄶?shù)胸部X光高度都比寬度高，因此在X光的兩側(cè)有黑色的邊界，所以如果底部有超過(guò)50個(gè)黑色的像素行，那么它可能旋轉(zhuǎn)了90度。

但和往常一樣，我們的經(jīng)驗(yàn)失敗了。

圖2：這里只有中間的圖像有經(jīng)典的“黑色邊框”

這些脆弱的規(guī)則不能解決上述問(wèn)題。

進(jìn)入software 2.0，我們使用機(jī)器學(xué)習(xí)來(lái)構(gòu)建我們無(wú)法自行編碼的解決方案。像旋轉(zhuǎn)的圖像這樣的問(wèn)題是embarrassingly learnable。這意味著機(jī)器可以像人類(lèi)一樣完美地實(shí)現(xiàn)這些任務(wù)。

因此，顯而易見(jiàn)的解決辦法是使用深度學(xué)習(xí)來(lái)為我們修復(fù)數(shù)據(jù)集。在這篇文章中，我將向您展示這些技術(shù)的可應(yīng)用領(lǐng)域，如何用最少的努力做到這一點(diǎn)，并展示一些使用方法的示例。舉個(gè)例子，我將使用Wang等人開(kāi)發(fā)的CXR14數(shù)據(jù)集，它看起來(lái)是經(jīng)過(guò)精心策劃的，但有時(shí)仍然包含一些糟糕的圖片。如果你使用CXR14數(shù)據(jù)集，我們甚至可以給你包含430個(gè)新標(biāo)簽的數(shù)據(jù)集，這樣你就不用擔(dān)心那些糟糕的圖片了！

如此尷尬的問(wèn)題

我們真正需要問(wèn)的第一個(gè)問(wèn)題是現(xiàn)在的問(wèn)題是embarrassingly learnable么？

考慮到大多數(shù)的研究都是正常的，你需要一個(gè)非常高的精確度來(lái)防止排除那些“好“的研究。我們應(yīng)該瞄準(zhǔn)99.9%的目標(biāo)。

很酷的一點(diǎn)是，對(duì)于視覺(jué)上可以識(shí)別的問(wèn)題，它很簡(jiǎn)單，我們也可以很好地解決。一個(gè)很好的問(wèn)題是“你能想象一個(gè)單一的視覺(jué)規(guī)則來(lái)解決這個(gè)問(wèn)題嗎？”“ImageNet數(shù)據(jù)集的主要目的就是區(qū)分區(qū)分狗和貓，而解決辦法也肯定不是這樣。

有太多的變化，有太多的相似之處。我經(jīng)常在演講中使用這個(gè)例子：我甚至無(wú)法想象如何編寫(xiě)規(guī)則來(lái)直觀地區(qū)分這兩種類(lèi)型的動(dòng)物。這并不是令人embarrassingly learnable。

但在醫(yī)學(xué)數(shù)據(jù)中，許多問(wèn)題其實(shí)很簡(jiǎn)單。因?yàn)獒t(yī)學(xué)圖像的變化是很小的。解剖學(xué)、角度、光線、距離和背景都很穩(wěn)定。為了說(shuō)明這一點(diǎn)，讓我們看一個(gè)來(lái)自CXR14的簡(jiǎn)單示例。在數(shù)據(jù)集中的普通胸部x光中，有一些是旋轉(zhuǎn)的（這在標(biāo)簽中沒(méi)有被識(shí)別，所以我們不知道是哪一個(gè)）。它們可以旋轉(zhuǎn)90度左右，或180度的上下顛倒。

這是embarrassingly learnable么?

圖3：旋轉(zhuǎn)和垂直的胸部x光的區(qū)別真的非常簡(jiǎn)單

答案是肯定的。從視覺(jué)上看，異常的研究與正常的研究完全不同。你可以使用一個(gè)簡(jiǎn)單的視覺(jué)規(guī)則，比如“肩膀應(yīng)該高于心臟”，你會(huì)在所有的樣例上得到驗(yàn)證。鑒于解剖學(xué)是非常穩(wěn)定的，而且所有人都有肩膀和心臟，這應(yīng)該是一個(gè)可學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)規(guī)則。

“嗷嗷待哺”的數(shù)據(jù)

我們要問(wèn)的第二個(gè)問(wèn)題是：我們有足夠的訓(xùn)練數(shù)據(jù)嗎？

在旋轉(zhuǎn)圖像的情況下，我們當(dāng)然有足夠的數(shù)據(jù)，我們可以進(jìn)行數(shù)據(jù)生成。我們所需要的只是幾千個(gè)普通的胸部x光片，然后隨機(jī)旋轉(zhuǎn)。例如，如果你使用的是numpy數(shù)組，你可能會(huì)使用這樣的函數(shù)：

def rotate(image):

rotated_image = np.rot90(image, k = np.random.choice(range(1,4)), axes = (1,2))

return rotated_image

這只是在順時(shí)針?lè)较蛐D(zhuǎn)90 ，180度或270度。在這種情況下通常繞著第二和第三個(gè)軸旋轉(zhuǎn)，因?yàn)榈谝粋€(gè)軸是通道的數(shù)量（根據(jù)theano矩陣維度的約定）。

注意：在這種情況下，CXR14數(shù)據(jù)集中幾乎沒(méi)有旋轉(zhuǎn)的圖像，所以不小心地“糾正”了已經(jīng)旋轉(zhuǎn)的圖像的幾率非常小。我們可以假設(shè)數(shù)據(jù)中沒(méi)有旋轉(zhuǎn)圖像，這樣有利于模型的學(xué)習(xí)。如果大量的不正常圖像，那么你最好同時(shí)選擇正常和不正常的圖像。因?yàn)橄裥D(zhuǎn)這樣的問(wèn)題很容易被識(shí)別的，我發(fā)現(xiàn)我可以在一個(gè)小時(shí)內(nèi)給出幾千個(gè)標(biāo)簽，所以這并不需要花費(fèi)太多的精力。由于這些問(wèn)題很簡(jiǎn)單，我經(jīng)常發(fā)現(xiàn)我只需要幾百個(gè)例子來(lái)“解決”這個(gè)挑戰(zhàn)。

所以我們建立了一個(gè)正常圖像的數(shù)據(jù)集，旋轉(zhuǎn)其中的一半，并相應(yīng)地標(biāo)記它們。在我的例子中，我選擇了4000個(gè)訓(xùn)練用例，其中2000個(gè)是旋轉(zhuǎn)的，2000個(gè)驗(yàn)證集案例中有1000個(gè)是經(jīng)過(guò)旋轉(zhuǎn)處理的。這似乎是一個(gè)相當(dāng)數(shù)量的數(shù)據(jù)（記住，根據(jù)經(jīng)驗(yàn)法則，在將誤差考慮在范圍之內(nèi)，1000個(gè)例子可能是好的，而且它適合于RAM，所以很容易在我的家用電腦上進(jìn)行訓(xùn)練。

為了在機(jī)器學(xué)習(xí)中有一個(gè)有趣的變化，我不需要一個(gè)單獨(dú)的測(cè)試集。證明在Pudding中可見(jiàn)：我將在整個(gè)數(shù)據(jù)集上運(yùn)行這個(gè)模型，并通過(guò)對(duì)數(shù)據(jù)進(jìn)行檢查來(lái)獲得測(cè)試結(jié)果。

總的來(lái)說(shuō)，進(jìn)行這類(lèi)工作可以使我們的生活變得輕松。我縮小圖像到256 x 256像素，因?yàn)樾D(zhuǎn)檢測(cè)看起來(lái)不需要高分辨率，我使用一個(gè)經(jīng)過(guò)預(yù)先訓(xùn)練的resnet50，它以keras作為基礎(chǔ)網(wǎng)絡(luò)。對(duì)于使用預(yù)先訓(xùn)練的網(wǎng)絡(luò)，并沒(méi)有一個(gè)明確的理由，因?yàn)閹缀跛心闶褂玫木W(wǎng)絡(luò)都會(huì)在一個(gè)簡(jiǎn)單的解決方案上得到收斂，但是它很簡(jiǎn)單，并且不會(huì)導(dǎo)致任何速度的減慢，因?yàn)闊o(wú)論如何訓(xùn)練時(shí)間都是快的。我使用了一組默認(rèn)的參數(shù)，因?yàn)槲也粸檫@個(gè)簡(jiǎn)單的任務(wù)需要做任何調(diào)優(yōu)。

您可以使用手邊的任何網(wǎng)絡(luò)和編碼。一個(gè)VGG-net就行。一個(gè)densenet也可以。實(shí)際上，任何網(wǎng)絡(luò)都是可以實(shí)現(xiàn)這個(gè)任務(wù)的。

在幾十輪的迭代后，我在驗(yàn)證集上得到了我期待的結(jié)果：

圖4：AUC = 0.999, ACC = 0.996, PREC = 0.998, REC = 0.994 ?

很好，如果這是一項(xiàng)embarrassingly learnable任務(wù)，我發(fā)現(xiàn)的正是我所期待的。

結(jié)果檢驗(yàn)

就像我之前說(shuō)過(guò)的，在醫(yī)學(xué)圖像分析中，我們總是需要檢查我們的結(jié)果。通過(guò)對(duì)照?qǐng)D片，確保模型或過(guò)程實(shí)現(xiàn)了你的目標(biāo)。

因此，最后一步是在整個(gè)數(shù)據(jù)集上運(yùn)行模型，進(jìn)行預(yù)測(cè)，然后排除旋轉(zhuǎn)的研究。因?yàn)樵跀?shù)據(jù)中幾乎沒(méi)有旋轉(zhuǎn)的研究，盡管我知道這樣做以后，召回率會(huì)非常高，我可以簡(jiǎn)單地看一下所有被預(yù)測(cè)旋轉(zhuǎn)的圖像。

如果這是一個(gè)有大量異常圖像的問(wèn)題，比方說(shuō)包括了超過(guò)5%的異常數(shù)據(jù)，那么收集幾百個(gè)隨機(jī)的案例并手工標(biāo)記一個(gè)測(cè)試集就會(huì)更有效率，然后你就可以跟蹤你的模型在適當(dāng)?shù)闹笜?biāo)上的精確度。

我特別關(guān)心的是任何被認(rèn)為是旋轉(zhuǎn)過(guò)的正常研究（假陽(yáng)性），因?yàn)槲也幌胧ビ袃r(jià)值的訓(xùn)練案例。這實(shí)際上一個(gè)超出你想象的擔(dān)憂，因?yàn)檫@個(gè)模型很可能會(huì)過(guò)度調(diào)用特定類(lèi)型的病例（可能是那些病人懶散和傾斜時(shí)記錄的病例），如果我們排除這些規(guī)則，我們將引入偏差數(shù)據(jù)，不再有“真實(shí)世界”的代表數(shù)據(jù)集。這顯然對(duì)醫(yī)療數(shù)據(jù)很重要，因?yàn)槲覀兊哪繕?biāo)是構(gòu)建能夠在真正的診所工作的系統(tǒng)。

該模型總共將171個(gè)案例識(shí)別為“旋轉(zhuǎn)”的圖像。有趣的是，它實(shí)際上是一個(gè)“異?！?a target="_blank">探測(cè)器，識(shí)別出許多實(shí)際上并沒(méi)有旋轉(zhuǎn)的異常情況。這是有道理的，因?yàn)樗赡苁窃趯W(xué)習(xí)解剖學(xué)上的里程碑。任何不正常的東西，比如旋轉(zhuǎn)的電影或其他身體部位的x光，相比較于這場(chǎng)模型都被標(biāo)記了不同的標(biāo)簽。所以我們得到的結(jié)果比找到不正常旋轉(zhuǎn)的圖像要多得多。

在171個(gè)被選中的預(yù)測(cè)中，51個(gè)是被旋轉(zhuǎn)過(guò)的前胸x光片。鑒于患病率低得離譜（120,000個(gè)中有51個(gè)），這已經(jīng)是一個(gè)非常低的假正率了。

圖5：旋轉(zhuǎn)胸片的例子

在剩下的120個(gè)病例中，56個(gè)不是正面的胸片。主要是側(cè)面照和腹部x光片。不管怎樣，我還是想把這些都去掉。

其余的呢?有一種混合的研究，就是圖像包含大量黑色或白色的邊界，淘汰性研究，也就是說(shuō)整個(gè)圖像都是灰色的，反向像素水平的研究，等等。

總的來(lái)說(shuō)，有大約10個(gè)研究，我稱(chēng)之為“假陽(yáng)性”（意思是挑出的圖像是我可能想要保存的正面x射線）。值得慶幸的是，即使你想把它們重新加起來(lái)，只有171個(gè)預(yù)測(cè)，因此容易進(jìn)行人工管理。

所以旋轉(zhuǎn)檢測(cè)器看起來(lái)像是部分地解決了一些其他的問(wèn)題（比如像素值的反轉(zhuǎn)）。要知道它有多好，我們需要檢查它是否漏掉了其他壞的情況。我們可以測(cè)試這個(gè)，因?yàn)橄袼刂档姆崔D(zhuǎn)很容易生成數(shù)據(jù)（對(duì)于圖像中的x，x=max-x）。

此處需要再一次提及embarrassingly learnable問(wèn)題。在這種情況下，在沒(méi)有機(jī)器學(xué)習(xí)的情況下，可能有一些方法可以做到這一點(diǎn)（柱狀圖應(yīng)該看起來(lái)很不一樣），但這也很簡(jiǎn)單。

那么，這個(gè)特定的探測(cè)器是否發(fā)現(xiàn)了比旋轉(zhuǎn)探測(cè)器更多的逆序呢？是的。旋轉(zhuǎn)探測(cè)器在整個(gè)數(shù)據(jù)集中發(fā)現(xiàn)了4個(gè)，而反演探測(cè)器發(fā)現(xiàn)了38個(gè)反向研究。所以旋轉(zhuǎn)探測(cè)器只發(fā)現(xiàn)了部分差的研究。

書(shū)歸正傳：訓(xùn)練單個(gè)模型來(lái)解決每個(gè)問(wèn)題是正確的方法。

所以，我們需要特定的模型來(lái)完成額外的數(shù)據(jù)清洗任務(wù)。

滴水穿石

為了證明少量的標(biāo)簽數(shù)據(jù)是有用的，我使用旋轉(zhuǎn)檢測(cè)器（n=56）拍攝了橫向和不良區(qū)域的影片，并在它們上面訓(xùn)練了一個(gè)新模型。由于我沒(méi)有很多數(shù)據(jù)，我決定用HOGwild，并且不使用驗(yàn)證集。由于這些任務(wù)是embarrassingly learnable，一旦它接近100％，它的泛化能力會(huì)有很好的表現(xiàn)。顯然這里有過(guò)度訓(xùn)練的風(fēng)險(xiǎn)，但我仍然選擇冒險(xiǎn)。

實(shí)驗(yàn)證明結(jié)果非常好！我還發(fā)現(xiàn)了另外幾百個(gè)側(cè)面圖像，腹部圖像和一些骨盆的圖像。

顯然，如果我從頭開(kāi)始構(gòu)建這個(gè)數(shù)據(jù)集，它解決這個(gè)問(wèn)題會(huì)更容易，因?yàn)槲铱梢垣@得很多相關(guān)的非正面胸部圖像。對(duì)我來(lái)說(shuō)，要比現(xiàn)在做得更好，我需要從我當(dāng)?shù)氐尼t(yī)院檔案中提取出一系列的圖像，這超出了這篇文章的論述范圍。所以我不能確定我取得了大部分的成就，但是從這樣一個(gè)小的數(shù)據(jù)集里，這是一個(gè)相當(dāng)不錯(cuò)的努力。

除了關(guān)于CXR14的數(shù)據(jù)外，我注意到的一件事是，我的模型在兒童的圖像上的表現(xiàn)很差。這些兒科圖像在外觀上與成人圖像是不同的，它們被旋轉(zhuǎn)探測(cè)器、倒置探測(cè)器和bad-部分探測(cè)器識(shí)別為“異常”。我建議他們應(yīng)該被忽略，但是隨著病人年齡被包含在標(biāo)簽中，這樣就可以在沒(méi)有深入學(xué)習(xí)的情況下完成?？紤]到在5歲以下的數(shù)據(jù)集中，只有286個(gè)病人，我個(gè)人會(huì)把所有的病人排除在外，除非我特別想要研究那個(gè)年齡段的病人并且真正知道我在做什么，從醫(yī)學(xué)成像的角度來(lái)看。實(shí)際上，我可能會(huì)把所有10歲以下的人排除在外，因?yàn)檫@是一個(gè)合理的年齡，可以考慮到體型和病理特征更“成熟”。在10歲以下的人群中，約有1400例，約占1%。

書(shū)歸正傳：

小兒胸部X光與成人非常不同?？紤]到低于10歲的數(shù)據(jù)只占大約1％的數(shù)據(jù)，除非有很好的理由，否則應(yīng)該排除它們。

糟糕的定位和放大的圖像可能會(huì)成為一個(gè)問(wèn)題，但這是取決任務(wù)的，武斷地定義一個(gè)“壞圖像”對(duì)于所有任務(wù)來(lái)說(shuō)都是不可能的，這不是我想做的。還有一件事是特定于任務(wù)的。

總的來(lái)說(shuō)，使用深度學(xué)習(xí)來(lái)解決簡(jiǎn)單的數(shù)據(jù)清理問(wèn)題效果很好。經(jīng)過(guò)大約一個(gè)小時(shí)的時(shí)間，我已經(jīng)清理了數(shù)據(jù)集中大部分旋轉(zhuǎn)和倒置的圖像。我可能已經(jīng)確定了很大一部分的橫向圖像和其他身體部位的圖像，雖然我確信我需要為他們建立特定的探測(cè)器。如果沒(méi)有原始數(shù)據(jù)，這對(duì)于這篇簡(jiǎn)單博客來(lái)說(shuō)太長(zhǎng)了。

從更廣泛的角度來(lái)看CXR14數(shù)據(jù)，它沒(méi)有太多的圖像錯(cuò)誤。美國(guó)國(guó)家衛(wèi)生研究院的團(tuán)隊(duì)很好地整理了他們的數(shù)據(jù)。然而在醫(yī)療數(shù)據(jù)集里，情況并非總是如此，如果你想要建立高性能的醫(yī)療人工智能系統(tǒng)，就一定需要利用臨床基礎(chǔ)設(shè)施來(lái)處理研究任務(wù)的噪音。

進(jìn)一步考慮

到目前為止，我們已經(jīng)解決了一些非常簡(jiǎn)單的挑戰(zhàn)，但并不是我們?cè)卺t(yī)學(xué)成像中遇到的所有問(wèn)題都這么簡(jiǎn)單。

我們的團(tuán)隊(duì)在構(gòu)建大型髖部骨折數(shù)據(jù)集時(shí)應(yīng)用了這些技術(shù)。我們排除了來(lái)自其他身體區(qū)域的圖像，我們排除了植入金屬的病例，如髖關(guān)節(jié)置換，我們還放大了臀部區(qū)域，刪除了與我們的問(wèn)題無(wú)關(guān)的圖像區(qū)域，如髖部骨折不發(fā)生在臀部的情況。

我們是通過(guò)一個(gè)自動(dòng)文本挖掘過(guò)程來(lái)實(shí)現(xiàn)金屬排除的問(wèn)題的，這些假肢幾乎總是在出現(xiàn)的同時(shí)被發(fā)現(xiàn)，所以我發(fā)現(xiàn)了與植入物有關(guān)的關(guān)鍵字。這些標(biāo)簽是在10分鐘左右被創(chuàng)建的。

在身體部分的錯(cuò)誤檢測(cè)和錯(cuò)誤的邊界框預(yù)測(cè)的情況下，我們沒(méi)有辦法自動(dòng)生成標(biāo)簽。所以直接進(jìn)行手工處理。即使是像邊界框預(yù)測(cè)這樣復(fù)雜的東西（這確實(shí)是一個(gè)解剖學(xué)上的里程碑式的鑒定任務(wù)），我們只需要大約750個(gè)案例，每個(gè)數(shù)據(jù)集只花了一個(gè)小時(shí)左右的時(shí)間。

在這種情況下，我們使用人工標(biāo)記的測(cè)試集來(lái)對(duì)結(jié)果進(jìn)行量化。從我們的一篇論文中：

考慮到對(duì)骨折問(wèn)題的標(biāo)記需要幾個(gè)月的時(shí)間，花費(fèi)額外的一個(gè)或兩個(gè)小時(shí)來(lái)獲得一個(gè)干凈的數(shù)據(jù)集是一個(gè)很小的代價(jià)。而且該系統(tǒng)現(xiàn)在可以接受任何臨床圖像，并且通過(guò)利用我們的知識(shí)可以自動(dòng)排除無(wú)關(guān)或低質(zhì)量的圖像。這正是一個(gè)醫(yī)學(xué)人工智能系統(tǒng)如何在現(xiàn)實(shí)應(yīng)用的案例，除非你想雇一個(gè)人來(lái)為你處理模型所分析的所有圖像。

總結(jié)

我們都認(rèn)為深度神經(jīng)網(wǎng)絡(luò)和人類(lèi)解決視覺(jué)問(wèn)題一樣好，只要有足夠的數(shù)據(jù)。然而，“足夠的數(shù)據(jù)”在很大程度上取決于任務(wù)的難度。

對(duì)于醫(yī)學(xué)圖像分析問(wèn)題的一個(gè)分支，它是我們?cè)跇?gòu)建醫(yī)學(xué)數(shù)據(jù)集時(shí)經(jīng)常需要解決的問(wèn)題，任務(wù)非常簡(jiǎn)單，這使得問(wèn)題很容易用少量的數(shù)據(jù)來(lái)解決。通常，模型只需要不到一個(gè)小時(shí)的時(shí)間來(lái)識(shí)別圖像，而醫(yī)生卻需要花費(fèi)幾個(gè)小時(shí)的時(shí)間來(lái)對(duì)每個(gè)數(shù)據(jù)集進(jìn)行人工處理。

作為該方法的證明并用于感謝閱讀我博客的讀者，我已經(jīng)提供了一組約430張不良圖像的標(biāo)簽，以排除CXR14數(shù)據(jù)集，并建議排除約1400名10歲以下兒童，除非你真的知道你為什么要保留這些數(shù)據(jù)。這不會(huì)改變?nèi)魏握撐牡慕Y(jié)果，但這些數(shù)據(jù)集的圖像清晰度越高越好。

我在這里所展示的結(jié)論沒(méi)有任何技術(shù)上的創(chuàng)新，這就是為什么我不寫(xiě)一篇相關(guān)的正式論文的原因。但對(duì)于我們這些正在構(gòu)建新數(shù)據(jù)集的人，特別是那些沒(méi)有深度學(xué)習(xí)經(jīng)驗(yàn)的醫(yī)生，我希望這可能會(huì)引發(fā)一些關(guān)于軟件2.0如何能夠以數(shù)量級(jí)的方式解決您的數(shù)據(jù)問(wèn)題的想法，因?yàn)樗仁謩?dòng)方法更省力。目前構(gòu)建令人驚嘆的醫(yī)療AI系統(tǒng)的主要障礙是收集和清理數(shù)據(jù)的巨大成本，在這種情況下，深度神經(jīng)網(wǎng)絡(luò)確實(shí)沒(méi)太大的用處。

我在Windows文件資源管理器中檢查了我所有的圖像！

我在這個(gè)博客文章的結(jié)尾附加了我的地址，我在我的空間中進(jìn)行旋轉(zhuǎn)探測(cè)器的預(yù)測(cè)。

我只是將我想要看到的案例轉(zhuǎn)移到一個(gè)新文件夾，然后打開(kāi)文件夾（使用“超大圖標(biāo)”的視圖模式）。這種尺寸的圖像大約是屏幕高度的四分之一，而且在大多數(shù)屏幕上都大到可以檢測(cè)到旋轉(zhuǎn)等大的異常。當(dāng)我用大的異常標(biāo)記圖像時(shí)，我只是按下ctrl鍵點(diǎn)擊文件夾中的所有例子，然后將它們剪切/粘貼到一個(gè)新文件夾中。這就是我如何做到每小時(shí)1000個(gè)數(shù)據(jù)處理的的秘密。

就像這個(gè)系統(tǒng)的janky一樣，它比我從網(wǎng)上的repos或自己編寫(xiě)的大多數(shù)東西都要好得多。

用于移動(dòng)文件的python代碼非常簡(jiǎn)單，但在構(gòu)建數(shù)據(jù)時(shí)是我最常用的代碼，所以我想我應(yīng)該包括它：

pos = rotation_labs[rotation_labs[‘Preds’] > 0.5]

在這種情況下，rotationlabs是一個(gè)panda的dataframe，它存儲(chǔ)圖像索引/文件名和該案例的模型預(yù)測(cè)。我把它的子集變成了一個(gè)只有正例的dataframe。

for i in pos[‘Index’]:

fname = “F:/cxr8/chest xrays/images/” + i

shutil.copy(fname, “F:/cxr8/data building/rotation/”)

所有這些都是將相關(guān)的圖像復(fù)制到我所做的一個(gè)名為“rotation”的文件夾中。

然后我就可以去那個(gè)文件夾看一看。如果我做了一些手工管理，想要把這些圖像重新讀出來(lái)，那么它就很簡(jiǎn)單了：

new_list = os.listdir(“F:/cxr8/data building/rotation/”)

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

醫(yī)療影像

醫(yī)療影像

+關(guān)注

關(guān)注
1

文章
89

瀏覽量
19256
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5511

瀏覽量
121350

原文標(biāo)題：實(shí)用：用深度學(xué)習(xí)方法修復(fù)醫(yī)學(xué)圖像數(shù)據(jù)集

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

#硬聲創(chuàng)作季 #深度學(xué)習(xí) 深度學(xué)習(xí)基礎(chǔ)-1.2.1 數(shù)據(jù)集及其拆分

數(shù)據(jù)集深度學(xué)習(xí)

水管工

發(fā)布于 :2022年10月27日 17:48:02

2017全國(guó)深度學(xué)習(xí)技術(shù)應(yīng)用大會(huì)

?！　?4、報(bào)告題目：深度學(xué)習(xí)與醫(yī)療影像大數(shù)據(jù)分析　　報(bào) 告人：趙地，中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心(CNIC)，副研究員　　報(bào)告摘要：

發(fā)表于 03-22 17:16

深度學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系

;而深度學(xué)習(xí)使用獨(dú)立的層、連接，還有數(shù)據(jù)傳播方向，比如最近大火的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法，它利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提

發(fā)表于 07-04 16:07

計(jì)算機(jī)視覺(jué)/深度學(xué)習(xí)領(lǐng)域常用數(shù)據(jù)集匯總

`深度學(xué)習(xí)領(lǐng)域的“Hello World!”，入門(mén)必備！MNIST是一個(gè)手寫(xiě)數(shù)字數(shù)據(jù)庫(kù)，它有60000個(gè)訓(xùn)練樣本集和10000個(gè)測(cè)試樣本集，每個(gè)樣本圖像的寬高為28*28。此數(shù)據(jù)

發(fā)表于 08-29 10:36

深度學(xué)習(xí)中開(kāi)發(fā)集和測(cè)試集的定義

集圖片均取自網(wǎng)站，這就導(dǎo)致了算法不能夠很好地泛化（generalize）到我們所關(guān)心的手機(jī)圖片的實(shí)際分布（actual distribution）情況上。在大數(shù)據(jù)時(shí)代來(lái)臨前，機(jī)器學(xué)習(xí)中的普遍做法

發(fā)表于 11-30 16:58

如何利用FPGA實(shí)現(xiàn)醫(yī)療影像設(shè)計(jì)？

推動(dòng)力量。為實(shí)現(xiàn)這些行業(yè)目標(biāo)所需要的功能，設(shè)備開(kāi)發(fā)人員開(kāi)始采用提供FPGA支持、可更新的現(xiàn)成商用(COTS) CPU平臺(tái)進(jìn)行數(shù)據(jù)采集和協(xié)處理。在靈活高效地開(kāi)發(fā)可更新醫(yī)療影像設(shè)備時(shí)，需要考慮幾個(gè)因素，包括

發(fā)表于 08-23 08:21

怎么利用FPGA實(shí)現(xiàn)醫(yī)療影像？

發(fā)表于 08-26 06:29

如何開(kāi)發(fā)醫(yī)療影像的算法？

醫(yī)療影像技術(shù)在醫(yī)療保健行業(yè)扮演了越來(lái)越重要的角色。這一行業(yè)的發(fā)展趨勢(shì)是通過(guò)非置入手段來(lái)實(shí)現(xiàn)早期疾病預(yù)測(cè)和治療，降低病人開(kāi)支。多種診斷影像方法的融合以及算法開(kāi)發(fā)的進(jìn)步是設(shè)計(jì)新設(shè)備來(lái)滿足病

發(fā)表于 10-11 06:11

醫(yī)療影像的算法有哪些？

發(fā)表于 10-15 07:34

深度學(xué)習(xí)入門(mén)之中根據(jù)源代碼下載到mnist數(shù)據(jù)集,訓(xùn)練識(shí)別率超級(jí)低問(wèn)題

深度學(xué)習(xí)入門(mén) 中根據(jù)源代碼下載到mnist數(shù)據(jù)集,訓(xùn)練識(shí)別率超級(jí)低問(wèn)題

發(fā)表于 07-08 16:53

什么是智能影像辨識(shí)系統(tǒng)？

深度學(xué)習(xí)(Deep Learning)在各種不同應(yīng)用領(lǐng)域上強(qiáng)大的效能令人驚嘆，影像辨識(shí)是目前深度學(xué)習(xí)技術(shù)應(yīng)用最廣泛的，大量的數(shù)字

發(fā)表于 06-15 07:51

谷歌FHIR標(biāo)準(zhǔn)協(xié)議利用深度學(xué)習(xí)預(yù)測(cè)醫(yī)療事件發(fā)生

使用電子健康記錄（EHR）數(shù)據(jù)的預(yù)測(cè)建模預(yù)計(jì)將推動(dòng)個(gè)人化醫(yī)療并提高醫(yī)療質(zhì)量。谷歌發(fā)布消息稱(chēng)已經(jīng)開(kāi)源該協(xié)議緩沖區(qū)工具。谷歌FHIR標(biāo)準(zhǔn)協(xié)議利用深度

發(fā)表于 03-07 17:14 ?8046次閱讀

醫(yī)學(xué)影像AI進(jìn)入后深度學(xué)習(xí)時(shí)代市場(chǎng)規(guī)模不斷擴(kuò)大

深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域的突破使得在醫(yī)療影像中應(yīng)用AI技術(shù)進(jìn)行輔助診斷即將普及，在后深度學(xué)習(xí)時(shí)代，

發(fā)表于 05-24 16:47 ?2819次閱讀

基于深度學(xué)習(xí)的圖像修復(fù)模型及實(shí)驗(yàn)對(duì)比

深度學(xué)習(xí)技術(shù)在解決¨大面積缺失圖像修復(fù)”問(wèn)題時(shí)具有重要作用并帶來(lái)了深遠(yuǎn)影響，文中在簡(jiǎn)要介紹傳統(tǒng)圖像修復(fù)方法的基礎(chǔ)上，重點(diǎn)介紹了基于深度

發(fā)表于 04-08 09:38 ?20次下載

基于深度學(xué)習(xí)的遙感影像典型要素提取方法

為提取髙分辨率遙感影像的典型要素（建筑物及道路），基于深度學(xué)習(xí)，提出一種語(yǔ)義分割與全連接條件隨機(jī)場(chǎng)（CRF）相結(jié)合的提取方法。以 Deeplabv3+作為語(yǔ)義分割模型，提取較完整圖像分割信息，并將

發(fā)表于 06-03 10:29 ?4次下載

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何利用深度學(xué)習(xí)修復(fù)醫(yī)療影像數(shù)據(jù)集