AI在醫療中的應用場景十分復雜也十分重要,包括疾病的診斷、預測、治療和管理等。有感于 “搞人工智能技術的人不知道醫療里重要又可解的問題是什么,搞醫療的人不知道技術究竟能幫到什么程度”,前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢,帶來詳細解讀。
去年寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》,原本計劃要寫個 “連續劇” 的,后來諸多事情就耽誤了。一晃快一年了,現在推出第二篇,疾病預測技術的概念、方法和趨勢,淺析前文中提到的疾病預測技術的核心概念、主要方法和發展趨勢。
疾病預測的核心概念
疾病風險預測核心解決的問題是預測個體在未來一段時間內患某種疾?。ɑ虬l生某種事件)的風險概率。疾病預測會根據某個人群定義,例如全人群、房顫人群、心梗住院人群等,針對某個預測目標,例如腦卒中、心衰、死亡等,設定特定的時間窗口,包括做出預測的時間點,和將要預測的時間窗,預測目標的發生概率。
利用真實世界數據進行疾病預測面臨如下一些技術挑戰:
數據質量差:電子病歷數據中很多字段有缺失,導致關鍵特征無法提取;甚至有無意或有意的輸入錯誤,給數據分析造成了噪音。
數據維度高:醫療的數據涉及患者的病情主訴、既往病史、家族遺傳史、個人史、體格檢查信息、診斷、檢驗、檢查、用藥和手術等方面。一個疾病登記庫中每位患者的數據往往達到 2000 維,而真實電子病歷的數據甚至會達到幾萬維。如此高維度、稀疏的數據給預測帶來了挑戰。
數據時序性:患者在一段時間內會有持續的醫療記錄,如住院期間的多次記錄,或者一年內的多次門診記錄。如果涉及可穿戴式設備收集的實時數據,更是每分每秒都在變化。為了從數據中更好的提煉預測信號,必須對數據的時間序列信息進行分析挖掘。
數據不均衡:很多疾病的發病率都不高,比如房顫患者發生腦卒中的平均概率是 10%,腦卒中患者出院后導致殘疾的平均概率是 4%。造成數據中正例相對較少,很不均衡,對機器學習算法的要求更高。
疾病預測的主要方法
疾病預測的主要方法可以簡單的分為經典回歸方法、機器學習方法和深度學習方法三大類。下面分別用三篇論文舉例介紹一下。
基于經典回歸方法的疾病預測
傳統的疾病風險預測主要基于 Cox 比例風險回歸模型(簡稱 Cox 模型)及邏輯回歸模型。例如,[Wang et al. 2003] 發表于 JAMA 的文章利用 Cox 模型,基于弗雷明漢(Framingham)心臟研究來建立房顫患者發生腦卒中及死亡的風險預測模型,方法流程見圖 1。該研究用患者在確診房顫前最近一次檢查的數據作為風險因素的基線數據,觀測的起點為房顫確診,觀測時間窗為 10 年。基于之前房顫預測腦卒中的研究,兩個非常重要的連續變量,即年齡和收縮壓被直接放入了多變量模型。其他的風險因子采用逐步回歸法確定,符合檢驗標準 P<0.10 的變量會被放入模型,包括服用抗壓藥物、有心肌梗塞或充血性心臟衰竭病史(在確診房顫前)、有卒中或短暫性腦缺血發作史(在確診房顫前)、吸煙、心電圖判斷的左心室肥厚、糖尿病和臨床性心臟瓣膜病。
圖 1 基于 Cox 回歸的腦卒中及死亡風險預測
該研究 [Wang et al. 2003] 的統計分析方法采用了 Cox 比例風險模型(proportional hazards model),是由英國統計學家 D.R. Cox 提出的一種半參數回歸模型。該模型以生存結局和生存時間為應變量,可同時分析多個因素對生存期的影響,能分析帶有刪失生存時間的數據,且不要求估計數據的生存分布類型。Cox 模型在醫學研究中得到了廣泛的應用,是傳統生存分析和風險預測中應用最多的多因素回歸分析方法。
腦卒中預測模型的評估考慮了校準度(calibration)及區分度(discrimination)。校準度是指預測結果和實際結果的一致度,用 Hosmer-Lemeshow(H-L)統計量評價;區分度采用 c 統計,即受試者工作特征曲線(receiver operating characteristic curve,又稱 ROC 曲線)下的面積(AUC)。腦卒中預測模型和腦卒中或死亡預測模型的 H-L 統計量分別為 7.6 和 6.5,腦卒中預測模型的 AUC 為 0.66,而腦卒中或死亡預測模型的 AUC 為 0.70。
基于機器學習方法的疾病預測
盡管傳統的回歸方法在疾病預測方面有廣泛的應用,但這些方法在預測準確度和模型可解釋方面,都仍有提升的空間。近年來,機器學習領域的特征選擇和有監督學習建模方法越來越多地用于疾病預測問題。一些機器學習方法可以提高預測模型的可解釋性,例如決策樹方法。另一方面,一些較新的機器學習方法可以帶來更好的預測性能。
2010 年發表于 KDD 的文章 [Khosla et al. 2010] 采用了特征選擇和機器學習方法來預測 5 年內的腦卒中發生率。該研究的數據來自心血管健康研究(CHS) 數據集,主要針對 65 歲以上人群。該數據記錄了 1989-1999 年 5021 位患者將近 1000 個的屬性數據,包括醫療檢查,問卷,電話聯系等。預處理后最終的數據集包括 4988 個樣本,其中 299 個個體發生了腦卒中,共包含 796 個特征。數據被隨機分成 9:1 的訓練集和測試集,同時保證正負樣本比例不變,方法流程見圖 2。
圖 2 基于機器學習的腦卒中風險預測
該研究采用了四種方法進行缺失值填充,包括均值填充、中位數填充、線性回歸及期望最大化方法;特征選擇方法有 3 種,包括前向特征選擇、L1 正則化和保守均值特征選擇 (μ - σ);建模時嘗試了支持向量機(SVM)和基于邊緣的刪失回歸方法。使用 L1 正則化邏輯回歸進行特征選擇,然后使用 SVM 進行預測,采用 10 倍交叉驗證的平均測試 AUC 為 0.764,優于 L1 正則化 Cox 模型。將各種特征選擇算法與預測算法相結合的平均顯示,保守均值和基于邊緣的刪失回歸相結合在 AUC 評價標準中能達到 0.777,為性能最佳的結果。
基于深度學習方法的疾病預測
近年來,深度學習技術飛速發展,對圖像識別、語音識別、自然語言理解等多個領域產生了顛覆性的改變。對于電子病歷數據分析方面,也已有一些研究利用深度學習方法來建立疾病風險預測模型,采用了 CNN 或 RNN 的模型。
[Cheng et al. 2016] 基于 30 余萬患者為期 4 年的電子健康檔案 (EHR) 數據,采用 CNN 網絡來預測未來的疾病發生事件。研究的關鍵問題是如何從電子健康檔案的既往時序數據出發,建立有效模型,預測患者疾病發生的風險概率。該研究的數據集來源于 319,650 例患者為期 4 年的真實電子健康檔案,抽取慢性心衰(CHF,充血性心力衰竭)和慢阻肺(COPD,慢性阻塞性肺?。┫嚓P數據,其中 CHF 測試數據集包括 1127 正例患者,3850 負例對照;COPD 測試數據集包括 477 正例患者,2385 負例對照。該研究采用卷積神經網絡 (CNN) 作為有監督學習模型,首先將每個患者的電子健康檔案數據簡化映射為二維 EHR 矩陣,縱軸為患者臨床事件的類型,對應到 ICD-9 的編碼,橫軸為患者臨床事件的發生時間,以天為計算單位??紤] EHR 矩陣相關的特點,該研究基于以下假設建立卷積神經網絡模型:1)假設臨床事件之間不存在相關性;2)同一臨床事件在時間上存在相關性;3)不同患者入院的時間長度不同,體現為 EHR 矩陣的大小不一致。文章最終采用了 INPUT-CONV-POOL-FC 共四層的卷積神經網絡模型,方法流程如下圖 3 所示。
圖 3 卷積神經網絡模型
因為患者的電子健康檔案矩陣是變長的,所以沿時間軸被分割為不同時段子矩陣,然后先針對每個子矩陣提取特征,再將不同子矩陣的特征集成。按照分割、提取、集成步驟的不同,該研究采用了幾種不同的集成方法,然后比較不同的方法在慢性心衰和慢阻肺兩組測試數據集上的預測性能。最終發現綜合分割、提取、集成的混合策略 SF-CNN 效果最好。
目前更多的人嘗試用RNN(Recurrent Neural Network)的方法來分析電子病歷中的臨床事件之前的時序關系(Temporal Relation)。[Chio et.al 2016] 在心衰(HF,Heart Failure)的預測上率先使用了基于RNN的方法,基于3884個正例和28,903個負例數據,時間跨度從2000年5月,到2013年5月共3年的時間。針對單個臨床事件的建模采用了自然語言理解中常用的one-hot向量的方式,把任何一個臨床事件都表示成N維的向量,但向量的最后一位是事件發生時間距離預測時間的間隔,類似于一個時間戳(timestamp)。然后使用了GRU(Gated Recurrent Unit,門循環單元)從每個輸入的臨床事件向量計算相應的隱狀態,在最終的隱狀態上應用邏輯回歸模型計算最后的HF風險概率。跟LR(Logistic Regression),SVM和KNN等多種經典回歸或機器學習方法試驗對比后發現,基于RNN方法的預測AUC有提高。
疾病預測技術小結
從以上針對經典回歸方法、機器學習方法和深度學習方法的分析可以發現,疾病預測技術必要的組成部分包括數據補全、特征表示、特征選擇和預測建模等幾個關鍵步驟,總結見表 1。
表 1 疾病預測方法分析對比
從中可以看出:
預測建模的方法本身并沒有太多的突破:除了 [Khosla et al. 2010] 融合了 SVM 和 Cox 回歸的特性發明了基于邊緣刪失的回歸方法,絕大多數的工作創新集中在特征表示和特征選擇。
患者特征從基于向量的表示方法向時序矩陣轉變:經典的機器學習和統計方法普遍采用基于向量的表示方法,采用多種特征選擇算法提取最有預測能力的特征。最新的深度學習的方法采用時序矩陣或時序向量的方法,盡量捕捉真實世界數據中的時序信號。
深度學習方法變革了特征提取方法,但降低了可解釋性:在特征選擇時通過 CNN 或 RNN 的方法對原始特征進行多層的變換,把原始特征映射到新的空間中,提高分類的能力,但同時降低了模型的可解釋性。
疾病預測技術的發展趨勢
疾病預測技術的研究可以關注下面兩個重點:
基于多模態數據的預測:醫療數據是多模態的,包含結構化數據、文本、影像和流數據(心率、血氧、呼吸等)。目前的預測方法主要處理結構化的數據,如果需要文本、影像或者流數據中的特征,就先用某些方法把需要的特征從這些非結構化數據中抽取出來。如何借助多個端到端的網絡處理多模態的數據并進行融合、預測是很重要的技術挑戰。
醫學領域知識和機器學習方法的融合預測:在目前的疾病預測方法中,醫學領域知識和機器學習方法是割裂的。經典的統計方法完全基于醫學領域知識手工的挑選待選特征,然后利用統計的方法計算每個特征的重要性,構建預測模型。機器學習的方法則完全從數據出發,并不參考在某個預測領域中過去幾十年積累的已知的風險因素和權重,也不重視模型的可解釋性,用特征表示和提取的方法從海量數據中自動的提取特征,構建模型。如何有效的融合醫學領域知識和機器學習方法,構建可解釋性強的預測模型是未來技術創新的重要方向。
最后,感謝萬祎,賈文笑和李非同學對本文的貢獻,更要感謝每一位有耐心看完這篇長文的讀者。
-
醫療
+關注
關注
8文章
1833瀏覽量
58865 -
人工智能
+關注
關注
1793文章
47565瀏覽量
239412 -
機器學習
+關注
關注
66文章
8434瀏覽量
132871
原文標題:【大咖解讀】謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論