在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何有效的融合醫學領域知識和機器學習方法

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-05-07 09:36 ? 次閱讀

AI在醫療中的應用場景十分復雜也十分重要,包括疾病的診斷、預測、治療和管理等。有感于 “搞人工智能技術的人不知道醫療里重要又可解的問題是什么,搞醫療的人不知道技術究竟能幫到什么程度”,前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢,帶來詳細解讀。

去年寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》,原本計劃要寫個 “連續劇” 的,后來諸多事情就耽誤了。一晃快一年了,現在推出第二篇,疾病預測技術的概念、方法和趨勢,淺析前文中提到的疾病預測技術的核心概念、主要方法和發展趨勢。

疾病預測的核心概念

疾病風險預測核心解決的問題是預測個體在未來一段時間內患某種疾?。ɑ虬l生某種事件)的風險概率。疾病預測會根據某個人群定義,例如全人群、房顫人群、心梗住院人群等,針對某個預測目標,例如腦卒中、心衰、死亡等,設定特定的時間窗口,包括做出預測的時間點,和將要預測的時間窗,預測目標的發生概率。

利用真實世界數據進行疾病預測面臨如下一些技術挑戰:

數據質量差:電子病歷數據中很多字段有缺失,導致關鍵特征無法提取;甚至有無意或有意的輸入錯誤,給數據分析造成了噪音。

數據維度高:醫療的數據涉及患者的病情主訴、既往病史、家族遺傳史、個人史、體格檢查信息、診斷、檢驗、檢查、用藥和手術等方面。一個疾病登記庫中每位患者的數據往往達到 2000 維,而真實電子病歷的數據甚至會達到幾萬維。如此高維度、稀疏的數據給預測帶來了挑戰。

數據時序性:患者在一段時間內會有持續的醫療記錄,如住院期間的多次記錄,或者一年內的多次門診記錄。如果涉及可穿戴式設備收集的實時數據,更是每分每秒都在變化。為了從數據中更好的提煉預測信號,必須對數據的時間序列信息進行分析挖掘。

數據不均衡:很多疾病的發病率都不高,比如房顫患者發生腦卒中的平均概率是 10%,腦卒中患者出院后導致殘疾的平均概率是 4%。造成數據中正例相對較少,很不均衡,對機器學習算法的要求更高。

疾病預測的主要方法

疾病預測的主要方法可以簡單的分為經典回歸方法、機器學習方法和深度學習方法三大類。下面分別用三篇論文舉例介紹一下。

基于經典回歸方法的疾病預測

傳統的疾病風險預測主要基于 Cox 比例風險回歸模型(簡稱 Cox 模型)及邏輯回歸模型。例如,[Wang et al. 2003] 發表于 JAMA 的文章利用 Cox 模型,基于弗雷明漢(Framingham)心臟研究來建立房顫患者發生腦卒中及死亡的風險預測模型,方法流程見圖 1。該研究用患者在確診房顫前最近一次檢查的數據作為風險因素的基線數據,觀測的起點為房顫確診,觀測時間窗為 10 年。基于之前房顫預測腦卒中的研究,兩個非常重要的連續變量,即年齡和收縮壓被直接放入了多變量模型。其他的風險因子采用逐步回歸法確定,符合檢驗標準 P<0.10 的變量會被放入模型,包括服用抗壓藥物、有心肌梗塞或充血性心臟衰竭病史(在確診房顫前)、有卒中或短暫性腦缺血發作史(在確診房顫前)、吸煙、心電圖判斷的左心室肥厚、糖尿病和臨床性心臟瓣膜病。

圖 1 基于 Cox 回歸的腦卒中及死亡風險預測

該研究 [Wang et al. 2003] 的統計分析方法采用了 Cox 比例風險模型(proportional hazards model),是由英國統計學家 D.R. Cox 提出的一種半參數回歸模型。該模型以生存結局和生存時間為應變量,可同時分析多個因素對生存期的影響,能分析帶有刪失生存時間的數據,且不要求估計數據的生存分布類型。Cox 模型在醫學研究中得到了廣泛的應用,是傳統生存分析和風險預測中應用最多的多因素回歸分析方法。

腦卒中預測模型的評估考慮了校準度(calibration)及區分度(discrimination)。校準度是指預測結果和實際結果的一致度,用 Hosmer-Lemeshow(H-L)統計量評價;區分度采用 c 統計,即受試者工作特征曲線(receiver operating characteristic curve,又稱 ROC 曲線)下的面積(AUC)。腦卒中預測模型和腦卒中或死亡預測模型的 H-L 統計量分別為 7.6 和 6.5,腦卒中預測模型的 AUC 為 0.66,而腦卒中或死亡預測模型的 AUC 為 0.70。

基于機器學習方法的疾病預測

盡管傳統的回歸方法在疾病預測方面有廣泛的應用,但這些方法在預測準確度和模型可解釋方面,都仍有提升的空間。近年來,機器學習領域的特征選擇和有監督學習建模方法越來越多地用于疾病預測問題。一些機器學習方法可以提高預測模型的可解釋性,例如決策樹方法。另一方面,一些較新的機器學習方法可以帶來更好的預測性能。

2010 年發表于 KDD 的文章 [Khosla et al. 2010] 采用了特征選擇和機器學習方法來預測 5 年內的腦卒中發生率。該研究的數據來自心血管健康研究(CHS) 數據集,主要針對 65 歲以上人群。該數據記錄了 1989-1999 年 5021 位患者將近 1000 個的屬性數據,包括醫療檢查,問卷,電話聯系等。預處理后最終的數據集包括 4988 個樣本,其中 299 個個體發生了腦卒中,共包含 796 個特征。數據被隨機分成 9:1 的訓練集和測試集,同時保證正負樣本比例不變,方法流程見圖 2。

圖 2 基于機器學習的腦卒中風險預測

該研究采用了四種方法進行缺失值填充,包括均值填充、中位數填充、線性回歸及期望最大化方法;特征選擇方法有 3 種,包括前向特征選擇、L1 正則化和保守均值特征選擇 (μ - σ);建模時嘗試了支持向量機(SVM)和基于邊緣的刪失回歸方法。使用 L1 正則化邏輯回歸進行特征選擇,然后使用 SVM 進行預測,采用 10 倍交叉驗證的平均測試 AUC 為 0.764,優于 L1 正則化 Cox 模型。將各種特征選擇算法與預測算法相結合的平均顯示,保守均值和基于邊緣的刪失回歸相結合在 AUC 評價標準中能達到 0.777,為性能最佳的結果。

基于深度學習方法的疾病預測

近年來,深度學習技術飛速發展,對圖像識別、語音識別、自然語言理解等多個領域產生了顛覆性的改變。對于電子病歷數據分析方面,也已有一些研究利用深度學習方法來建立疾病風險預測模型,采用了 CNN 或 RNN 的模型。

[Cheng et al. 2016] 基于 30 余萬患者為期 4 年的電子健康檔案 (EHR) 數據,采用 CNN 網絡來預測未來的疾病發生事件。研究的關鍵問題是如何從電子健康檔案的既往時序數據出發,建立有效模型,預測患者疾病發生的風險概率。該研究的數據集來源于 319,650 例患者為期 4 年的真實電子健康檔案,抽取慢性心衰(CHF,充血性心力衰竭)和慢阻肺(COPD,慢性阻塞性肺?。┫嚓P數據,其中 CHF 測試數據集包括 1127 正例患者,3850 負例對照;COPD 測試數據集包括 477 正例患者,2385 負例對照。該研究采用卷積神經網絡 (CNN) 作為有監督學習模型,首先將每個患者的電子健康檔案數據簡化映射為二維 EHR 矩陣,縱軸為患者臨床事件的類型,對應到 ICD-9 的編碼,橫軸為患者臨床事件的發生時間,以天為計算單位??紤] EHR 矩陣相關的特點,該研究基于以下假設建立卷積神經網絡模型:1)假設臨床事件之間不存在相關性;2)同一臨床事件在時間上存在相關性;3)不同患者入院的時間長度不同,體現為 EHR 矩陣的大小不一致。文章最終采用了 INPUT-CONV-POOL-FC 共四層的卷積神經網絡模型,方法流程如下圖 3 所示。

圖 3 卷積神經網絡模型

因為患者的電子健康檔案矩陣是變長的,所以沿時間軸被分割為不同時段子矩陣,然后先針對每個子矩陣提取特征,再將不同子矩陣的特征集成。按照分割、提取、集成步驟的不同,該研究采用了幾種不同的集成方法,然后比較不同的方法在慢性心衰和慢阻肺兩組測試數據集上的預測性能。最終發現綜合分割、提取、集成的混合策略 SF-CNN 效果最好。

目前更多的人嘗試用RNN(Recurrent Neural Network)的方法來分析電子病歷中的臨床事件之前的時序關系(Temporal Relation)。[Chio et.al 2016] 在心衰(HF,Heart Failure)的預測上率先使用了基于RNN的方法,基于3884個正例和28,903個負例數據,時間跨度從2000年5月,到2013年5月共3年的時間。針對單個臨床事件的建模采用了自然語言理解中常用的one-hot向量的方式,把任何一個臨床事件都表示成N維的向量,但向量的最后一位是事件發生時間距離預測時間的間隔,類似于一個時間戳(timestamp)。然后使用了GRU(Gated Recurrent Unit,門循環單元)從每個輸入的臨床事件向量計算相應的隱狀態,在最終的隱狀態上應用邏輯回歸模型計算最后的HF風險概率。跟LR(Logistic Regression),SVM和KNN等多種經典回歸或機器學習方法試驗對比后發現,基于RNN方法的預測AUC有提高。

疾病預測技術小結

從以上針對經典回歸方法、機器學習方法和深度學習方法的分析可以發現,疾病預測技術必要的組成部分包括數據補全、特征表示、特征選擇和預測建模等幾個關鍵步驟,總結見表 1。

表 1 疾病預測方法分析對比

從中可以看出:

預測建模的方法本身并沒有太多的突破:除了 [Khosla et al. 2010] 融合了 SVM 和 Cox 回歸的特性發明了基于邊緣刪失的回歸方法,絕大多數的工作創新集中在特征表示和特征選擇。

患者特征從基于向量的表示方法向時序矩陣轉變:經典的機器學習和統計方法普遍采用基于向量的表示方法,采用多種特征選擇算法提取最有預測能力的特征。最新的深度學習的方法采用時序矩陣或時序向量的方法,盡量捕捉真實世界數據中的時序信號。

深度學習方法變革了特征提取方法,但降低了可解釋性:在特征選擇時通過 CNN 或 RNN 的方法對原始特征進行多層的變換,把原始特征映射到新的空間中,提高分類的能力,但同時降低了模型的可解釋性。

疾病預測技術的發展趨勢

疾病預測技術的研究可以關注下面兩個重點:

基于多模態數據的預測:醫療數據是多模態的,包含結構化數據、文本、影像和流數據(心率、血氧、呼吸等)。目前的預測方法主要處理結構化的數據,如果需要文本、影像或者流數據中的特征,就先用某些方法把需要的特征從這些非結構化數據中抽取出來。如何借助多個端到端的網絡處理多模態的數據并進行融合、預測是很重要的技術挑戰。

醫學領域知識和機器學習方法的融合預測:在目前的疾病預測方法中,醫學領域知識和機器學習方法是割裂的。經典的統計方法完全基于醫學領域知識手工的挑選待選特征,然后利用統計的方法計算每個特征的重要性,構建預測模型。機器學習的方法則完全從數據出發,并不參考在某個預測領域中過去幾十年積累的已知的風險因素和權重,也不重視模型的可解釋性,用特征表示和提取的方法從海量數據中自動的提取特征,構建模型。如何有效的融合醫學領域知識和機器學習方法,構建可解釋性強的預測模型是未來技術創新的重要方向。

最后,感謝萬祎,賈文笑和李非同學對本文的貢獻,更要感謝每一位有耐心看完這篇長文的讀者。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 醫療
    +關注

    關注

    8

    文章

    1833

    瀏覽量

    58865
  • 人工智能
    +關注

    關注

    1793

    文章

    47565

    瀏覽量

    239412
  • 機器學習
    +關注

    關注

    66

    文章

    8434

    瀏覽量

    132871

原文標題:【大咖解讀】謝國彤:疾病預測的機器學習、深度學習和經典回歸方法

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【卡酷機器人】——基礎學習方法

    `` 這里和大伙兒講解一下卡酷機器人基礎學習方法,如果有錯誤,歡迎大家指點喲。``
    發表于 01-09 18:01

    FPGA技術的學習方法

    。那么究竟如何才能高效學習好FPGA技術呢?本期邀請到的FPGA專家梅雪松,將為大家解答FPGA有效學習方法。專家觀點:學習FPGA技術,或者不僅局限于FPGA,
    發表于 01-11 13:58

    單片機的學習方法和步驟

    不同的學習方法,根據筆者的親身學習經驗,提出筆者的學習方法和步驟。Part 1 基礎理論知識學習基礎理論
    發表于 11-30 06:38

    一套科學的嵌入式系統學習方法

    原因是沒有掌握科學,有效學習方法,所以本章主要將從學習人群、待學知識點、學習順序等幾個方面來闡述一套科學的嵌入式系統
    發表于 12-22 07:12

    一種融合節點先驗信息的圖表示學習方法

    基于深度學習提出了融合節點先驗信息的圖表示學習方法,該方法將節點特征作為先驗知識。要求學習到的表
    發表于 12-18 16:53 ?0次下載
    一種<b class='flag-5'>融合</b>節點先驗信息的圖表示<b class='flag-5'>學習方法</b>

    深度解析機器學習三類學習方法

    機器學習(Machine learning)領域。主要有三類不同的學習方法:監督學習(Supervised learning)、非監督
    發表于 05-07 09:09 ?1.4w次閱讀

    如何學好機器學習?機器學習學習方法4個關鍵點整理概述

    。 對于想要了解或從事AI行業工作的小伙伴們來說,能夠快速、深入的掌握機器學習相關知識顯得尤為重要,小編給大家整理機器學習
    的頭像 發表于 09-24 19:29 ?6340次閱讀
    如何學好<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的<b class='flag-5'>學習方法</b>4個關鍵點整理概述

    機器學習入門寶典《統計學習方法》的介紹

    《統計學習方法》可以說是機器學習的入門寶典,許多機器學習培訓班、互聯網企業的面試、筆試題目,很多都參考這本書。本文根據網上資料用python
    的頭像 發表于 11-25 09:24 ?4683次閱讀

    面向人工智能的機器學習方法體系總結

    此處梳理出面向人工智能的機器學習方法體系,主要體現機器學習方法和邏輯關系,理清機器學習脈絡,后續
    的頭像 發表于 12-17 15:10 ?3411次閱讀
    面向人工智能的<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>體系總結

    區塊鏈數據集有怎樣的機器學習方法

    區塊鏈數據集提供了一個與加密貨幣資產行為相關的獨特的數據宇宙,因此,為機器學習方法的應用提供了獨特的機會。
    發表于 11-26 09:49 ?907次閱讀

    機器學習方法遷移學習的發展和研究資料說明

    近年來,遷移學習已經引起了廣泛的關注和研究。遷移學習是運用已存有的知識對不同但相關領域問題進行求解的一種新的機器
    發表于 07-17 08:00 ?0次下載
    <b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>遷移<b class='flag-5'>學習</b>的發展和研究資料說明

    深度討論集成學習方法,解決AI實踐難題

    集成學習方法是一類先進的機器學習方法,這類方法訓練多個學習器并將它們結合起來解決一個問題,在實踐中獲得了巨大成功,并成為
    發表于 08-16 11:40 ?787次閱讀
    深度討論集成<b class='flag-5'>學習方法</b>,解決AI實踐難題

    融合零樣本學習和小樣本學習的弱監督學習方法綜述

    融合零樣本學習和小樣本學習的弱監督學習方法綜述 來源:《系統工程與電子技術》,作者潘崇煜等 摘 要:?深度學習模型嚴重依賴于大量人工標注的數
    發表于 02-09 11:22 ?2354次閱讀
    <b class='flag-5'>融合</b>零樣本<b class='flag-5'>學習</b>和小樣本<b class='flag-5'>學習</b>的弱監督<b class='flag-5'>學習方法</b>綜述

    聯合學習在傳統機器學習方法中的應用

    聯合學習在傳統機器學習方法中的應用
    的頭像 發表于 07-05 16:30 ?796次閱讀
    聯合<b class='flag-5'>學習</b>在傳統<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>中的應用

    傳統機器學習方法和應用指導

    用于開發生物學數據的機器學習方法。盡管深度學習(一般指神經網絡算法)是一個強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度學習相比
    的頭像 發表于 12-30 09:16 ?313次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>和應用指導
    主站蜘蛛池模板: 午夜男人天堂| 一女多夫嗯啊高h| 天堂资源在线8| 奇米777狠狠| 国产特黄一级一片免费| www.五月婷| 69 hd xxxx日本| 美女又黄又www| 亚洲天堂爱爱| 三级理论在线| 可以免费看的黄色片| 国产精品视频永久免费播放| 99热这里只有精品一区二区三区| 4虎影院永久地址www| 手机看片91| 完全免费在线视频| 欧美成人午夜不卡在线视频 | 人人艹在线视频| 妇乱子伦激情| 丁香婷婷激情五月| 国产人人澡| 四虎在线最新永久免费| 欧美高清免费一级在线| 国产做a爰片久久毛片a| 97伊人久久| 美女天天操| 天天干天天操天天碰| 九九精品影院| 中文字幕区| 一级毛片免费全部播放| 国产成人乱码一区二区三区| 在线观看三级网站| 欧美综合影院| 99精品免费视频| 黄色午夜剧场| 免费看黄视频网站| 色成人亚洲| xx网成人| 爱爱视频天天干| 中文字幕第十页| 免费人成动漫在线播放r18|