「Speech recognition for medical conversations」論文介紹了作者們開發(fā)用于醫(yī)療轉(zhuǎn)寫的語音識別系統(tǒng)的經(jīng)歷,這個(gè)系統(tǒng)的功能就是自動(dòng)把醫(yī)生和病人間的對話自動(dòng)轉(zhuǎn)錄為文字。為了達(dá)到這個(gè)目標(biāo),谷歌的研究人員們沿著兩個(gè)思路構(gòu)建了這個(gè)系統(tǒng):一個(gè)是基于音素的連接性時(shí)間分類(Connectionist Temporal Classification)模型,另一個(gè)是基于字母“聆聽、關(guān)注、拼寫”(Listen Attend and Spell)的模型。
醫(yī)療AI已經(jīng)火熱了很有一陣子了,計(jì)算機(jī)視覺相關(guān)研究的進(jìn)步讓醫(yī)學(xué)圖像輔助診斷改頭換面,不僅準(zhǔn)確率日新月異,醫(yī)療影像創(chuàng)業(yè)公司也已經(jīng)遍地開花。
那么除了醫(yī)療影像之外,深度學(xué)習(xí)還能以別的方式幫助醫(yī)生、服務(wù)病人嗎?答案當(dāng)然是肯定的,谷歌大腦就發(fā)出一篇博文,介紹了他們利用深度學(xué)習(xí)幫助醫(yī)生撰寫醫(yī)療文檔的研究進(jìn)展。
理解醫(yī)療對話
如果醫(yī)生能更好地與整個(gè)團(tuán)隊(duì)溝通自己的想法、擔(dān)憂和未來計(jì)劃,相信肯定可以給病人帶來更高的醫(yī)療服務(wù)質(zhì)量,而高質(zhì)量的文檔記錄就能在這個(gè)過程中起到幫助。醫(yī)生們最想做的事情當(dāng)然是多花點(diǎn)時(shí)間在照顧病人上,然而實(shí)際上醫(yī)生們常常需要花一半的工作時(shí)間在電子醫(yī)療檔案(EHR)中寫文檔記錄。與之相關(guān)的是,一份對醫(yī)生的調(diào)查報(bào)告中也顯示出,參與調(diào)查的醫(yī)生中超過一半都顯示出了工作超負(fù)荷、精疲力竭的某些癥狀。
為了減輕一些文本記錄的負(fù)擔(dān),有些醫(yī)生已經(jīng)開始聘請醫(yī)療速記員參與到他們的日常工作中。這些速記員跟著醫(yī)生,記錄下醫(yī)生和患者之間的溝通對話,然后在EHR中建立記錄。近期也有一項(xiàng)研究顯示,速記員的引入不僅提高了醫(yī)生的滿意程度,同時(shí)也提高了醫(yī)學(xué)圖表的質(zhì)量和準(zhǔn)確度。不過,醫(yī)生和患者之間對話的數(shù)量遠(yuǎn)遠(yuǎn)超過了現(xiàn)有的醫(yī)療速記員的工作能力。
谷歌的研究人員們了解到這一狀況后就開始考慮,谷歌的語音識別技術(shù)如今已經(jīng)有了長足的發(fā)展、也已經(jīng)應(yīng)用在了GoogleAssistant、GoogleHome和GoogleTranslate中,那它是否也能用來記錄醫(yī)生和病人之間的對話、幫助醫(yī)生和速記員更快地總結(jié)整理筆記呢?
在近期發(fā)表的「Speech recognition for medical conversations」論文中,谷歌的研究人員們就表明了可以為醫(yī)學(xué)對話建立自動(dòng)語音識別的文本轉(zhuǎn)寫系統(tǒng)。當(dāng)前多數(shù)用于醫(yī)學(xué)領(lǐng)域的自動(dòng)語言識別(ASR)解決方案關(guān)注的重點(diǎn)都是轉(zhuǎn)寫醫(yī)生說的話(也就是說,是帶有可預(yù)計(jì)的醫(yī)療詞匯的單說話人語音識別);而谷歌這項(xiàng)研究就展示出構(gòu)建出一個(gè)能夠處理多說話人的狀況的、能覆蓋從天氣到復(fù)雜醫(yī)療診斷等多種領(lǐng)域的自動(dòng)語音識別模型也是可行的。
斯坦福大學(xué)的醫(yī)生和研究者們已經(jīng)在如何提升醫(yī)生滿意度方面做了許許多多的研究,而通過這種技術(shù),谷歌大腦的研究人員們也將與他們一起合作,更多地研究自動(dòng)語音識別等深度學(xué)習(xí)的技術(shù)能夠如何幫助醫(yī)生更好地完成文檔記錄過程。在一項(xiàng)前瞻性研究中,谷歌的研究人員正在探究能從醫(yī)療對話中提取哪些類型的醫(yī)療相關(guān)信息,以便幫醫(yī)生節(jié)省使用EHR系統(tǒng)的時(shí)間。這項(xiàng)研究是完全經(jīng)過病人同意的,并且為了保護(hù)病人的隱私,錄音的內(nèi)容也是無法追蹤到病人身份的。
谷歌希望這些技術(shù)不僅能夠幫助醫(yī)生在每天的工作中找回醫(yī)療實(shí)踐中原有的那些快樂,更能夠幫助病人們獲得更專注、更完善的醫(yī)療關(guān)注,最終引向更好的醫(yī)療服務(wù)。
論文簡介這篇論文中介紹了作者們開發(fā)用于醫(yī)療轉(zhuǎn)寫的語音識別系統(tǒng)的經(jīng)歷,這個(gè)系統(tǒng)的功能就是自動(dòng)把醫(yī)生和病人間的對話自動(dòng)轉(zhuǎn)錄為文字。為了達(dá)到這個(gè)目標(biāo),谷歌的研究人員們沿著兩個(gè)思路構(gòu)建了這個(gè)系統(tǒng):一個(gè)是基于音素的連接性時(shí)間分類(Connectionist Temporal Classification)模型,另一個(gè)是基于字母“聆聽、關(guān)注、拼寫”(Listen Attend and Spell)的模型。為了訓(xùn)練這些模型,谷歌的研究人員們用了大約1萬4千小時(shí)的匿名對話語音及轉(zhuǎn)寫結(jié)果作為語料。由于轉(zhuǎn)寫結(jié)果中有一些噪音以及對齊的問題,谷歌的研究人員們花費(fèi)了相當(dāng)多的精力研究如何清洗這些數(shù)據(jù),并構(gòu)造了一個(gè)用于數(shù)據(jù)分割的兩步策略。
對于基于CTC的模型來說,數(shù)據(jù)清洗并構(gòu)建一個(gè)對應(yīng)的語言模型是成功的關(guān)鍵。而基于LAS的模型,谷歌的研究人員們發(fā)現(xiàn)它們對對齊、轉(zhuǎn)寫噪聲都有很高的抵抗性,并且不需要使用語言模型。最終,CTC模型可以達(dá)到20.1%的單詞錯(cuò)誤率,LAS模型則可以達(dá)到18.3%。作者們的分析表明,兩個(gè)模型在關(guān)鍵的醫(yī)療用語上都有優(yōu)秀的表現(xiàn),確實(shí)可以用于實(shí)際的醫(yī)療對話轉(zhuǎn)寫中。
-
谷歌
+關(guān)注
關(guān)注
27文章
6192瀏覽量
105814 -
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269905
原文標(biāo)題:除了醫(yī)療影像,醫(yī)學(xué)領(lǐng)域AI還能做什么?
文章出處:【微信號:hc3i8068,微信公眾號:HC3i中國數(shù)字醫(yī)療網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論