生命科學(xué)是前沿科技創(chuàng)新的關(guān)鍵領(lǐng)域。AI、云計(jì)算、大數(shù)據(jù)等互聯(lián)網(wǎng)技術(shù)的發(fā)展,正在為基因測(cè)序、生物醫(yī)藥、AI 與大數(shù)據(jù)應(yīng)用等方面注入新動(dòng)能,加速生命科學(xué)領(lǐng)域相關(guān)企業(yè)的智能化升級(jí)。
12 月 27 日,“2022 百度云智峰會(huì)·智算峰會(huì)”成功舉辦。NVIDIA 資深解決方案架構(gòu)師翟健分享了以“GPU 加速藥物研發(fā)與基因組學(xué)分析”為題的演講,介紹了 NVIDIA 如何利用 GPU 和加速軟件推動(dòng) AI 驅(qū)動(dòng)的藥物研發(fā)與基因組學(xué)分析,包括 NVIDIA 與百度智能云在賦能藥物研發(fā)、基因測(cè)序分析方面的合作。以下為內(nèi)容概要。
GPU 加速助力藥物研發(fā)
CLARA 是 NVIDIA 在醫(yī)療方向的 SDK 平臺(tái),它借助于 NVIDIA 的基礎(chǔ)軟硬件平臺(tái),為醫(yī)療用戶提供了醫(yī)療設(shè)備、制藥、影像、基因以及智慧醫(yī)院等五個(gè)方面的能力,從而為醫(yī)療的終端用戶,針對(duì)具體的應(yīng)用場(chǎng)景提供完備的加速能力。
而其中的 CLARA Discovery 是 CLARA 平臺(tái)下面向藥物研發(fā)場(chǎng)景的重要解決方案,它基于 NVIDIA 的 AI 和 HPC 能力來(lái)輔助加速藥物研發(fā)的工作流程。目前該方案已經(jīng)納入到了百度智能云賦能藥物研發(fā)的解決方案中。
醫(yī)療領(lǐng)域的前期研發(fā)過程當(dāng)中會(huì)涵蓋如下幾個(gè)過程:集靶點(diǎn)發(fā)現(xiàn)、化學(xué)分子生成、蛋白質(zhì)性質(zhì)結(jié)構(gòu)預(yù)測(cè)、藥物分子與蛋白質(zhì)進(jìn)行對(duì)接打分,構(gòu)建自由能 FEP 等。
整個(gè)制藥行業(yè)涉及到兩個(gè)學(xué)科,結(jié)構(gòu)生物學(xué)與計(jì)算化學(xué)。而這兩個(gè)學(xué)科都涉及到傳統(tǒng)的 HPC 與新興的 AI 方法,而且 AI 的方法相較于 HPC 的方法會(huì)有比較明顯的速度上的優(yōu)勢(shì)。
目前 AI 正在顛覆整個(gè)藥物研發(fā)的過程,包括在靶點(diǎn)發(fā)現(xiàn)方面、虛擬篩選以及分子生成、結(jié)構(gòu)預(yù)測(cè),甚至在臨床上應(yīng)用的自然語(yǔ)言模型,都是 AI 加速的體現(xiàn)。
AI 中 Transformer 模型正在逐漸地應(yīng)用在藥物研發(fā)領(lǐng)域中。左邊的四張小圖來(lái)自于 MegaMolBART 與 Protrans 一系列突破性的論文,表明基于 Transformer 的預(yù)訓(xùn)練模型可以有效地加速分子生成和蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。
右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架構(gòu)形式,它們可以用在諸如右下方的幾個(gè)典型領(lǐng)域,包括:小分子模型的生成、反應(yīng)序列的預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、生物醫(yī)學(xué)領(lǐng)域的 NLP 以及圖像分析等。
NVIDIA 基于在大語(yǔ)言模型上的經(jīng)驗(yàn),推出了 BioNeMo 的解決方案,它是一款可以在云端進(jìn)行訓(xùn)練和部署的服務(wù)框架,主要面向有大語(yǔ)言模型需求的藥物研發(fā)人員。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的優(yōu)化工作,并且提供了多種預(yù)訓(xùn)練模型,支持云原生的服務(wù),極大地加速了藥物研發(fā)的工作流程。
這一頁(yè)展示的是 BioNeMo 的邏輯架構(gòu),最底層的是 NVIDIA 加速的計(jì)算平臺(tái)。下面開始第二層是 NVIDIA 的大語(yǔ)言模型平臺(tái) NeMo Megatron,是 BioNeMo 的快速訓(xùn)練和部署的重要保證。
BioNeMo 提供了多種預(yù)訓(xùn)練的 Transformer 類的模型,分別針對(duì)化學(xué)分子生成、蛋白質(zhì)結(jié)構(gòu)序列預(yù)測(cè)、DNA 的 embedding 等幾個(gè)方面。最終這些都服務(wù)于我們最上層中,藥物研發(fā)領(lǐng)域里幾個(gè)典型應(yīng)用場(chǎng)景。
BioNeMo 的三個(gè)典型特點(diǎn)是:
一,它支持分子、蛋白質(zhì)和核苷酸的 SMMILES 和 FASTA 的表征。
二,它含有多種預(yù)訓(xùn)練模型,像我們剛才提到的 MegaMolBART 等。
三,它可以在云端部署相應(yīng)的、可視化界面的服務(wù)。
這里跟大家分享一個(gè)案例,Vyasa 是一個(gè)面向藥物研發(fā)的 AI 解決方案提供商,他們?cè)诜桨钢姓狭?BioNeMo 中的 MegaMolBART 模型,從而實(shí)現(xiàn)了終端用戶在本地和云端都可以利用 GPU 對(duì)藥物分子生成過程進(jìn)行加速。也正因?yàn)槿绱耍麄兊挠脩?Memorial Solan Kettering 學(xué)院采購(gòu)了 NVIDIA 的 DGX 服務(wù)器用于加速這一類型的工作負(fù)載。
除了在分子生成、蛋白質(zhì)結(jié)構(gòu)性質(zhì)預(yù)測(cè)方面,NVIDIA 提供了很好的加速優(yōu)化。在虛擬篩選和仿真的過程當(dāng)中,NVIDIA 也協(xié)同了眾多的開源社區(qū)、高校,加速了傳統(tǒng) HPC 領(lǐng)域當(dāng)中的對(duì)接、分子動(dòng)力學(xué)和量子化學(xué)里的常用軟件。
這張圖中展示的就是我們?cè)谌齻€(gè)領(lǐng)域當(dāng)中常用的一些軟件。這些軟件 NVIDIA 都提供了相應(yīng)的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平臺(tái)(https://catalog.ngc.nvidia.com/ )進(jìn)行下載。
下面展示的是分子動(dòng)力學(xué)軟件 Gromacs 的 GPU 版本的性能評(píng)測(cè)。可以看到,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 獲得了極好的加速。
類似的,這一頁(yè)展示的是量子化學(xué)軟件 VASP CPU-GPU 的性能對(duì)比。NVIDIA 的 V100 和 A100 GPU 同樣都獲得了極高的加速。
GPU 加速突破基因測(cè)序分析瓶頸
接下來(lái)讓我們介紹一下 NVIDIA GPU 在加速基因組學(xué)方面的方案。
在今年春季的 NVIDIA GTC 大會(huì)上,來(lái)自于斯坦福大學(xué)的團(tuán)隊(duì)介紹了他們?nèi)绾位?NVIDIA GPU 打破了基因測(cè)序的世界紀(jì)錄。他們將人類的基因測(cè)序縮短到了 7 小時(shí) 18 分鐘,完成了濕實(shí)驗(yàn)和在計(jì)算機(jī)上的數(shù)據(jù)分析等過程。
而在基因測(cè)序方面,一般包括如下三個(gè)環(huán)節(jié):一,通過測(cè)序儀得到數(shù)據(jù)之后進(jìn)行的一級(jí)分析過程,完成四分類任務(wù);二,在計(jì)算機(jī)上完成一致性對(duì)比處理、變體識(shí)別等二級(jí)分析過程;三,最后的三級(jí)分析則是對(duì)大量的數(shù)據(jù)進(jìn)行處理。而這三個(gè)過程目前都是可以用 GPU 實(shí)現(xiàn)加速的。分別可以通過 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 進(jìn)行一級(jí)分析加速。通過 CLARA Parabricks 對(duì)二級(jí)分析進(jìn)行加速。利用 RAPIDS、MONAI 等可以加速三級(jí)分析。
下面讓我們來(lái)介紹一下二級(jí)分析的軟件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 測(cè)序分析工具,主要用于人類基因組學(xué)分析、癌癥基因篩查、RNA 測(cè)序分析等。目前其中含有 60 多個(gè)工具模塊,包括基因數(shù)據(jù)的一致性比對(duì)、金標(biāo)準(zhǔn)處理和質(zhì)量把控、高精度遍體識(shí)別等范疇類的多種常用工具。
這一頁(yè)展示的是 CLARA Parabricks 目前支持的工具模塊的部分內(nèi)容,基本上涵蓋了主流的基因測(cè)序二級(jí)分析中的大部分工具。
使用 CLARA Parabricks 可以實(shí)現(xiàn)對(duì)典型的應(yīng)用的加速,它是針對(duì)金標(biāo)準(zhǔn)的種系、體細(xì)胞和 RNA 的加速工具。而且目前使用 Ampere 架構(gòu)的 GPU 可以實(shí)現(xiàn) 80 倍的加速,精度方面也能夠保證,且具有比較靈活的工作流程。
那么談到這里就要說(shuō)一下 CLARA Parabricks 的幾大特點(diǎn)了。因?yàn)樗悄K化的工具,所以可以通過各種傾向性的組合,可以靈活選擇 CLARA Parabricks 當(dāng)中的各種模塊。
同時(shí)剛才提到它的工作流程靈活,是因?yàn)樗鼘?duì)主流的基因組學(xué)分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它還對(duì) Google 的 DeepVariant 1.4 版本的變體識(shí)別工具也做了很好的支持。
接下來(lái)我們來(lái)看看 Parabricks 的 benchmark。可以看到,列舉的幾個(gè)模塊在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高實(shí)現(xiàn) 80 倍的加速。這一頁(yè)展示的就是分別在 2 張、4 張和 8 張 A100 上同比 CPU 實(shí)現(xiàn)加速的效果。
同時(shí),在癌癥的基因篩查中,端到端的流程也可以在 GPU 上實(shí)現(xiàn)比較明顯的加速。
2022 年春季 GTC 大會(huì)上,NVIDIA 發(fā)布了 Hopper 架構(gòu)的 GPU。該架構(gòu)的 GPU 對(duì)于動(dòng)態(tài)編程做了很好的加速,單就動(dòng)態(tài)編程這一特性,Hopper 架構(gòu)就比上一代的 Ampere 架構(gòu)有了 7 倍的理論加速。而在基因組學(xué)分析中,動(dòng)態(tài)編程技術(shù)是需要被頻繁使用到的,也因此,Hopper 架構(gòu)的 GPU 可以給基因測(cè)序帶來(lái)重大的收益。
上文提到的,斯坦福大學(xué)創(chuàng)造的基因測(cè)序世界紀(jì)錄就是借助 NVIDIA CLARA Parabricks 實(shí)現(xiàn)的。
這里再跟大家分享一個(gè)案例,就是英國(guó)的 BioBank 這家公司,他們要處理 50 萬(wàn)個(gè)外顯子,這些在 CPU 上需要 1 個(gè)小時(shí)才能得到結(jié)果,而 GPU 將這個(gè)過程僅僅縮短到了 5 分鐘,成本下降了 60%。
這里展示了 CLARA Parabricks 的資料參考頁(yè),感興趣的聽眾可以登陸 CLARA Parabricks 的網(wǎng)頁(yè)了解更多的內(nèi)容。同時(shí),CLARA Parabricks 已經(jīng)可以在百度智能云上使用了,在云上的 GPU 最佳實(shí)踐專欄中還提供了 CLARA Parabricks 的使用方式和詳盡介紹,感興趣的同學(xué)可以登陸https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多內(nèi)容。
在加速三級(jí)分析這部分,同樣可以使用 GPU 版本的大數(shù)據(jù)處理 SDK RAPIDS。RAPIDS 是一個(gè)端到端的 GPU 加速數(shù)據(jù)科學(xué)的 SDK。它包括數(shù)據(jù)處理的 SDK cuDF,用于傳統(tǒng)機(jī)器學(xué)習(xí)的 SDK cuML,圖計(jì)算 SDK cuGraph,以及一些可視化的庫(kù)、眾多延伸的庫(kù)等。基本上 NVIDIA 非深度學(xué)習(xí)類的 GPU 加速庫(kù)都在這里了。
單個(gè)細(xì)胞的三級(jí)分析依賴于眾多的傳統(tǒng)機(jī)器學(xué)習(xí)與大數(shù)據(jù)的方法,比如回歸聚類等算法以及一些可視化的方法。右邊展示的就是針對(duì) scRNA 序列處理的聚類,回歸與可視化端到端運(yùn)行的時(shí)間。可以看到,使用 GPU 可以降低整體的運(yùn)行時(shí)間。
最后讓我們?cè)俅位仡櫼幌逻@張圖,NVIDIA GPU 在一級(jí)至三級(jí)分析上都有相應(yīng)的解決方案。尤其在二級(jí)分析和三級(jí)分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以帶給用戶更好的性能與性價(jià)比的提升。這也是斯坦福大學(xué)利用 GPU 打破基因測(cè)序世界紀(jì)錄的根本原因。
上面提到的這些軟件,大家可以登陸 NVIDIA NGC 平臺(tái)(https://catalog.ngc.nvidia.com/ )下載相應(yīng)的軟件進(jìn)行體驗(yàn)。
原文標(biāo)題:百度智算峰會(huì)精彩回顧:GPU 加速藥物研發(fā)與基因組學(xué)分析
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3823瀏覽量
91555
原文標(biāo)題:百度智算峰會(huì)精彩回顧:GPU 加速藥物研發(fā)與基因組學(xué)分析
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論