計算生物學領域依賴于快速、準確和易于使用的生物信息學工具。隨著下一代測序( NGS )的速度越來越快、成本越來越低,數據洪流正在出現,人們對可訪問、高通量、行業標準分析的需求日益增長。
2022 年 GTC ,我們宣布發布 NVIDIA Clara Parabricks v4.0 ,這對基因組研究人員和生物信息學家部署和擴展基因組測序分析管道的方式帶來了重大改進。
Clara Parabricks 軟件現在對 NGC 研究人員免費提供 作為單獨的工具或統一的容器。需要企業級支持的客戶可以通過 NVIDIA AI Enterprise 獲得許可版本。
Clara Parabricks 現在很容易集成到通用工作流語言中,例如工作流描述語言( WDL )和 NextFlow ,用于將 GPU 加速工具和第三方工具交織在一起,以及在本地和云中進行可擴展部署。還支持 Broad Institute 的 Cromwell 工作流管理系統。
CPU Parabricks 現在可以部署在 Broad Institute 的 Terra SaaS platform 上,使 25000 多名 Terra 科學家可以使用它。與 Clara 環境中的 24 小時相比,使用 Clara Parabricks 可以將基因組分析縮短到一小時多一點,同時將整個基因組測序分析的成本降低 50% 。
Clara Parabricks 繼續專注于 GPU 加速、行業標準和基于深度學習的工具,并包括最新的 DeepVariant v1.4 生殖線調用者。 Clara Parabricks 的重點是開發與定序器無關的工具和深度學習方法。
Clara Parabricks 現在可以通過更多的云提供商和合作伙伴使用,包括 Amazon Web Services 、 Google cloud Platform 、 Terra 、 DNAnexus 、 Lifebit 、 Agilent Technologies 、英國生物銀行研究分析平臺( RAP )、 Oracle cloud Infrastructure 、 Naver cloud 、阿里云和百度 AI cloud 。
研發的免許可使用
Clara Parabricks v4.0 現在可完全免費用于研發。這意味著比以往任何時候都更少的技術障礙,包括刪除以前版本的基因組分析軟件中存在的安裝腳本和企業許可服務器。
這也意味著大大簡化了部署,能夠在任何 NVIDIA 認證的系統上快速輕松地拉取和運行 Clara Parabricks Docker 容器,在本地或云中使用最為方便。
需要企業級技術和工程支持以支持其生產工作流的商業用戶,或者需要與 NVIDIA 專家合作開發新功能、應用程序和性能優化的商業用戶現在可以訂閱 NVIDIA AI Enterprise Support 。 NVIDIA AI Enterprise v3.0 即將發布, Parabricks v4.0 將提供此支持。
NVIDIA AI Enterprise Support 訂閱提供全棧支持(從容器級別,到完全本地和云部署)、訪問 NVIDIA Parabricks 專家、安全通知、 IT 或數據科學等領域的企業培訓,以及對 TensorFlow 、 PyTorch 、 NVIDIA TensorRT 和 NVIDIA RAPIDS 的深度學習支持。了解有關 NVIDIA AI Enterprise Support Services and Training 的更多信息。
圖 1.免費訪問 Clara Parabricks 中的所有工具,包括管道和工作流
在 WDL 和 NextFlow 工作流中部署
現在,您可以直接從 NGC collection containers 中提取 Clara Parabricks ,而無需授權服務器,這意味著它可以輕松地作為多種系統和平臺上可擴展和靈活的生物信息學工作流的一部分運行。
這包括流行的生物信息學工作流管理器 WDL 和 NextFlow ,可在新的 Clara-Parabricks-Workflows GitHub repo 上獲得,供生物信息學社區通用。您可以找到以下 WDL 和 NextFlow 工作流或模塊:
BWA-MEM 與 Clara Parabricks FQ2BAM 對齊和處理
運行加速 HaplotypeCaller 和 DeepVariant 的生殖線調用工作流,可選擇應用 GATK 最佳實踐
BAM2FQ2BAM 工作流程,用于提取讀取并重新對準新的參考基因組(例如 T2T 完成的人類基因組)
使用加速 Mutect2 的體細胞工作流,具有可選的法線面板
為 VCF 中的體變量調用生成新法線面板的工作流
用于構建參考索引的工作流(對于前面列出的幾個工作流和任務來說是必需的)
此外,與國家癌癥研究所的研究人員合作開發的三組數據中的從頭突變調用工作流將于今年晚些時候提供。
這些工作流帶來了令人印象深刻的靈活性,使用戶能夠將 Clara Parabricks 的 GPU 加速工具與第三方工具交織在一起。他們可以為每個任務指定單獨的計算資源,然后在本地集群(例如,在 SLURM 上)或云平臺上大規模部署。有關示例配置和推薦的 GPU 實例,請參閱 Clara-Parabricks-Workflows GitHub repo 。
圖 2.直接從 Clara Parabricks Docker 容器中拉出并指定 gpuType and gpuCount compute requirements
在本地或云中運行
Clara Parabricks 非常適合云部署。它可以在多種云平臺上運行,包括 Amazon Web Services 、 Google Cloud Services 、 DNAnexus 、 Lifebit 、百度人工云、 Naver cloud 、 Oracle cloud Infrastructure 、阿里云、 Terra 等。
Clara Parabricks v4.0 WDL 工作流現已集成到 Broad Institute 的 Terra 平臺中,供 25000 多名科學家進行加速基因組分析。 Terra 的可擴展平臺運行在 Google Cloud 之上,后者擁有 NVIDIA 車隊 GPU 。在 CPU 環境中,對 30 倍全基因組進行 FASTQ 到 VCF 分析需要 24 小時,而在 Terra 環境中, Clara Parabricks 只需要一個多小時。此外,成本降低了 50% 以上,從 5 美元降至 2 美元(圖 3 )。
在 Terra 平臺中,研究人員可以比在本地環境中更容易地訪問大量數據。他們只需按一下按鈕就可以訪問 Terra Community Workbench Parabricks 工作區,而不是手動管理和配置硬件。從 Clara 上的 Clara Parabricks 頁面開始。
圖 3.在 Terra 中運行的 FASTQ 到 VCF
當使用 Clara Parabricks 和 NVIDIA GPU 時, 30 倍全基因組(包括 BWA-MEM 、 MarkDuplicates 、 BQSR 和 HaplotypeCaller )的種系分析的運行時間和計算成本(可搶占定價)大大減少。
Clara Parabricks v4.0 工具和功能
Clara Parabricks v4.0 是一個比以前版本更專注的基因組分析工具集,具有快速校準、金標準處理和高精度變體調用。它提供了自由無縫地交織 GPU 和 CPU 任務的靈活性,并優先考慮基因組學工作流中最流行和瓶頸工具的 GPU 加速。 Clara Parabricks 還可以整合基因組學中的前沿深度學習方法。
圖 4. NVIDIA Clara Parabricks v4.0 工具集
單個 Clara Parabricks 工具現在也可以在 Clara Parabricks collection on NGC 中的單個容器中提供,或者作為一個統一的容器,將所有工具包含在一個容器中。對于單個容器,生物信息學家可以訪問精益容器, Clara Parabricks 團隊可以推動更頻繁的敏捷工具發布,以訪問最新版本。
這些版本中的第一個是針對 DeepVariant 1.4 版。這個最新版本的 DeepVarant 提高了多個基因組測序器的準確性。 Illumina 全基因組和全外顯子組模型有一個額外的讀 – 插入 – 大小特征,可減少 4-10% 的錯誤,并在 PacBio 測序運行中直接定相以獲得更準確的變體調用。這意味著您現在可以使用諸如 DeepVariant WhatsHap DeepVariant 或 PEPPER Margin DeepVarient 之類的管道,直接在 DeepVaarint 中執行階段變量調用 PacBio 數據的高精度過程。
DeepVariant v1.4 還與新興基因組測序儀器的多個自定義 DeepVariant 模型兼容。與 NVIDIA Clara Parabricks 團隊合作, GPU 加速了這些模型,以在測序儀器中提供快速、高精度的變量調用。 DeepVariant 1.4 版現已在 Clara Parabricks collection on NGC 中提供。
基因組學和精確醫學的深度學習方法是 Clara Parabricks 的一大重點,并在 GTC 2022 NVIDIA and Broad Institute 關于基因組分析工具包( GATK )和 DNA 和 RNA 大型語言模型的進一步發展的公告中予以強調。
關于作者
作為NVIDIA 基因組學的高級產品架構師, Harry 致力于工程和產品開發之間的接口,利用NVIDIA 在人工智能、高性能計算( HPC )和數據分析堆棧方面的專業知識,以加速高精度解決方案解決基因組學工作流問題。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4991瀏覽量
103134 -
gpu
+關注
關注
28文章
4742瀏覽量
128976 -
深度學習
+關注
關注
73文章
5504瀏覽量
121212
發布評論請先 登錄
相關推薦
評論