碳云智能作為數字生命健康管理領域全球獨角獸公司,旨在利用信息學、統計學、人工智能等前沿技術算法深入挖掘整合人體健康相關的各類數字生命數據,最終實現數字化精準健康管理服務。
GPU加速數字生命計算
基于數字生命的理念,高通量測序技術的發展、可穿戴設備的普及、生物多組學與醫學影像分析方法的突破都為個性化智能健康服務帶來了機遇。
碳云智能的數字生命計算平臺將Tesla P40應用于多類生物數據挖掘分析加速。任務涵蓋小樣本高維度生命數據的特征提取、機器學習分類及基于深度神經網絡的健康狀態預測等。
以碳云針對類風濕關節炎病患的宏基因組數據提取關鍵特征任務為例,通過RAPIDS的加速,使用一塊Tesla P40后,處理相同任務的速度相較于之前使用傳統10核CPU提高了6倍。同樣,使用GPU的加速也能將碳云的深度模型加速10倍以上。
數據激增,性能遇瓶頸
隨著數據量的急劇增長,通常的分析流程和算法模型開始在某些IO與計算密集的部分出現性能瓶頸,同時人工智能的發展又為碳云智能提供了新的方式去分析數據。一方面,準確性與響應速度對于用戶體驗的重要性與日俱增;另一方面,生物數據下機之后往往需要大量計算密集的預處理,導致研發人員需要把大量的時間消耗在等待數據的讀取與預處理流程上。碳云智能需要優化流程與算法中關鍵部分的運行速度,從而提高用戶體驗與整體研發效率;同時擁抱各類深度學習算法,提高算法準確度。
RAPIDS加速計算顯成效
碳云智能采用Tesla P40,并使用RAPIDS提供的接口,在多項組學數據挖掘工作中利用GPU取代傳統CPU,從而使得整體處理速度明顯提高。
不失一般性,以基于腸道微生物數據預測類風濕疾病風險和生理年齡等指標為應用案例,微生物的K-mer數據有超過上億數目的特征數量,對數據讀取和分析算法都是巨大的挑戰。分析流程需要先并行地使用顯著性分析進行特征過濾,隨后整體進行特征降維并用于下游分析。使用RAPIDS對該流程各模塊提速,其中數據讀取提高最大可達6倍以上;特征降維以PCA為例,在目前CuML的實現仍不成熟的前提下依然可以將計算時間縮短至1/2。
深度學習方面,碳云智能使用大量微生物數據訓練特征深度模型用于特征提取,GPU可使訓練過程提速10倍以上,并且基于微生物的深度特征的分類器的F1-score比傳統方法提高30%。這一案例說明,在數字生命大數據通用的運算需求下,GPU及RAPIDS框架有效地助力提升了碳云智能挖掘整合多維生命數據的運算效率。
GPU加速激發數字生命計算新思路
碳云智能使用RAPIDS加速各類數據讀取與統計機器學習方法,利用GPU加速的深度學習算法在性能表現上顯著超過了傳統方法。RAPIDS的Python接口簡單易用,能幫助碳云智能的數據科學家無需付出過多的額外努力即可改良現有流程,能夠每日為數據預處理節約大約1小時。
通常數字生命中的多組學大數據相較于互聯網大數據(圖片、語音、文字等)具有樣本空間小特征維度高的特點。通過碳云智能的示范案例可以了解到GPU及RAPIDS框架對于傳統生命大數據的降維、分類、回歸預測等任務加速具有強大的潛力,使其得以充分運用現有各類生物數據,深度模型在碳云智能的各類分類與回歸任務上都對傳統方法有所提高,給生物信息的方法學帶來了各種新思路。
-
人工智能
+關注
關注
1792文章
47440瀏覽量
238989 -
數字化
+關注
關注
8文章
8783瀏覽量
61911
原文標題:碳云智能基于 RAPIDS 加速數字生命AI應用
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論