01
研究動機
藥物設計(Drug Design)旨在針對給定的生物靶點(通常為蛋白質口袋)提供符合設計要求的候選分子。傳統藥物設計方法,使用虛擬篩選技術從大規模藥物庫中檢索符合要求的候選,但由于需要篩選的分子數目十分龐大(大約為1033),這些方法既耗時也無法提供除分子庫之外的新候選分子。
近年來,由于深度生成模型具有設計速度快且能提供新穎分子的特點,有一系列工作嘗試使用深度生成模型進行藥物設計,展現出具有潛力的性能。根據分子表示的維度,它們主要可分為兩類:基于一維/二維的分子設計以及基于三維的分子設計。對于前者,它們將分子表示為一維SMILES序列或二維分子圖,忽視了生物靶點與藥物發生在三維空間的交互信息。此外,這些方法還依賴于昂貴且稀少的濕實驗數據,這嚴重地限制了它們的應用范圍與設計性能;對于后者,它們直接建模三維的藥物分子,因此具有利用交互信息設計分子的能力,然而它們,或同樣需要實驗數據,或依賴耗時的分子對接模擬(Molecule Docking)提供監督信號,使得它們需要在設計性能與設計效率上進行取舍??偟膩碚f,藥物設計面臨著“擺脫實驗數據依賴”以及“在保證設計性能的前提下,提高設計效率”兩個挑戰。
圖1:DESERT為指定蛋白質口袋設計藥物的示意圖
面對這兩個挑戰,我們基于“結構決定性質”的生物學原理提出了DESERT(Drug Design by Sketching and Generating)——零樣本三維藥物設計方法。具體來說,根據該生物學原理,我們假設當分子形狀與給定的蛋白質口袋互補時,對應的分子與蛋白將具有令人滿意的生物活性?;谶@樣的先驗知識,DESERT采用“先描繪再生成”的策略將藥物設計分為兩個過程(如圖1所示):對于“描繪”過程,我們使用啟發式方法通過采樣獲得合理的分子形狀,對于“生成”過程,我們利用預訓練的生成模型來生成填充分子形狀的三維分子。值得注意地是,在預訓練過程中,我們只利用了大規模的非實驗數據庫,因此DESERT可以擺脫對實驗數據的依賴。同時,DESERT不需要使用對接模擬提供模型訓練的監督信號,因此在設計效率上也具有優勢。
02
貢獻
1.我們提出了DESERT——一種新穎的零樣本三維分子設計方法
2.方法利用海量的非實驗數據進行訓練擺脫了對昂貴且稀少的實驗數據的依賴
3.達到了目前最先進的藥物設計水平,并比之前的先進方法在設計效率上快了20倍
03
解決方法
圖2:DESERT藥物設計方法總覽
圖2是DESERT方法的總覽圖,正如之前提到,DESERT將藥物設計分為了“描繪”(Sketching)與“生成”(Generating)兩步:對于“描繪”步驟,它負責獲取合理的分子形狀。根據獲取形狀的來源,DESERT可以復用已有的藥物的形狀,稱為“基于配體的描繪”(Ligand-based Sketching,如圖2(b)所示),同樣也可以不使用已有藥物,直接根據蛋白質口袋進行“描繪”,稱為“基于口袋的描繪”(Pocket-based Sketching,如圖2(c)所示)。而在“生成”步驟中,DESERT利用Shape2Mol模型,根據“描繪”得到的分子形狀,進一步生成填充形狀的三維分子(如圖2(b)(c)所示),其中Shape2Mol模型使用海量的非實驗數據進行訓練(如圖2(a)所示)。
圖3:“基于口袋的描繪”的二維示意圖
具體介紹“描繪”步驟。對于"基于配體的描繪",由于給定了已知藥物,我們可以簡單地復用已有藥物的分子形狀作為“描繪”的結果。對于“基于口袋的描繪”,情況相對復雜,因為蛋白質口袋通常要比可能的藥物分子大得多,直接利用蛋白質口袋的形狀作為“描述”結果并不合理,但我們也觀察到,藥物分子在蛋白口袋中的分布集中于接近口袋表面的區域(只有這樣分子才能和蛋白質形成化學作用),基于以上結論,我們提出使用啟發式方法從蛋白質口袋中采樣合理的分子形狀。具體來說,如圖3所示,我們使用一個“種子形狀”逐漸與“蛋白口袋”進行相交,當相交部分的體積達到閾值后(已有藥物的體積均值),我們將相交的部分作為“描繪”的結果。通過這樣的方法,獲得的偽分子形狀可以具有合適的體積大小同時也滿足分布在靠近口袋表面區域的要求。
圖4:Shape2Mol的模型架構圖
在“生成”階段,DESERT借助預訓練模型Shape2Mol將分子形狀“翻譯”為高質量分子。圖4為模型Shape2Mol的架構,其由“形狀編碼器”(Shape Encoder)和“三維分子解碼器”(3D Molecule Decoder)組成,輸入為分子形狀的三維圖像,輸出為契合該形狀的三維分子。訓練Shape2Mol時,我們從ZINC數據庫(包含十億非實驗獲得的三維分子)中采樣了一億類藥分子作為訓練集。
圖5:獲取分子形狀的體素化表示
對于Shape2Mol中的“形狀編碼器”,我們的輸入為分子形狀的三維圖像,即體素化(體素類似于二維圖像中的像素,不同的是體素對應于三維物體)后的分子形狀,圖5展示了獲取三維圖像的流程。對于模型的結構,我們基于廣泛被用于二維圖像處理的ViT模型進行了擴展,具體地,將該模型的二維圖像補丁升級為了三維圖像補丁,以用于處理三維物體。
圖6:將分子轉換為目標序列
對于Shape2Mol的“三維分子解碼器”,我們將分子轉換為序列的形式(轉換成序列,是因為能方便地進行概率建模,此外我們還發現在“令牌化”后,許多分子本身就已經是序列了)對模型進行訓練。轉換過程分為“令牌化”(Tokenization)和“線性化”(Linearization)兩步:對于“令牌化”,我們結合分子切分規則BRICS,將分子拆解成多個片段,如圖6所示,經過“令牌化”后,分子從圖狀結構被轉化成了樹狀結構。為了進一步降低建模難度,我們通過“線性化”將樹狀結構最終轉換成序列結構,具體地,我們依照深度優先的原則對樹進行遍歷,每當進入/離開子樹時,分別加入特殊符號[BOB]和[EOB]到返回序列中。
模型訓練的目標函數為交叉熵損失。編碼器與解碼器都具有12層Transformer層,模型維度為1024維,模型的參數大小為6億5千萬。在訓練Shape2Mol時,使用0.1的Dropout,2048的批大小,最大訓練步數為30萬步,優化器為AdamW以5e-4的學習率、1e-2的權重衰減以及4000步的warmup設置。訓練使用了32塊V100 GPU,訓練時長為2周。
04
實驗
依照前人工作,我們選取了12個具有代表性的蛋白口袋作為設計靶點,并選取了多個一維/二維以及三維的先進模型作為比較對象。對于前者,由于需要使用濕實驗測定的生物活性數據,我們只在2個能找到活性數據的靶點上進行了測試。關于量化指標,我們使用了6個被廣泛應用的評價指數,從多個方面衡量模型設計的候選分子的質量。
表1:藥物設計模型的性能比較。↑表示越高越好,↓表示約低越好
表1展示了我們的方法DESERT在分子設計質量上已經超越了之前的最佳水平,達到了目前最先進的性能。特別是與基于監督學習的三維分子設計模型liGAN以及3D SBDD相比,我們的無監督方法取得了更優秀的性能,這表明當前稀少的實驗數據限制了模型設計藥物分子的質量,利用海量的非實驗數據可以帶來可觀的提升。
圖7:不同設計方法設計質量與設計速度的對比(以蛋白3FI2的靶點為例)
在設計速度上,如圖7所示,DESERT不使用耗時的分子對接模擬提供模型監督信號,并且只需要經過一次預訓練過程,與之對比,之前最先進的方法GEKO則需要頻繁地調用對接模擬進行模型訓練,且對于不同的口袋靶點需要訓練特定的模型參數,因此DESERT顯著地加快了藥物設計的速度,同時還取得了當前最佳的分子設計質量。
圖8:不同預訓練配置的比較
針對預訓練生成模型Shape2Mol,我們比較了不同預訓練配置對于模型質量的影響,主要包括訓練數據集大小以及模型參數量的影響。如圖8所示,增大模型參數量顯著地提升模型的質量,而增大訓練數據集,在數據集達到中等規模后出現了性能飽和現象,我們認為可能的原因為當前從形狀到分子的任務相對容易,模型在使用中等規模的數據后就能捕獲兩者的映射關系。
圖9:“描繪”分子形狀數量對設計質量影響
針對“描繪”分子形狀的步驟,我們探索了采樣的分子形狀數量對分子設計質量的影響。如圖9所示,當形狀數量增多時,DESERT能提供更為優質的候選分子,這是因為采樣更多地分子形狀能更為充分地探索整個蛋白質口袋,找到更多合理的偽分子形狀。
除了以上實驗,我們還對DESERT的“描繪”以及“生成”步驟做了更多的探索分析實驗,包括:訓練時是否使用噪聲對抗訓練,是否需要將連續的模型預測目標離散化,結合蛋白質的化學信息帶來的影響等,此外我們還將DESERT應用到了一個更大的測試數據集上,獲得了與表1相近的結果。具體的實驗圖表及分析參見正式的會議文章。
圖10:對比之前模型的生成樣例,可以看到DESERT設計的分子結構更合理。
05
總結
針對藥物設計中“擺脫實驗數據依賴”以及“提升設計效率”的挑戰,我們提出了一種新穎的零樣本藥物設計方法DESERT,它將藥物設計分為“描繪”與“生成”兩個階段,并使用分子形狀進行橋接。由于方法只需要大規模的非實驗數據進行訓練,DESERT擺脫了對實驗數據的依賴,同時因為不需要對接模擬提供監督信號,方法的設計效率也有明顯地優勢。通過實驗,我們展示了DESERT在分子設計質量上達到了先進水平,同時對比之前的先進模型,在設計速度上也有明顯提升。
-
數據
+關注
關注
8文章
7104瀏覽量
89294 -
模型
+關注
關注
1文章
3279瀏覽量
48974 -
三維圖像
+關注
關注
2文章
19瀏覽量
9806
原文標題:NIPS'22 | 南大提出:通過“描繪”和“生成”的零樣本藥物設計
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論