寫在開頭
近期,我有幸參加了多場既包括學術研討又涵蓋業界實踐的會議,這些會議都集中討論了人工智能與科學的結合。而通過這些深入的交流讓我深刻體會到,在科學技術領域中,尤其是‘AI for Science(AI4S)’和‘Science for AI(S4AI)’這兩個方向,人工智能的重要性正日益凸顯,并且發展勢頭迅猛。為了更深入地理解這一領域的最新動態和應用,我投入了大量的時間和精力進行了學習和研究。在這個過程中,我意外發現了一篇名為《How to do impactful research in artificialintelligencefor chemistry and materials science》[1]的綜述文章,它不僅提供了一個關于人工智能在化學和材料科學領域應用的全面的視角,而且還涵蓋了當前的研究進展、面臨的挑戰以及未來的發展方向等內容。
文章首先深入探討了人工智能在化學和材料科學領域中的應用現狀及未來發展趨勢。然后列舉了機器學習在化學領域的多種應用,包括從預測分子性質到設計合成路線,再到模擬和分析,覆蓋了化學研究的諸多方面。此外,論文還分析了機器學習研究者如何看待和解決具體的化學問題,其中將這些問題轉化為機器學習的經典問題,如回歸、分類、生成模型和智能體等,并探討了基準測試、跨學科合作以及深度學習中的“慘痛的教訓”等關鍵主題。
更重要的是,論文指出了選擇有影響力的機器學習研究問題的標準,以及進行有效研究所需的步驟——包括數據收集、問題框架制定、方法選擇和結果評估。文章強調機器學習在化學領域發展的三個關鍵方向:廣度、深度和規模,并呼吁化學家與機器學習研究者之間的緊密合作,以解決更復雜和具挑戰性的科學問題。
接下來,我將逐步分享這篇綜述文獻的內容。由于編譯后的內容篇幅較長,因此我計劃將其分為三個部分來逐一呈現。首先是第一部分編譯的內容,如下:
第一部分編譯后的內容:
摘要:機器學習已經廣泛地影響了多個科學領域,包括化學和材料科學。盡管機器學習已經產生了顯著的影響,但其潛力和成熟度尚未完全發揮出來。在這篇文章中,我們首先概述了機器學習在化學領域中各種問題在當前的應用情況。然后,我們討論了機器學習研究者應該如何看待和處理該領域的問題。最后,我們提出了在化學研究中最大化機器學習影響的一些思考和看法。
1.引言
機器學習已經在化學領域得到了廣泛的應用,并且這種應用正迅速增長。盡管如此,我們認為ML仍有更大的發展空間和應用潛力。目前的工作尚未充分發揮機器學習在推動化學理論和應用方面的廣度、深度和規模潛力。此外,ML能夠解決的實際問題類型,如假設生成或促進科學理解的內化,依然是活躍的研究領域或未解決的問題。
為了全面地了解這一領域,我們首先需要對化學問題進行分類,這些問題涵蓋了預測、生成、合成、力場、光譜學、反應優化和基礎模型等多個領域。接著,我們介紹了機器學習中涉及的問題類型,并展示了化學問題如何被重新構思為機器學習問題的實例。通過這些標準問題,有助于整理出機器學習提供的算法和理論工具。在深入探討這一視角的基礎上,我們還研究了機器學習和化學社區在實踐和價值觀上的差異,強調了合作和交叉啟發的觀點如何推動這兩個領域的發展。有了這些基礎,我們可以討論如何選擇在化學中應用機器學習的有影響力的應用,并推薦了我們在這一領域研究的良好實踐。
2.數據驅動的化學:問題分類
對于化學,以及科學總體而言,都涉及以某種形式存在的數據。因此,可以毫不奇怪地認為,數據科學對化學是至關重要的。作為數據科學的一個子領域,機器學習已經成為我們學科領域不可或缺的工具。因此,對迄今為止的重要工作進行分類和組織變得尤其重要了。
我們提出了一種關于機器學習在化學問題中的應用分類法。如圖1所示,機器學習被用于通過對化學結構、性質、3D結構與動力學以及實驗數據進行編碼和解碼,從而解決各種化學問題。由于篇幅、時間和重點的限制,這并不是一篇全面的綜述,而是一個強調機器學習在化學領域多樣化應用的機會。我們不會詳細介紹機器學習算法。如需詳盡的評估,請參見其他文獻。
圖1:與機器學習相關的化學問題分類法。每個箭頭表示機器學習的應用,并展示這些內容之間的關系。基礎模型和自動化實驗室涵蓋所有這些領域。
2.1 從結構到性質:性質預測
2.1.1 化學信息學與定量構效關系。
化學領域在“機器學習”這一術語廣泛使用之前,就已經開始利用數據來預測化學結構的性質。這個領域最初被稱為化學信息學。這些工具旨在存儲、檢索和建模化學結構。早期的例子可以追溯到1957年,當時進行的是數據庫中的子結構搜索,隨后便是簡單的多元回歸,用于學習定量結構-活性關系(QSAR),即分子描述符(如哈米特(Hammett)常數和分配系數)與生物活性之間的關系。這些研究主要集中在性質與活性之間的關系上——最早的結構-活性關系涉及局部解釋,分析了環上的取代基如何影響活性,這種分析可以通過子結構分析推廣到許多不同的骨架。最終,計算機自動將分子結構編碼為指紋——一種位向量,用于存儲分子中存在或缺失的多種子結構。這些指紋在編碼分子結構以預測簡單模型(如支持向量機)中的分子活性方面非常有用。
2.1.2 使用專家描述符表示分子
盡管化學家對官能團對分子性質的影響有一定的概念理解,但將這些信息有效傳達給模型是確保模型具備預測能力的關鍵。專家描述符將來自實驗或理論知識的化學信息注入到模型特征中,并在數據量較少的情況下取得了良好的預測性能。這些專家描述符在模型訓練集之外也具有很好的泛化能力,因為這些特征蘊含了豐富的化學知識。早在1937年,哈米特(Hammett)就擬合了σ參數,以預測化學取代基對反應性的影響。此外,組分貢獻方法假設結構組件或功能化在許多不同分子中表現相同,將這些組件參數化為可用于預測分子性質的數值特征。自那時起,該領域發展出了涉及分子指紋識別技術以及用于預測的二維和三維的信息。近年來,由于均相過渡金屬催化劑的性質受到其附加配體強烈影響,因此對這些膦配體的結構特征和電子特征進行參數化也在催化劑性質預測方面取得了成功。回顧歷史模型,最近的研究還成功地利用密度泛函理論(DFT)和機器學習來學習哈米特(Hammett)參數。
2.1.3 學習化學表示
隨著計算硬件的進步,模型變得愈加復雜,從簡單的線性回歸模型發展到諸如自編碼器、生成對抗網絡、圖神經網絡和變換器等復雜架構。我們不再依賴化學家直觀判斷分子的最佳表示方式,而是可以利用模型自動學習并挖掘大量數據中的復雜模式,以進行性質預測。在一定程度的抽象下,這種方法往往忽視三維信息或波函數特性,分子可以自然地表示為圖,其中原子是節點,鍵是邊。通過將指紋的概念從離散比特向量擴展到連續特征向量,我們提出了圖神經網絡,以自動學習重要子結構的連續表征,并在分子性質預測任務中取得了最先進的性能。這些表征已廣泛應用于多個領域,例如用于分子的嗅覺性質的機器學習,以及在催化中預測吸附物的吸附性質。
雖然構建圖所需的簡單原子特征和鍵特征可以迅速生成,但要進行預測的性質卻更難以獲取,尤其是在高質量和高準確度方面。由于學習到的表示通常需要大量的數據,因此復雜的架構在從典型實驗設置中收集到的少量數據上表現并不理想。為了填補這一空白,研究人員創建了分子基準,以便能夠正確評估這些學習到的表示的質量。這些基準包含了來自文獻的數據任務,涉及預測生物行為以及物理化學性質或量子化學性質,并提供了一個共同的平臺,使不同的機器學習架構能夠以多種方式利用相同的數據進行性質預測。
為了提升圖嵌入的性能,如果我們對如何調整嵌入空間以更好地反映輸入之間的距離有一些直觀理解,就可以進一步優化這些嵌入。這可以包括一些策略,例如使嵌入意識到化學反應如何轉化這些嵌入,或者采用對比學習等方法。最后,對于那些對分子在三維空間中構象敏感的任務,將三維表示與固有不足的二維圖結合起來,已被證明在預測分子性質方面是有效的。
2.1.4 限制和未解決的問題
盡管分子機器學習取得了巨大進展,但是機器學習模型在超出其訓練數據范圍時的泛化能力仍然有限,這給在新型化學領域應用帶來了困難。有幾種方法可能有助于彌補這些差距。例如,可以使用物理信息模型,這些模型能夠包含一些基本表示,從而幫助模型更好地概括自身的表示,以滿足與自然物理法則相關的一些對稱性或特性。主動學習也是一種強大的工具,它可以通過捕獲計算或實驗數據來動態擴展數據集,以實現外推。此外,雖然模型在性質預測基準任務中的表現逐漸改善,但這些基準僅代表了化學任務的一個小子集,因此它們在其他具體任務上的表現仍不明確。盡管我們嘗試創建更具代表性的基準,但這仍然不是社區的主要關注點。
結構-性質模型已被廣泛應用于篩選項目中,并實現了一些經過實驗驗證的預測。我們將在第2.2.1節中討論幾個精選案例研
2.2 從性質到結構:設計分子的化學空間
理性設計范式分析了結構與性質之間的關系,以便設計出有前景的分子。而另一種范式提出的問題是:有哪些分子能夠滿足給定的性質?解決這個問題被稱為逆向設計問題。
化學空間是所有可合成分子的集合,通常認為其規模龐大,至少有10^33到10^60個分子。在這片廣闊的空間中,潛在藥物可能治愈當前疾病,而某些假設材料則可能為實現可持續的未來提供支持。
2.2.1 虛擬篩選
在導航化學空間的過程中,一種簡單的方法是首先列出一系列可行的選擇,然后逐步縮減至最佳解決方案。為實現這種轉變,實驗上采用了高通量篩選和合成化學庫中化合物的組合化學等策略。考慮到化學空間的巨大規模,隨意搜索化合物只會產生少量有希望的結果,導致效率低下,因為廣泛的化學合成活動的成本往往是高昂的或受限的。這促使了虛擬篩選和計算搜索漏斗作為一種方法,以過濾出不太有可能的化合物,僅留下最佳的候選化合物進行合成和測試。在藥物發現中,計算機輔助的簡單篩選可以排除高分子量或帶有問題官能團的化合物,然后再進行更為計算密集的對接,以估計結合親和力,最終縮小到少數先導化合物。隨著虛擬庫規模的擴大增加了有希望結果出現的可能性,這推動了越來越大規模的篩選活動,同時也需要越來越多的計算資源。例如,在哈佛清潔能源項目中,我們通過分布式志愿者計算進行了量子化學計算,搜索了10^7^個候選分子以尋找高效的有機光伏材料。
類似地,VirtualFlow通過高效利用數千個CPU核心對超過10億個分子進行了對接。隨著化學庫規模的增長,所需的計算資源呈線性增加,而評估個別合成構件適應性的分層方法為突破線性擴展提供了一種途徑。
2.2.2 生成模型的逆向設計
隨著化學庫的規模超過10^15個分子,篩選這些分子在計算上變得極為困難,機器學習(ML, Machine Learning)提供了一種在不模擬所有分子的情況下考慮大搜索空間的方法。例如,在一個化學庫中,許多分子應該具有相似的結構和性質,因此對每個分子進行模擬是不必要的。處理這一問題的一種正式方法是先模擬庫中的一部分,然后在這個子集上訓練性質預測模型,這些模型應能夠推廣到整個庫。由于這些性質預測模型的計算成本低于模擬,因此可以對整個庫進行評估,并用于優先選擇候選分子進行模擬。我們利用這一方法設計了經過實驗驗證的有機發光二極管(OLEDs)。
然而,機器學習的另一種方法則提供了一種考慮所有(或大部分)化學空間的方式。給定一個以SMILES字符串表示的分子數據集,生成模型學習生成與該數據集相似的字符串。由于生成模型可以考慮任意字符串,它們有潛力生成化學空間中的任何分子。同時,它們也可以被條件化,以生成具有所需性質的分子——本質上是逆轉性質預測過程。分子生成模型已應用于多種模型類別,我們率先使用變分自編碼器(VAEs)來實現這一目的。其他例子包括自回歸模型、生成對抗網絡(GANs)和強化學習等眾多采樣策略。此外,生成模型還擴展到各種表示形式,如SMILES、SELFIES,以及分子圖和片段等。盡管遺傳算法和貝葉斯優化等分子優化方法有時也被稱為生成模型,但它們并不直接學習分子的分布。關于不同生成模型類別和表示形式的最新綜述可見于Gao等人的研究[2],盡管這一領域正在迅速地發展。
隨著越來越多的生成模型被提出,基準測試如GuacaMol和MOSES開始根據有效性、新穎性、獨特性以及目標導向優化來評估和比較不同的生成模型。優化已成為主要焦點,因此可以將分子設計視為在分子圖空間內對其性質進行組合優化。在這種背景下,一個新的基準強調樣本效率,即達到最佳分子所需進行性質評估的數量。此外,我們最近在Tartarus基準集中提出了更現實的基準任務,這些任務依賴于模擬,更加貼近計算資源和實驗資源受限的實際場景。
然而,當生成模型超越化學庫覆蓋整個化學空間時,它們放寬了合成性的關鍵約束。這意味著這些生成模型可能會產生一些難以合成和評估的分子。為了克服這個問題,可合成的生成模型在產生新分子時會考慮化學合成路徑,從而確保所產生的新型分子不僅理論上有效,而且在實踐中也是可合成的。另外,一些方法結合虛擬庫與生成技術,以確保提出的新型分子始終來自于已有庫。這些方法對于高通量陣列和自動化實驗室尤其重要,因為如果預測出的新型分子無法在現有平臺上合成,將可能延緩閉環方法的發展。
關于這些進展及當前領域內最新動態,Du等人提供了出色綜述,總結了該領域最新的發展與方法。[3]
近年來,生成模型已證明其價值。其中值得注意的是InSilico Medicine公司利用這些模型成功開發了幾種正在進行臨床試驗的新藥。在2019年,我們與InSilico及中國無錫藥明康德公司的研究人員共同展示了利用生成模型在約45天內開發出領先藥物候選者的能力。從那時起,許多研究人員繼續展示其他使用生成模型進行藥物發現的新案例。例如,Barzilay及其同事采用類似的方法開發了抗生素。
2.2.3 限制和未解決的問題
雖然這樣的模型能夠輕松生成候選者,但候選者的質量取決于能否開發出一個表現良好且可擴展的成本函數,以對生成模型進行條件設置。此外,這些模型是基于近似度量進行訓練的,這意味著它們在實際應用中的表現仍需評估。因此,評估候選者的可合成性或提供生成候選者的具體步驟至關重要(見下一節)。
大多數生成模型的開發通常以簡單的基準為目標,比如預測log P這樣簡單的性質。然而,使用合適的基準(如Tartarus)進行開發,或將其限制在可合成的分子集合范圍內,比如那些可以通過自動化實驗室合成的分子(參見第2.7節),仍然是一個挑戰。
2.3 從結構到結構:合成規劃和反應條件預測
合成規劃——即尋找能夠生成理想目標分子的合成途徑——是化學家們在過去一個多世紀中面臨的一個持續挑戰,尤其是在藥物發現、農業化學或分子材料化學等“分子世界”領域。這個問題在兩個方面都非常復雜:首先,給定所有反應物、試劑和反應條件,預測特定未見反應的結果至今仍然是一個未解決的問題。其次,即使擁有這樣的“反應預測”工具,尋找可行的多步驟反應序列,以便最終從廉價且可商業獲得的前體合成目標分子,還需要在龐大的可能途徑網絡中進行搜索。此外,合成規劃問題還面臨來自實際需求的額外挑戰:效率、成本、廢物產生、可持續性、安全性和毒性等都是在工業環境中特別需要關注的重要問題。
2.3.1 合成規劃
合成規劃通常采用逆合成的方法進行,這一方法由諾貝爾獎獲得者E.J. 科里首創。通過利用化學反應性的知識,將目標分子逐漸被分解為越來越簡單的前體,最終得到在市場上可購買的起始材料。形式上,這相當于一個樹搜索問題。早在1960年代,科里就意識到這種方法非常適合以計算方式進行處理。從那時起,已經開發了多種專家系統來指導這一樹搜索過程。
在過去十年里,利用機器學習工具箱應對這一挑戰取得了顯著進展。在這種情況下,關鍵的“決策策略”通常被視為一個多任務回歸問題:給定目標分子的結構,訓練一個機器學習模型以預測從反應目錄中適用的反應。然而,這種符號化的方法需要一個預定義的包含所有反應類型的目錄,通常被稱為反應“規則”或“模板”,這本身又帶來了新的障礙。關于“反應規則”這一術語,并沒有一個普遍接受的定義,也沒有明確的程序來從數據中提取反應規則。另一方面,“無模板”的方法針對一步反應預測問題,將反應預測視為起始材料圖中的圖編輯,或者解決一個序列到序列的“產品到起始材料”的翻譯任務。值得注意的是,這些模型(無論是有模板還是無模板)可以在正向方向上進行類似的訓練,即從起始材料預測反應產物。
這些單步預測模型用于構建樹搜索模型,以解決綜合規劃問題。在這種情況下,蒙特卡洛樹搜索(Monte-Carlo tree search)通常是首選方法。繼Segler等人的開創性工作和Coley等人的研究之后,就已經發布了多個開源的系統。
2.3.2 反應條件的預測和優化
在合成規劃中,常常被忽視的一點是,僅僅了解一種可能適用的反應類型,并不能保證所設想的中間體或目標產品能夠從提議的起始材料中成功合成。產品是否能夠獲得(理想情況下是高產率),在很大程度上取決于通常所稱的反應條件:試劑、催化劑、添加劑和溶劑的選擇,連續參數(如計量比、溫度和反應時間)的具體數值,以及實驗室中進行反應時的實際操作細節。在理想情況下,一個人工智能輔助工具可以接收一個新的“起始材料到產品”的轉化,并輸出所需的反應條件。然而,這一目標尚未實現,主要原因在于反應條件涉及廣泛的組合參數空間,并且通常受到難以模擬的基本物理原理的影響。在實際操作中,反應條件往往通過基于文獻先例的“最近鄰推理”來選擇,這一過程可以是自動化完成,也可能依賴于人類專家的經驗。
機器學習方法在反應條件優化方面主要集中于將反應產率作為反應條件的函數進行回歸建模。在這一背景下,數據驅動方法與物理有機化學中的回歸技術相結合,試圖基于機理考慮來建模反應結果。在高度受限的條件空間中,利用高通量實驗系統生成的數據進行的純數據驅動監督學習在產物產率方面顯示出了良好的效果。例如,我們在優化與制藥工藝化學相關的反應E/Z比率的研究中發現,僅通過約100次實驗,我們便超越了人類優化這一過程時所達到的先進水平。同時,利用文獻數據進行相同目的的研究通常存在嚴重缺陷,這往往需要對每個案例進行單獨的反應優化(更詳細的討論見下文)。在過去十年中,黑箱優化算法,尤其是貝葉斯優化(Bayesian Optimization, BO),變得越來越重要。在貝葉斯優化中,通過對現有數據進行貝葉斯推斷來構建用于預測反應產率的概率模型。這些模型在整個優化過程中以迭代方式指導決策。而基于機器學習的替代模型進行迭代閉環優化的方法將在第2.7節中進一步討論。對于條件優化,這些迭代方法在日益復雜的合成反應場景中表現出顯著的效果。同時,化學領域的特定挑戰,例如識別對多種底物“普遍適用”的條件,而不僅僅是針對一兩個模型底物的條件,也推動了該領域算法的發展。值得注意的是,我們在鈴木反應方面的研究使得條件具有普遍適用性,并且其產率是該領域之前先進水平的兩倍。
2.3.3 限制和未解決的問題
盡管在過去十年中,基于機器學習的合成規劃領域取得了顯著的算法進展,但其實際應用仍然局限于開發相對簡單的目標分子和短的合成路線。事實上,目前專家系統(即手動編碼反應類型和適用規則的系統)仍然是計算機輔助合成規劃的最先進水平。特別是,Grzybowski 的 Chematica 系統(現已商業化為 Synthia)在復雜自然產品合成或供應鏈意識的合成規劃中展現了令人矚目的實驗應用。原則上,基于機器學習的算法應該能夠提供與這些專家系統相似或更優的合成路線,但目前存在的問題主要歸因于可用合成數據質量和數量上的不足,以及從數據中提取結構化知識時所面臨的算法限制。我們和其他研究者最近對此進行了廣泛討論。
在反應結果和反應條件預測的背景下,類似的數據限制問題也被討論過。專利數據以及商業數據庫在數據報告的準確性、一致性或結構化方面存在嚴重問題,這不僅是由于錯誤數據、不一致數據或非結構化數據的存在,還因為在報告的實驗中,人類偏見的影響,特別是對顯著條件的偏重和對低產率記錄的忽視,這些因素阻礙了從文獻數據中進行反應產率預測建模。社區驅動的開源數據庫,例如開放反應數據庫(Open Reaction Database),代表了朝著更少偏見和更全面的數據收集邁出的重要一步——但這樣的倡議需要在合成有機化學實驗室中采用更為數字化的思維方式,以便更好地生成、收集和報告數據。
數據不足的另一個后果是缺少具有代表性的基準問題集。這種情況尤其適用于多步驟合成規劃領域,在該領域中,迫切需要基準來進行合成規劃性能的更為定量的評估。同樣,化學反應性優化算法也需要具有代表性的基準,以評估標準貝葉斯優化算法如何適應化學反應性的復雜性。最重要的是,這些基準必須反映專家化學家所識別的現實問題,以激勵和推動算法機器學習的進展,從而應對計算機輔助有機合成中的挑戰。
2.4 物理結構:模擬和三維結構
機器學習使得數據驅動的解決方案能夠應用于實驗問題和計算問題。在有機化學中,分子的2D分子圖結構是重點,而通過薛定諤方程,分子又建立在3D物理現實之上,這為預測分子性質和相互作用提供了豐富的量子力學和統計力學理論。模擬方法如密度泛函理論(DFT)和分子動力學(MD)可以利用這些理論來計算并預測分子的性質和相互作用。然而,盡管計算能力不斷提升,這些模擬仍然計算成本高,這限制了它們只能在小系統和短時間尺度下進行。而通過從眾多模擬結果中學習,機器學習提供了一個獨特的機會來加速分子模擬。
2.4.1 神經網絡勢
量子化學中的一個基本問題是:對于給定一個分子,其在三維空間中表示為一組核點,如何求解薛定諤方程,并預測總能量及每個原子所受的力。力的計算使我們能夠利用牛頓方程進行向前推進的動態模擬。然而,對于分子系統而言,求解薛定諤方程既復雜又計算成本高昂,而模擬牛頓方程則需要在每個模擬幀上計算力。因此,科學家們通過將簡單函數擬合到實驗數據來近似這些力,從而產生了第一個參數化力場,例如倫納德-瓊斯勢。半經驗模型結合了更多實驗擬合參數,以便更準確地預測能量和力。這些經驗力場使得經典分子動力學模擬成為可能,從而可以研究簡單的蛋白質。然而,要捕捉像化學反應性這樣的行為,則需要考慮量子效應。隨著計算能力的提升以及更快的模擬方法(如密度泛函理論(DFT))的出現,最終使得在每個時間步上使用從頭分子動力學求解薛定諤方程成為可能,但這需要付出巨大的計算成本。
神經力場的引入帶來了顯著變化。通過對密度泛函理論(DFT)數據進行訓練,神經網絡能夠直接從三維核坐標預測能量和分子力,這使得分子動力學可以以從頭計算的精度進行模擬,同時大幅降低了計算成本。由于分子力必須對分子的旋轉保持等變性——也就是說,如果分子被旋轉,分子力也必須“隨之旋轉”——這促使了保持這種對稱性的等變神經架構的發展。在機器學習領域,神經力場經過了競爭性的基準測試,不斷比較不同的架構和方法。Duval等人提供了這些等變架構發展的詳細時間線。[4]隨著能量和力的數據集不斷增長,例如開放催化基準,神經力場也開始追求普適性了。
2.4.2 預測波函數和電子密度
相較于使用力場來預測能量,另一種預測能量的方法是直接預測波函數或電子密度。這種方法的優勢在于,波函數和電子密度不僅包含了能量信息,還涵蓋了系統的其他物理可觀測量。例如,可以訓練神經網絡直接根據核坐標來預測哈密頓矩陣。對哈密頓矩陣進行對角化可以得到分子軌道,而這些分子軌道則構成了波函數。此外,可以利用預測的波函數來初始化自洽場迭代,從而加快量子化學計算的收斂速度。最近的研究表明,神經網絡可以被訓練,使其輸出滿足自洽性方程,這樣就不再需要哈密頓矩陣的標簽了。
此外,神經網絡還可以作為假設形式,直接表示波函數。在這種情況下,網絡以電子坐標為輸入,并輸出波函數幅度。采用相同的隨機優化算法,神經波函數可以被訓練以最小化變分能量并滿足薛定諤方程。這種方法最近也擴展到了激發態。
另一方面,在密度泛函理論中,也可以訓練神經網絡直接根據給定的核坐標來預測電荷密度。同時,機器學習也被應用于學習密度泛函。
2.4.3 預測和生成3D結構
即使存在快速準確的力場,許多問題仍然依賴于找到分子的能量優先構象。然而,構象空間依然非常龐大,特別是對于大型體系如蛋白質而言,實際上是無法窮盡的。同樣,在建模化學反應時,龐大的構象搜索空間使得識別過渡態變得具有挑戰。為解決這些問題,機器學習方法可以直接預測和生成3D結構。
大規模構象搜索空間的復雜性促使生成模型用于引導這一空間的探索。無條件生成模型,如等變擴散模型,能夠同時生成3D原子位置和原子類型。在解決尋找給定分子穩定的3D構象問題時,原子類型可能保持不變,生成則是基于2D分子圖的條件。一些方法可自由生成原子位置,而其他方法則生成可旋轉鍵的扭轉角度。最近的研究顯示,放棄扭轉和旋轉對稱約束可能帶來更好的結果,盡管成本更高。有一個相關的任務被稱為對接,即在蛋白質口袋內進行配體的構象搜索,以評估結合親和力。這一過程也已經使用擴散模型來來研究了。
在晶體結構預測問題中,目標是找到給定組成的最穩定周期性原子排列方式。傳統方法是通過搜索所有穩定的原子坐標和晶格矢量的排列組合來找到能量最低的結構。而等變擴散模型則為這一問題提供了自然的解決方案,它可以同時擴散坐標和晶格參數,并強加空間群約束以進一步提升性能。實際上,將這種擴散方法擴展到大型數據集,使逆向設計能夠同時滿足多個期望的性質。
在與生物分子模擬相關的領域中,三維結構預測問題普遍存在。長期以來,從蛋白質序列預測折疊的三維蛋白質結構這一難題在一定程度上已通過AlphaFold及相關模型得到了有效解決。在此基礎上,擴散模型生成了以剛性殘基序列表示的蛋白質骨架。這些模型取得了顯著成功,甚至被用于設計滿足結構約束的蛋白質,并經過了實驗驗證。這些擴散模型的應用范圍已擴展到所有生物分子,其方法能夠預測蛋白質、RNA、DNA和配體如何在三維原子細節中的組裝方式,從而涵蓋了對接任務,因此有望在未來成為藥物發現的重要工具。
2.4.4 增強采樣和粗粒化模擬
尋找最穩定的幾何形狀固然有其價值,但要真正模擬分子之間的熱力學相互作用,則需要對三維結構的平衡分布進行采樣。平衡態遵循與能量相關的Boltzmann分布,而學習這種平衡分布的生成模型被稱為Boltzmann生成器。深度生成模型開始通過流匹配這一擴散模型的變體來解決這個問題,并且已經在多種不同類型的肽中證明了其可轉移性。另一種方法則是利用福克–普朗克方程來學習如何采樣平衡分布。
在粗粒化過程中,通常將原子聚集成所謂的珠子,這樣就可以降低計算成本,并且能夠捕捉到長時間尺度的事件。然而,這些粗粒化珠子的力需要與全原子力進行擬合。為了解決這個問題,可以應用神經網絡來學習粗粒化力場,通過預測自由能的梯度,而不是能量,并將這些預測的力與全原子力進行匹配。而使用流匹配方法則消除了對全原子力的需求,僅需粗粒化珠子的平衡樣本即可。此外,擴散模型可以同時學習生成模型和粗粒化力場。
雖然粗粒化力場的評估速度明顯快于原子級力場,但分子動力學模擬仍然受到必須使用飛秒級積分時間步長的限制。為了解決這一問題,平衡方法的替代方案主要集中在加速分子動力學,以實現更長的時間尺度。
這可以通過“時間粗粒化”來實現,即訓練生成模型以預測在較大時間步長下的結果。此外,研究還致力于將模型擴展到多個熱力學性質范圍,如溫度和壓力。這使得能夠模擬不同環境,并對之前不適合的數據進行訓練。通過在模型輸入中添加溫度等額外參數,可以將相應的粗粒化自由能函數的導數納入損失函數中。而自由能的高階導數作為響應性質,可以通過多次反向傳播計算得到。因此整合熱力學參數可能是整體模擬生物或工業環境的重要因素之一。
對于稀有事件采樣,例如化學反應和過渡態搜索,已經出現了無反應坐標的過渡路徑采樣方法。另一方面,當反應物、產物和過渡態的數據集可用時,可以直接訓練生成模型,進而可以基于反應物和產物生成過渡態。
2.4.5 限制和未解決的問題
雖然神經力場可以達到很高的準確性,但它們仍然需要足夠的訓練數據來覆蓋整個相空間。如果沒有完全覆蓋,神經力場可能會陷入不穩定的動力學狀態。一項基準測試強調,評估力場的標準應基于其動力學表現,而非力的誤差。
然而,隨著神經力在越來越大數據集上的訓練,這些問題可能會逐漸得到解決,從而推動通用力場的發展。盡管機器學習模型受限于數據質量,但新數據可以通過模擬生成,這為數據可用性和大型模型的發展帶來了樂觀前景。
與此同時,要在大長度和時間尺度上進行有效模擬仍需大量工作。在亞穩態條件下進行適當平衡采樣面臨著重大挑戰,相關的稀有事件采樣問題也依然是亟待改進的領域,因此成為了近期眾多研究工作的重點。
2.5 結構和分析:光譜學和結構解析
在化學領域,一個自然而又未被充分利用的機遇是利用機器學習來進行結構解析,它旨在通過光譜或其他分析數據預測二維或三維分子結構。就像計算機視覺使得計算機能夠感知自然界一樣,計算光譜學也可以讓機器通過分析儀器感知分子世界。隨著實驗自動化技術的進步,預計將合成越來越多的從頭合成和未知的化合物,這推動了對更快且準確的結構解析需求,以充分支持這些自主分子發現和反應發現平臺。
2.5.1 正向光譜預測
數據驅動的結構闡明最直接的方式是存儲一個光譜庫,針對給定的光譜在庫中搜索匹配項,然后檢索相應的結構。為了擴大光譜庫的覆蓋范圍,可以使用前向光譜預測來為特定化學結構預測其光譜。盡管物理模擬提供了一種有根據的方法來預測光譜,但其過程往往復雜且計算成本高昂。另一種方法則是利用機器學習從結構出發預測各種類型的光譜,包括質譜(MS)、核磁共振(NMR)和紫外-可見光譜(UV-vis)。一些研究將前向預測問題視為公式預測,采用自回歸模型或固定的公式詞匯;而另一些研究則專注于子圖預測,利用遞歸分解、自回歸生成和深度概率模型,或結合三維結構信息。在質譜的背景下,一些方法將光譜近似為具有相應峰強度的離散區間,從而簡化問題,將其轉化為直接從結構回歸質譜的任務。除了結構到光譜的預測外,另一種方法涉及通過估計各種分子描述符來預測結構-性質關系——這些描述符可以是標量(例如能量、部分電荷)、向量(例如電偶極子、原子力)以及高階張量(例如Hessian矩陣、極化率、八極矩)——然后利用這些描述符來預測不同類型的光譜,包括紅外光譜、拉曼光譜、紫外-可見光譜和核磁共振。
2.5.2 結構解析
直接從給定光譜預測化學結構的過程被稱為逆問題。DENDRAL是第一個用于從質譜推斷化學結構的專家系統,誕生于1969年。化學家們還利用機器學習(ML)分析紅外光譜(IR)、核磁共振(NMR)和質譜,以識別有限的官能團。雖然這些方法提供了有用的結構見解,但它們無法完全解析分子結構。
結合多個推斷出的官能團的信息,使得結構解析成為可能。對于NMR數據,分子結構可以通過首先識別分子亞結構和官能團來進行解析,然后通過波束搜索在可能的配置中進行最優組合,或者逐個原子構建,這與化學家在解釋NMR光譜時采取的方法相似。類似的“亞結構重建”策略也在紅外光譜和表面增強拉曼光譜(SERS)中以不同程度的細節應用。然而,隨著原子數量的增加,這種方法很快會遇到組合規模問題。
分子結構解析可以從深度學習的角度將其視作為一個端到端的問題。在這種方法中,光譜被標記為字符串,并預測SMILES字符串;這可以視為一種機器翻譯任務。這種方法已經應用于核磁共振(NMR)、紅外光譜(IR)和串聯質譜(MS/MS)數據中了,顯示出來在擴展到更大化學系統和從頭結構解析方面具有更顯著的潛力。此外,結構預測問題也可以被表述為一個優化任務,例如,可以將其形式化為馬爾可夫決策過程。如果我們考慮一些關于當前化學系統的先驗信息,如化學式、已知的起始材料和反應條件,將這些信息作為約束條件應用,就可以幫助模型更有效地收斂到一個解決方案。
隨著研究的深入,從分子到晶體的轉變,解決粉末X射線衍射(PXRD)和X射線吸收近邊結構(XANES)等X射線光譜數據的逆問題,為機器學習領域帶來了新的挑戰。這為不同深度學習模型在晶體系統和空間群識別中的應用提供了獨特且尚未充分開發的機會。特別是,擴散模型展現出了良好的前景,尤其是在文本到圖像生成這一對應逆問題中的成功應用。在這個背景下,我們可以在文本與光譜之間,以及圖像生成與晶體結構預測之間建立類比。
在旋轉光譜學領域,光譜分配的挑戰——即從密集的旋轉光譜中推導旋轉常數——代表了機器學習在這一領域早期應用之一。由于光譜密集且易于模擬,這個問題特別適合深度學習技術。然而,僅依靠旋轉常數無法確定分子的三維結構。我們最近提出的方法通過推斷三維結構來解決這一問題,所需的信息包括分子式、旋轉常數以及稱為替代坐標的無符號原子笛卡爾坐標。
在結構生物學領域,蛋白質結構預測的進展與冷凍電子顯微鏡技術的發展相輔相成。利用冷凍電子顯微鏡重建蛋白質結構的過程已經采用了深度生成模型。這些方法已發展到能夠從冷凍電子斷層成像(cryo-ET)中重建生物分子動態的程度。利用冷凍電子顯微鏡進行的結構解析工作也在不斷取得日新月異的進展。此外,數據處理方面的進步使得分辨率得到了顯著提升,而這些改進都可以通過使用機器學習方法進一步增強。
2.5.3 限制和未解決的問題
與所有需要大量數據的方法一樣,一個關鍵問題始終存在:雖然可以獲得大量的模擬光譜,但考慮模型在實驗光譜上的表現是否令人滿意至關重要,因為實驗光譜往往表現出更大的變異性和不一致性。一個值得思考的問題是:科學界是否應該更加努力推動將原始光譜文件存放在開放數據庫中,以促進深度學習在從自動化光譜到結構解析中的應用?
對于逆向光譜到結構解析的工作中,雖然純樣品的自主分子結構確定無疑對高通量反應優化和發現活動至關重要,但同樣重要的是解決來自復雜混合物的光譜結構的注釋問題,這包括對特定目標化合物的定向識別和非定向代謝組學。這類混合物在實際樣本矩陣中是常見配置,對于生物診斷、法醫學等多個領域都是不可或缺的。這些任務的成功在很大程度上依賴于模型從復雜的數據中解開并分離出單個分子光譜特征的能力。機器學習擅長處理復雜、高維數據,因此非常適合處理這些具有挑戰性的任務。此外,利用機器學習方法集成來自多個光譜輸入的信息,可以進一步提高結構解析的準確性和完整性。
2.6 利用基礎化學模型實現規模效益
隨著計算能力的提升,機器學習模型已經在越來越大規模的數據集上進行了訓練。在大規模應用中,機器學習展現出不同層次的能力。而基礎模型是經過廣泛數據訓練的大規模模型,能夠應用于多種下游任務。一些通用基礎模型,如ChatGPT、Gemini和Llama,通常用于語言生成和圖像生成;其中許多模型僅針對語言進行訓練,或者是在多模態上進行訓練。然而,在化學領域使用這些模型面臨著獨特的挑戰,因此許多研究者選擇從頭開始在化學數據上訓練他們的模型,但這并非易事。在本節中,我們將探討化學領域基礎模型的現狀,并提出對尚未解決問題的看法。
2.6.1 通過大型語言模型和智能體進行知識轉換
一些最早將生成模型應用于化學的研究是通過語言實現的,這得益于分子可以使用SMILES表示法以字符串形式進行表示。早期的化學語言模型是通過無監督學習對SMILES表示進行訓練的,它學習了分子子片段之間的依賴關系。最近,這些模型也開始同時在其他以文本標記表示的分子形式上進行訓練,例如文本描述、科學論文和合成程序,它們通常采用自回歸損失,以便在推理時能夠生成分子的描述或結構。Ramos等人撰寫了一篇綜合性綜述[5],詳細介紹了迄今為止80個化學/生物化學語言模型,以供讀者進一步了解。將文本描述納入模型的一個動機是,它們包含有關分子功能性質的信息,這對于改善結構相似但功能不同的分子的嵌入表示非常有幫助,反之亦然。這些文本描述還讓用戶能夠使用自然語言與模型互動,這比起僵硬的查詢方式對許多用戶來說更加直觀。此外,大型語言模型(LLMs)還被用于科學文獻解析,促進從現有文獻中提取化學信息并構建知識數據庫。這些數據庫可用于對LLMs進行微調,有潛力提升自動化實驗室在生成和篩選方面的能力。
然而,使用這些模型進行開箱即用的發現任務或特定領域的化學應用仍存在一定差距(至少根據我們的了解)。造成這種情況的原因之一是,缺乏足夠的數據來以與GPT-4等模型在網絡規模文本和圖像上訓練相同的方式對這些模型進行訓練。利用這些具備化學知識的語言模型的一種方法是對其進行微調,以適應下游任務,或者將其嵌入到優化框架或搜索框架中,從而提供良好的先驗知識。其他研究也開始了探索模型和數據的擴展。
化學感知基礎模型的一個有趣應用是開發化學智能體,這些智能體能夠利用解決化學問題所需的工具,或規劃化學實驗。一些顯著的例子包括ChemCrow、Coscientist、我們自己的ORGANA和ChemReasoner。這些智能體可以訪問各種與化學相關的工具,如模擬器或機器人,以執行化學實驗,并使用大語言模型(例如GPT-4)作為中央協調者,決定何時以及如何使用這些工具來實現用戶指定的目標。此類智能體的一個長期目標是開發科學助手,幫助進行更復雜的推理和規劃,通過自主生成和完善假設,超越單純的計算和執行。AI科學家將這一理念擴展到了其他研究領域,展示了通過執行實驗和撰寫研究論文進行自主機器學習研究的能力。
這些研究領域仍處于起步階段,因此存在幾個未解的問題,包括:(1)我們如何有效地評估化學感知大語言模型(chemistry-aware LLMs)/智能體(agents)?(2)這些模型在化學家實際工作中的使用案例是什么?有效的模型評估主要依賴于開發有意義的任務,而這在數據集的規模和廣度上目前仍然是一個開放性問題。雖然在這一領域已經存在幾個基準測試,這為我們提供了一個良好的起點,但在數據質量和任務目標方面仍有改進空間。最近發布的一些基準測試更接近實際應用,同時,像Polaris這樣的平臺使研究人員能夠更快速地訪問各種數據集。然而,在這一領域使用次優基準測試的問題因當前機器學習環境而加劇,因為基準測試主要用于展示新方法相較于現有最優技術所取得的更好表現,但人們并不理解其改進的原因。這也為化學家與機器學習領域專家社區之間合作的提供了一個絕佳機會。
基于語言的基礎模型也被應用于其他領域,包括知識圖譜生成和從化學文獻中進行知識提取,其中還包括我們在反應圖解析方面的工作,這是一項具有挑戰性的任務。這些努力對于創建結構化的實驗程序數據庫是至關重要的,這些數據庫可以為現有的資源庫做出貢獻,例如之前提到的開放反應數據庫。
2.6.2 基礎物理模型
雖然僅語言基礎模型在化學領域受到廣泛關注,但研究表明,語言可能并不是唯一有效的手段,特別是在三維幾何結構至關重要的情況下。例如,Alampara等人顯示,僅依靠語言模型無法編碼表示特定材料屬性所需的結構信息。
然而,在生物化學科學中,語言模型并不是唯一開發的基礎模型。在已經構建了幾種模型中,這些模型能夠對力場進行普遍近似,并預測任何分子、材料或蛋白質的結構。或許最著名的例子是用于蛋白質結構預測的AlphaFold2,以及最近推出的AlphaFold3,該模型能夠根據任何一組二維生物分子預測它們在三維中的組裝方式。據我們了解,這些模型在許多結構和功能任務中仍然優于任何基于序列的蛋白質預測模型,尤其是在輸入序列在訓練數據中沒有同源物的情況下。
另一個引人注目的例子是最近推出的基礎模型MACE-MP-0,該模型采用了MACE等變架構。其MACE-MP-0模型在150,000個無機晶體上進行了訓練。在經過少量特定任務示例的微調后,它可以作為力場用于多種任務的模擬,甚至包括一些看似毫不相關的小蛋白質模擬。值得注意的是,MACE-MP-0中的分子間相互作用似乎存在一定的不明確性。例如,在前面提到的蛋白質模擬中,該模型能夠成功捕捉氫轉移,這是一項顯著的成就。然而,作者也選擇加入了源自經典計算化學的D3色散,這表明該模型在預測長程相互作用方面仍然需要一些幫助。值得一提的是,基礎力場的研究也正在持續擴展,如工業研究實驗室正在越來越大的數據集上訓練神經力場,例如GNoME和MatterSim。
從這些模型中得出的一個關鍵結論是,結構信息不應被忽視,這取決于模型所應用的下游任務。同時,在廣泛的大規模數據集上訓練模型(即超越僅在單一預測任務上訓練簡單模型的傳統,這在幾年前仍然是常態)可以更好地推廣到更多的下游設置中。我們認為,同時在多個模態上進行擴展對于構建化學領域中最佳的基礎模型至關重要——即盡可能多地在各種模態上訓練模型,例如三維結構信息、文本和光譜信息。
2.6.3 限制和未解決的問題
在領域科學的研究中,我們在數據條件上并不如自然語言或圖像領域那樣優越,因為后者已經擁有了網絡級的數據可供利用。而科學數據則相對稀缺;每一個數據點必須通過實驗獲得,或者是通過高質量的模擬得出的。如果采用模擬方法,模型必須找到將其結果轉化為特定實驗條件的方法。我們懷疑,跨化學領域的通用模型仍然需要十年的時間才能實現,并且隨著人類對這些模型需求的不斷增加,這一目標可能會變得更加難以捉摸。這就像擴寬高速公路的問題一樣,許多分析師已經表明,一旦道路被擴寬,由于其可用性而產生的額外需求會立即導致高速公路交通擁堵。
2.7 閉環優化和自動化實驗室
2.7.1 自動化實驗室
隨著機器學習應用的不斷發展,高質量數據的必要性和稀缺性變得愈加明顯。化學數字化的興起以及機器學習的進步,為將機器學習與通過機器人實驗進行自動數據生成相結合奠定了基礎。這種協同作用催生了自動化實驗室(SDL)的概念。自驅動實驗室主要由兩個關鍵組成部分構成:自動化實驗室設備和實驗規劃者,這兩者都利用機器學習技術來提升其功能。最終目標是自主執行科學方法,包括假設生成(機器學習)、假設測試(實驗)和假設細化(機器學習),從而以數據高效的方式探索廣闊的設計空間。
通過將機器學習與計算機視覺相結合,自動化實驗室設備取得了顯著進展,形成了“通用化學機器人”的概念。這些經過機器學習訓練的機器人能夠基于外部反饋做出決策,從而實現傳統上由人類化學家執行的化學操作的動態自動化。鑒于在基于外部反饋進行主動決策的機器人設備訓練中固有的挑戰,該領域的一個顯著創新是利用數字孿生體——實驗室設置的虛擬復制品——為加速機器人機器學習模型的訓練提供了堅實的框架。這些數字孿生技術通過高精度模擬化學場景,建立了一個真實的反饋機制,加速了模型的學習過程。
在實驗規劃方面,啟發式技術正在逐步被機器學習優化算法所取代。當這些優化技術與化學數字化相結合時,它們能夠識別目標化學物質并優化反應條件,同時顯著減少所需的實驗步驟。在各種機器學習優化技術中,貝葉斯優化因其在化學應用中的成功而在實驗化學領域尤為突出。基于機器學習的代理模型能夠預測化學物質和反應的性質,這在過程優化和材料發現中發揮了重要作用,并且已有許多成功案例記錄。
此外,大型語言模型(LLMs)的興起進一步增強了自動化實驗室(SDLs)的輔助組件。而大型語言模型被有效地用于創建無需傳統編碼的人機界面,使得化學家與實驗室系統之間的交流更加自然。這對于那些不太擅長編碼或數據處理的用戶來說,是一個顯著的優勢。
2.7.2 限制和未解決的問題
正如我們最近討論的那樣,自動化實驗室系統面臨的挑戰大致可分為兩大類:自動化(硬件相關)和智能化(人工智能相關)。
自動化挑戰。主要的硬件挑戰源于化學儀器設計時更偏向人性化設計,并未考慮自動化需求,以及與現有自動化模塊之間缺乏無縫連接。因此,大多數自動化實驗室系統是以半自動方式運行的,需要人工干預進行諸如樣品轉移、維護和故障排除等任務。已經提出了各種解決方案來解決這些問題,包括部署移動機器人進行樣品轉移,以及調整通用機器人來執行化學任務或操作最初設計用于人類使用的儀器。然而,這些方法大都依賴于傳統算法,需要靜態校準,因此并不太適合自動化實驗室系統的動態特性。雖然已經提出了將計算機視覺和人工智能相結合作為解決方案,但實驗室設備,特別是玻璃器皿,仍然面臨顯著的挑戰,不過這些挑戰正在逐漸得到解決。
認知挑戰。認知挑戰主要在于開發能夠準確估計系統輸出的模型,這一困難限制了更通用生成模型的應用,有效地降低了實驗規劃者在化學領域中所能探索的空間。結合前面提到的挑戰,一個明顯的問題就是:SDLs通常在數據匱乏情況下運行。而預測和生成的機器學習模型通常需要大規模的數據集才能做出有意義的預測。雖然生成模型可以在現有數據上進行訓練,但在這種低數據情境中部署預測算法仍然是一個重大挑戰。
輔助組件的挑戰。在關于自動化實驗室系統的輔助組件方面,LLM的整合顯示出在自動化工作流程創建和改善人機交互方面具有潛力。然而,需要進一步研究以確保這些過程的安全性和可靠性。此外,雖然將文獻提取整合到自動化實驗室中可以增強模型開發,但其與預測模型的有效整合仍然是一個未解決的問題。
在自動化實驗室領域,需要解決的最后一個挑戰是發展規模經濟的問題。隨著社區建立的自動化實驗室數量的增多,建立下一個自動化實驗室的難度將會大大降低。因此,實現低成本自動化實驗室的民主化對該領域的發展來說至關重要的。
寫在最后
在讀完這篇文獻后,我深刻意識到,個人在追求最大化影響力的過程中,有兩個關鍵能力至關重要。首先是會發現問題,以及能判斷出哪些問題值得解決的能力;其次是具備高質量解決特定領域問題的技術水準。
在學術研究中,發現問題的能力體現在研究者能夠敏銳地識別出關鍵的科學問題,并判斷其研究價值如是否能引領新領域的探索。而具備高質量解決問題的技術水準,則體現在研究者能夠運用先進的實驗設計、數據分析和建模技術,去有效應對復雜的科學挑戰。結合這兩種能力,研究者不僅能夠提出創新的理論,還能夠產生具有實用意義的科研成果,促進知識的快速積累與傳播。
在技術開發方面,發現問題的能力體現在開發者能夠識別出行業內最迫切需要解決的技術問題或瓶頸,判斷其對產品和服務的影響。而具備高質量解決特定領域問題的技術水準,則表現在開發者能夠運用工程原理、編碼能力和系統設計知識,去創建和優化技術解決方案。有效的技術開發需要兩者的結合,以確保所開發的技術不僅具有實用性,還能夠在市場上產生積極的反響。
在產品開發方面,發現問題的能力體現在團隊能夠識別用戶需求、市場趨勢以及潛在的痛點,判斷哪些問題最值得優先解決,以增強產品的競爭力。而具備高質量解決問題的技術水準,則體現在團隊能夠將創新的技術和設計理念轉化為可行的產品特性,從而有效滿足用戶需求并實現商業價值。只有結合這兩項能力,團隊才能夠更好地開發出符合市場需求和技術標準的產品,從而推動業務增長。
雖然具備高水平技術解決問題的人數遠遠多于那些能夠識別真正有價值問題的人,但真正能夠在各個領域產生深遠影響的,通常是那些同時具備這兩項能力的人。因此,每個從業者都應時刻思考“什么才是值得解決的問題”,而這一思考將成為我們在學術、技術或產品發展中追求創新與影響力的核心驅動力。
參考文獻:[1]
Spiers Memorial Lecture: How to do impactful research in artificialintelligencefor chemistry and materials science:https://doi.org/10.1039/D4FD00153B
[2]
Sample EfficiencyMatters: A Benchmark for Practical Molecular Optimization:https://proceedings.neurips.cc/paper_files/paper/2022/file/8644353f7d307baaf29bc1e56fe8e0ec-Paper-Datasets_and_Benchmarks.pdf
[3]
Du, Y., Jamasb, A.R., Guo, J. et al. Machine learning-aided generative molecular design. Nat Mach Intell6, 589–604 (2024): https://doi.org/10.1038/s42256-024-00843-5
[4]
A. Duval, S. V. Mathis, C. K. Joshi, V. Schmidt, S. Miret, F. D. Malliaros, T. Cohen, P. Lio, Y. Bengio and M. Bronstein, arXiv, 2023, preprint,arXiv https://arxiv.org/abs/2312.07511
[5]
M. C. Ramos, C. J. Collison and A. D. White, arXiv, 2024, preprint,arXiv https://arxiv.org/abs/2407.01603
-
人工智能
+關注
關注
1791文章
47274瀏覽量
238467 -
機器學習
+關注
關注
66文章
8418瀏覽量
132628 -
深度學習
+關注
關注
73文章
5503瀏覽量
121157
發布評論請先 登錄
相關推薦
評論