在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2022-11-16 21:40 ? 次閱讀

來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構(gòu)的研究員開發(fā)了一個處理基因組規(guī)模數(shù)據(jù)的先進模型,并入圍戈登貝爾 COVID-19 研究特別獎決賽

這一戈登貝爾特別獎旨在表彰基于高性能計算的 COVID-19 研究。一位決賽入圍選手教會了大型語言模型(LLMs)一種新的語言——基因序列,使這些模型能夠提供基因組學、流行病學和蛋白質(zhì)工程方面的洞察。

這項開創(chuàng)性的成果發(fā)表于 10 月,是由來自美國阿貢國家實驗室、NVIDIA、芝加哥大學等組織機構(gòu)的二十多名學術(shù)和商業(yè)研究員合作完成。

該研究團隊訓練了一個 LLM 來追蹤基因突變,并預測需要關(guān)注的 SARS-CoV-2(導致 COVID-19 的病毒)變異株。雖然迄今為止大多數(shù)應(yīng)用于生物學的 LLM 都是在小分子或蛋白質(zhì)的數(shù)據(jù)集上訓練的,但這一項目是在原始核苷酸序列(DNA 和 RNA 的最小單位)上訓練的首批模型之一。

負責帶領(lǐng)該項目的阿貢國家實驗室計算生物學家 Arvind Ramanathan 表示:“我們假設(shè)從蛋白質(zhì)水平到基因水平的數(shù)據(jù)有助于我們構(gòu)建出更易于理解新冠病毒變異株的模型。通過訓練模型去追蹤整個基因組及其進化過程中的所有變化,我們不僅能夠更好地預測 COVID,還能預測已掌握足夠基因組數(shù)據(jù)的任何疾病。”

戈登貝爾獎被譽為 HPC 領(lǐng)域的諾貝爾獎。今年的戈登貝爾獎將在本周的 SC22 上由美國計算機協(xié)會頒發(fā)。該協(xié)會代表著全球約 10 萬名計算領(lǐng)域的專家,自2020年開始向使用 HPC 推進 COVID-19 研究的杰出研究員頒發(fā)特別獎。

在一種只有四個字母的語言上

訓練大型語言模型

長期以來,LLM 一直在接受人類語言的訓練,這些語言通常由幾十個字母組成,可以排列組合成數(shù)萬個單詞,并連接成長句和段落。而生物學語言只有四個代表核苷酸的字母,即 DNA 中的 A、T、G 和 C,或 RNA 中的 A、U、G 和 C。這些字母按不同順序排列成基因。

雖然較少的字母看似會降低 AI 學習的難度,但實際上生物學語言模型要復雜得多。這是因為人類的基因組由超過 30 億個核苷酸組成,而冠狀病毒的基因組由大約 3 萬個核苷酸組成,因此很難將基因組分解成不同、有意義的單位。

Ramanathan 表示:“在理解基因組這一生命代碼的過程中,我們所面對的一個主要挑戰(zhàn)是基因組中的龐大測序信息。核苷酸序列的意義可能會受另一序列的影響,以人類的文本做類比,這種影響的范圍不僅僅是文本中的下一句話或下一段話,而是相當于一本書中的整個章節(jié)。”

參與該項目協(xié)作的 NVIDIA 研究員設(shè)計了一種分層擴散方法,使 LLM 能夠?qū)⒓s 1500 個核苷酸的長字符串當作句子來處理。

論文共同作者、NVIDIA AI 研究高級總監(jiān)、加州理工學院計算+數(shù)學科學系布倫講席教授 Anima Anandkumar 表示:“標準語言模型難以生成連貫的長序列,也難以學習不同變異株的基本分布。我們開發(fā)了一個在更高細節(jié)水平上運作的擴散模型,該模型使我們能夠生成現(xiàn)實中的變異株,并采集到更完善的統(tǒng)計數(shù)據(jù)。”

預測需要關(guān)注的新冠病毒變異株

該團隊首先使用細菌和病毒生物信息學資源中心的開源數(shù)據(jù),對來自原核生物(像細菌一樣的單細胞生物)超過 1.1 億個基因序列進行了 LLM 預訓練,然后使用 150 萬個高質(zhì)量的新冠病毒基因組序列,對該模型進行微調(diào)。

研究員還通過在更廣泛的數(shù)據(jù)集上進行預訓練,確保其模型能夠在未來的項目中推廣到其他預測任務(wù),使其成為首批具備此能力的全基因組規(guī)模的模型之一。

在對 COVID 數(shù)據(jù)進行了微調(diào)后,LLM 就能夠區(qū)分病毒變異株的基因組序列。它還能夠生成自己的核苷酸序列,預測 COVID 基因組的潛在突變,這可以幫助科學家預測未來需要關(guān)注的變異株。

f7239024-65b3-11ed-8abf-dac502259ad0.png

在長達一年時間內(nèi)積累的 SARS-CoV-2 基因組數(shù)據(jù)的訓練下,該模型可以推斷出各種病毒株之間的區(qū)別。左邊的每個點對應(yīng)一個已測序的 SARS-CoV-2 病毒株,并按變異株顏色編碼。右圖放大了該病毒的一個特定毒株,它捕捉到了該毒株特有的病毒蛋白進化耦合關(guān)系。圖片由美國阿貢國家實驗室的 Bharat Kale、Max Zvyagin 和 Michael E. Papka 提供。

Ramanathan 表示:“大多數(shù)研究員一直在追蹤新冠病毒突刺蛋白的突變,尤其是與人類細胞結(jié)合的域。但病毒基因組中還有其他蛋白質(zhì)也會經(jīng)歷頻繁的突變,所以了解這些蛋白質(zhì)十分重要。”

論文中提到,該模型還可以與 AlphaFold、OpenFold 等常見的蛋白質(zhì)結(jié)構(gòu)預測模型整合,幫助研究員模擬病毒結(jié)構(gòu),研究基因突變?nèi)绾斡绊懖《靖腥酒渌拗鞯哪芰ΑpenFold 是 NVIDIA BioNeMo LLM 服務(wù)中包含的預訓練語言模型之一。NVIDIA BioNeMo LLM 服務(wù)面向的是致力于將 LLM 應(yīng)用于數(shù)字生物學和化學應(yīng)用的開發(fā)者

利用 GPU 加速超級計算機

大幅加快 AI 訓練速度

該團隊在由 NVIDIA A100 Tensor Core GPU 驅(qū)動的超級計算機上開發(fā) AI 模型,包括阿貢國家實驗室的 Polaris、美國能源部的 Perlmutter 以及 NVIDIA 的 Selene 系統(tǒng)。通過擴展到這些強大的系統(tǒng),他們在訓練中實現(xiàn)了超過 1500 exaflops 的性能,創(chuàng)建了迄今為止最大的生物語言模型。

Ramanathan 表示:“我們?nèi)缃裉幚淼哪P陀卸噙_ 250 億個參數(shù),預計這一數(shù)量未來還會大幅增加。模型的尺寸、基因序列的長度、以及所需的訓練數(shù)據(jù)量,都意味著我們的確需要搭載數(shù)千顆 GPU 的超級計算機來完成復雜的計算。”

研究員估計,訓練一個具有 25 億參數(shù)的模型版本,需要約 4000 個 GPU 耗時一個多月。該團隊已經(jīng)在研究用于生物學的 LLM,在公布論文和代碼之前,他們在這個項目上已耗時約四個月。GitHub 頁面上有供其他研究員在 Polaris 和 Perlmutter 上運行該模型的說明。

NVIDIA BioNeMo 框架可在 NVIDIA NGC 中心上的 GPU 優(yōu)化軟件中搶先體驗。該框架將幫助研究員在多個 GPU 上擴展大型生物分子語言模型。作為 NVIDIA Clara Discovery 藥物研發(fā)工具集的一部分,該框架將支持化學、蛋白質(zhì)、DNA 和 RNA 數(shù)據(jù)格式。

即刻點擊“閱讀原文”掃描下方海報二維碼收下這份 GTC22 精選演講合集清單,在NVIDIA on-Demand 上點播觀看主題演講精選、中國精選、元宇宙應(yīng)用領(lǐng)域與全球各行業(yè)及領(lǐng)域的最新成果!


原文標題:SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關(guān)注

    關(guān)注

    22

    文章

    3780

    瀏覽量

    91217

原文標題:SC22 | 解析基因組的“語言”:戈登貝爾獎決賽選手使用大型語言模型來預測新冠病毒變異株

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    語言模型管理的作用

    要充分發(fā)揮語言模型的潛力,有效的語言模型管理非常重要。以下,是對語言模型管理作用的分析,由AI部
    的頭像 發(fā)表于 01-02 11:06 ?71次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-06 10:28 ?132次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小編為您介紹大語言
    的頭像 發(fā)表于 12-04 11:44 ?136次閱讀

    如何利用大型語言模型驅(qū)動的搜索為公司創(chuàng)造價值

    大型語言模型LLMs具有自動化內(nèi)容創(chuàng)建、提高內(nèi)容質(zhì)量及多樣化的潛力,可重塑企業(yè)與信息的交互方式。通過利用LLMs,企業(yè)能提升工作效率,降低運營成本,并獲得深入洞察。來自EgeGürdeniz
    的頭像 發(fā)表于 10-13 08:07 ?184次閱讀
    如何利用<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>驅(qū)動的搜索為公司創(chuàng)造價值

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學習

    今天學習大語言模型在自然語言理解方面的原理以及問答回復實現(xiàn)。 主要是基于深度學習和自然語言處理技術(shù)。 大
    發(fā)表于 08-02 11:03

    基于CPU的大型語言模型推理實驗

    隨著計算和數(shù)據(jù)處理變得越來越分散和復雜,AI 的重點正在從初始訓練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源 LLM
    的頭像 發(fā)表于 07-18 14:28 ?565次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理實驗

    基于神經(jīng)網(wǎng)絡(luò)的語言模型有哪些

    基于神經(jīng)網(wǎng)絡(luò)的語言模型(Neural Language Models, NLMs)是現(xiàn)代自然語言處理(NLP)領(lǐng)域的一個重要組成部分,它們通過神經(jīng)網(wǎng)絡(luò)捕捉
    的頭像 發(fā)表于 07-10 11:15 ?767次閱讀

    語言模型(LLM)快速理解

    自2022年,ChatGPT發(fā)布之后,大語言模型(LargeLanguageModel),簡稱LLM掀起了一波狂潮。作為學習理解LLM的開始,先來整體理解一下大語言模型。一、發(fā)展歷史大
    的頭像 發(fā)表于 06-04 08:27 ?1001次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)快速理解

    了解大型語言模型 (LLM) 領(lǐng)域中的25個關(guān)鍵術(shù)語

    1.LLM(大語言模型大型語言模型(LLMs)是先進的人工智能系統(tǒng),經(jīng)過大量文本數(shù)據(jù)集的訓練,可以理解和生成類似人類的文本。他們使用深度學
    的頭像 發(fā)表于 05-10 08:27 ?1268次閱讀
    了解<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b> (LLM) 領(lǐng)域中的25個關(guān)鍵術(shù)語

    【大語言模型:原理與工程實踐】大語言模型的應(yīng)用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應(yīng)對復雜的決策。 相應(yīng)地,我們設(shè)計了兩類任務(wù)檢驗大語言模型的能力。一類是感性的、無需理性能力的任務(wù),類似于人類的系統(tǒng)1,如情感分析和抽取式問答等。大
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    語言模型的評測是確保模型性能和應(yīng)用適應(yīng)性的關(guān)鍵環(huán)節(jié)。從基座模型到微調(diào)模型,再到行業(yè)模型和整體能
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    語言模型的核心特點在于其龐大的參數(shù)量,這賦予了模型強大的學習容量,使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù),而更傾向于培養(yǎng)通用的處理能力。然而,隨著學習容量的增加,對預訓練數(shù)據(jù)的需求也相應(yīng)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    之后,成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此,它還對自然語言處理領(lǐng)域產(chǎn)生了深遠的影響。基于Transformer的預訓練模型,如GPT系列和BERT系列,已在多種任務(wù)上取得了卓越的成績。目前的大型
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學習,利用神經(jīng)網(wǎng)絡(luò)框架理解和生成自然
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    《大語言模型》是一本深入探討人工智能領(lǐng)域中語言模型的著作。作者通過對語言模型的基本概念、基礎(chǔ)技術(shù)
    發(fā)表于 04-30 15:35
    主站蜘蛛池模板: 日韩一级欧美一级| 在线观看免费视频网站色| 国产成人精品一区二区三区| 狠狠的操| 天天做天天爱夜夜爽毛片毛片 | 99久热只有精品视频免费观看17| 99热久久精品免费精品| 一级做a爱 一区| 天天看人体| 欧美性生交xxxxx久久久| 久久黄色视屏| 99se亚洲综合色区| 特黄级| 看片久久| 视频在线观看免费| 国产性夜夜性夜夜爽91| 黄色 在线| 九九re热| 色多多18免费观看| 寄宿日记在线看| 亚洲日本中文字幕天天更新| 成人三级视频| 午夜一级成人| 一级特黄aaa免费| 国产一区二区影院| 亚洲精品九色在线网站| 久久网免费视频| 一二三区视频| 中文一区二区在线观看| lsj老司机精品视频在线观看| 手机在线看片你懂得| 来吧成人综合网| 亚洲网站大全| 2021国产精品| 国产性videostv另类极品| 精品无码中出一区二区| 四虎影视入口| 国产网站免费| 美女被免费视频的网站| 一本大道一卡二卡四卡| 四虎影院在线视频|