小说改编的网页游戏,完美世界国际版下载,如何发布网络小说

來自：復(fù)旦DISC

作者：王思遠(yuǎn)

引言

隨著預(yù)訓(xùn)練語言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學(xué)習(xí)一定的知識，但仍舊存在很多問題，如知識量有限、受訓(xùn)練數(shù)據(jù)長尾分布影響魯棒性不好等，在實(shí)際應(yīng)用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經(jīng)成為一個非常活躍的研究領(lǐng)域。本次分享將介紹三篇知識增強(qiáng)的預(yù)訓(xùn)練語言模型論文，分別通過基于知識向量、知識檢索以及知識監(jiān)督的知識注入方法來增強(qiáng)語言預(yù)訓(xùn)練模型。

文章概覽

KLMo：建模細(xì)粒度關(guān)系的知識圖增強(qiáng)預(yù)訓(xùn)練語言模型(KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships)

這篇文章提出同時將KG中的實(shí)體以及實(shí)體間的關(guān)系結(jié)合到語言學(xué)習(xí)過程中，來得到一個知識增強(qiáng)預(yù)訓(xùn)練模型。通過一個知識聚合器對文本中的實(shí)體片段和KG中的實(shí)體、關(guān)系向量之間的交互建模，從而將KG中的實(shí)體和關(guān)系向量融入語言模型中，還提出了關(guān)系預(yù)測和實(shí)體鏈接的預(yù)訓(xùn)練任務(wù)來整合KG中關(guān)系和實(shí)體信息。

用于知識增強(qiáng)語言模型預(yù)訓(xùn)練的基于知識圖合成語料庫生成(Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training)

檢索型語言模型通過從外部文本知識語料集中檢索知識增強(qiáng)模型，本文為了整合結(jié)構(gòu)化知識和自然語言數(shù)據(jù)，提出了將知識圖譜轉(zhuǎn)換為自然文本，來為檢索型語言模型擴(kuò)充檢索知識語料庫，從而使得結(jié)構(gòu)化知識無縫地集成到現(xiàn)有的預(yù)訓(xùn)練語言模型中。

ERICA：通過對比學(xué)習(xí)提高預(yù)訓(xùn)練語言模型對實(shí)體和關(guān)系的理解(ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning)

這篇文章提出對文本中的關(guān)系事實(shí)進(jìn)行建模來增強(qiáng)語言模型，具體地設(shè)計(jì)了實(shí)體判別和關(guān)系判別兩個預(yù)訓(xùn)練任務(wù)來以知識監(jiān)督的方式加深對實(shí)體和關(guān)系的理解，并通過對比學(xué)習(xí)的框架實(shí)現(xiàn)。

論文細(xì)節(jié)

1論文動機(jī)

本文類似ERNIE-THU[1]，通過引入知識向量增強(qiáng)預(yù)訓(xùn)練語言模型，然而以前的知識增強(qiáng)模型只利用實(shí)體信息，而忽略了實(shí)體之間的細(xì)粒度關(guān)系。而實(shí)體間的關(guān)系對于語言表示學(xué)習(xí)也至關(guān)重要，如圖KG中的關(guān)系信息影響了實(shí)體Trio of Happiness的類別預(yù)測。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

將KG中的實(shí)體和關(guān)系明確地整合到PLMs中的主要挑戰(zhàn)是文本知識(實(shí)體和關(guān)系)對齊(TKA)問題，為了解決這個問題，文章提出了一個知識增強(qiáng)預(yù)訓(xùn)練語言模型(KLMo)，通過一個知識聚合器對文本中的實(shí)體片段和KG中的實(shí)體、關(guān)系向量之間的交互建模，使得文本中token關(guān)注到高度相關(guān)的KG實(shí)體和關(guān)系。文章還提出了關(guān)系預(yù)測和實(shí)體鏈接的兩個預(yù)訓(xùn)練任務(wù)，來整合KG中關(guān)系和實(shí)體信息，從而實(shí)現(xiàn)將KG中的實(shí)體和關(guān)系信息融入語言模型中。

模型

KLMo模型如下圖，結(jié)構(gòu)上類似ERNIE-THU，文本序列首先經(jīng)過一個文本編碼器，然后會被輸入到知識聚合器中來將實(shí)體和關(guān)系的知識向量融入到文本序列中，最后通過優(yōu)化關(guān)系預(yù)測和實(shí)體鏈接兩個預(yù)訓(xùn)練目標(biāo)，從而將KG中高度相關(guān)的實(shí)體和關(guān)系信息合并到文本表示中。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

1. 知識聚合器

知識聚合器包含兩個獨(dú)立的注意力機(jī)制：token級別自注意力和知識圖譜注意力，分別對輸入文本和KG進(jìn)行編碼，聚合器通過實(shí)體級別的交叉KG注意力，對文本中的實(shí)體片段與KG中的實(shí)體和關(guān)系之間的交互進(jìn)行建模，以將知識融入文本表示。

(1) 知識圖譜注意力機(jī)制

首先通過TransE得到KG中的實(shí)體和關(guān)系表示，并將其轉(zhuǎn)成一條實(shí)體和關(guān)系向量序列，作為聚合器的輸入。然后采用一個知識圖譜注意力機(jī)制，通過在傳統(tǒng)注意力機(jī)制中引入一個可視矩陣，從而在知識表示學(xué)習(xí)過程中考慮圖結(jié)構(gòu)，該矩陣只允許相鄰節(jié)點(diǎn)和關(guān)系可以關(guān)注到彼此。

(2) 實(shí)體級別交叉KG注意力機(jī)制

給定一個實(shí)體提及列表，通過在文本中實(shí)體范圍內(nèi)的所有tokens上pooling計(jì)算得到文本中實(shí)體片段表示，然后將文本中的實(shí)體片段表示作為query，將KG中的實(shí)體和關(guān)系表示作為key和value，進(jìn)行注意力計(jì)算，從而得到知識增強(qiáng)的實(shí)體表示。

(3) 知識增強(qiáng)的文本表示

為了將知識增強(qiáng)的實(shí)體表示注入到文本表示中，文章采用一個知識融入操作，公式如下，得到的知識增強(qiáng)文本表示將會被傳入下一層知識聚合器中。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

2. 預(yù)訓(xùn)練目標(biāo)

為了將知識融入到語言預(yù)訓(xùn)練中，KLMo采取了一個多任務(wù)損失函數(shù)，除了傳統(tǒng)的masked language model損失，還引入了一個關(guān)系預(yù)測以及實(shí)體鏈接的損失函數(shù)。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

實(shí)驗(yàn)

模型在百度百科網(wǎng)頁數(shù)據(jù)以及百科知識圖譜上進(jìn)行預(yù)訓(xùn)練，并在兩個分別用于實(shí)體分類以及關(guān)系分類的中文數(shù)據(jù)集上進(jìn)行了比較和評估，結(jié)果顯示實(shí)體之間的細(xì)粒度關(guān)系信息有助于KLMo更準(zhǔn)確地預(yù)測實(shí)體和關(guān)系的類別。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

同時文章還在實(shí)體分類上對KLMo中實(shí)體和關(guān)系知識進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如下可以看出通過預(yù)訓(xùn)練，知識信息已經(jīng)被融入KLMo中。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

論文動機(jī)

本文基于檢索型預(yù)訓(xùn)練語言模型，通過從外部知識語料集檢索知識來增強(qiáng)語言模型，然而以前都是從文本語料集中檢索知識，只能覆蓋有限的世界知識而忽略了結(jié)構(gòu)化知識，并且知識在文本中的表達(dá)沒有在KG中那么明確，文本質(zhì)量的變化也會導(dǎo)致結(jié)果模型中的偏差。為了將結(jié)構(gòu)化知識整合到語言模型中，文章將結(jié)構(gòu)化知識圖譜轉(zhuǎn)換為自然文本，來為檢索型語言模型REALM[2]擴(kuò)充檢索知識語料庫KELM，從而使得結(jié)構(gòu)化知識無縫地集成到現(xiàn)有的預(yù)訓(xùn)練語言模型中。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

本文提出將英文維基百科知識圖譜轉(zhuǎn)化成自然語言文本，如上圖，并構(gòu)建了一個英文Wikidata KG-Wikipedia Text的對齊數(shù)據(jù)集來訓(xùn)練文本化模型，從而生成了KELM數(shù)據(jù)集，擴(kuò)充REALM的檢索知識語料庫。

模型

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

1. 基于KG的文本生成器TEKGEN

文章首先提出了一個端到端的基于KG的文本化模型TEKGEN，具體流程如上圖：首先使用遠(yuǎn)程監(jiān)督來對齊維基百科文本和KG三元組;隨后T5模型按順序首先在這個語料庫上進(jìn)行微調(diào)來提升實(shí)體和關(guān)系覆蓋率，隨后在標(biāo)準(zhǔn)WebNLG語料庫上進(jìn)行少量步驟的訓(xùn)練來減少錯誤;最后通過對BERT微調(diào)構(gòu)建一個過濾器，為生成文本針對三元組的語義質(zhì)量打分。

2. 合成知識檢索數(shù)據(jù)集KELM Corpus

這一步利用TEKGEN模型和過濾器來構(gòu)建一個合成語料庫KELM，以自然語言的格式捕獲KG知識。首先使用前面構(gòu)造的英文Wikidata KG-Wikipedia Text的對齊數(shù)據(jù)集的關(guān)系對創(chuàng)建實(shí)體子圖，隨后子圖中的知識三元組通過TEKGEN模型轉(zhuǎn)化為自然語言文本，從而構(gòu)建KELM數(shù)據(jù)集。

3.知識增強(qiáng)語言模型

文章將生成的KELM語料庫作為將KGs集成到預(yù)訓(xùn)練語言模型，如下圖所示，采用了基于檢索的預(yù)訓(xùn)練語言模型REALM，預(yù)訓(xùn)練過程中，除了掩碼句還會從檢索語料集中抽取一個文本作為輔助知識用來聯(lián)合預(yù)測掩蓋的單詞，而KELM則被用來替換/擴(kuò)充REALM中的檢索語料集，幫助語言模型引入結(jié)構(gòu)化知識。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

實(shí)驗(yàn)

實(shí)驗(yàn)在知識探測(LAMA數(shù)據(jù)集)和開放域QA(NaturalQuestions和WebQuestions)上進(jìn)行，作者分別嘗試REALM上的三種檢索語料集設(shè)定：ORIGINAL(Wikipedia Text)、REPLACED(only KELM Corpus)和AUGMENTED(Wikipedia text + KELM Corpus)，結(jié)果如下：

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

可以看出通過文本化結(jié)構(gòu)知識來擴(kuò)充檢索語料集，在知識探測和開放域QA上都有提升。作者還進(jìn)行了實(shí)驗(yàn)，將原始的Wikidata三元組而非KELM語料庫整合進(jìn)語言模型，結(jié)果確認(rèn)了結(jié)構(gòu)化知識文本化的有效性。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

論文動機(jī)

本文通過知識監(jiān)督的方式來建模文本中的關(guān)系事實(shí)從而增強(qiáng)預(yù)訓(xùn)練語言模型，包括同時建模句子內(nèi)以及跨句子的關(guān)系信息，并提出對比學(xué)習(xí)的框架ERICA來全面學(xué)習(xí)實(shí)體和關(guān)系的交互，從而更好捕捉文本中關(guān)系事實(shí)。具體包含了兩個預(yù)訓(xùn)練任務(wù)：(1)實(shí)體判別：給定一個頭實(shí)體和關(guān)系，推斷可能的尾實(shí)體;(2)關(guān)系判別：判別兩個關(guān)系是否語義相似。

模型

ERICA根據(jù)無監(jiān)督數(shù)據(jù)集和外部知識圖譜構(gòu)建遠(yuǎn)程監(jiān)督幫助預(yù)訓(xùn)練。給定一個段落，枚舉出所有實(shí)體以及它們之間存在的關(guān)系，從而構(gòu)建整個對比學(xué)習(xí)的正樣本集。

1. 實(shí)體&關(guān)系表示

給定一個文本，首先使用PLM進(jìn)行編碼并得到每個token的隱表示，然后對提及實(shí)體的連續(xù)tokens上的表示做mean pooling得到當(dāng)前實(shí)體表示，如果一個文本多次提及一個實(shí)體，則對多個表示進(jìn)行平均得到最終實(shí)體表示，而對于關(guān)系表示，通過組合關(guān)系的首尾實(shí)體的表示得到其表示。

2. 實(shí)體判別任務(wù)

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

從正樣本集中選擇一個元組，給定其中的頭實(shí)體和關(guān)系，通過對比學(xué)習(xí)使得正確尾實(shí)體相較于文本中其他實(shí)體，要和頭實(shí)體更相近，具體公式如下。

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

3. 關(guān)系判別任務(wù)

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

這個任務(wù)需要判別兩個關(guān)系是否語義相似，這里考慮到了句子內(nèi)以及跨句子的關(guān)系，從而使得模型隱式地學(xué)習(xí)到了復(fù)雜關(guān)系鏈。具體方法如上圖，通過對比學(xué)習(xí)使得相同的關(guān)系表示(由實(shí)體對表示計(jì)算得到)應(yīng)該更相近。

實(shí)驗(yàn)

本文在BERT和RoBERTa都進(jìn)行了增強(qiáng)訓(xùn)練，遠(yuǎn)程監(jiān)督根據(jù)English Wikipedia和Wikidata構(gòu)建，評估實(shí)驗(yàn)在關(guān)系抽取、實(shí)體分類和問題回答任務(wù)上進(jìn)行的，實(shí)驗(yàn)結(jié)果分別如下：

Relation Extraction

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

Entity Typing

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

Question Answering

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

可以看出ERICA模型在不同任務(wù)不同數(shù)據(jù)集合上都有一定的提升。

總結(jié)

本次分享我們介紹了三篇知識增強(qiáng)的預(yù)訓(xùn)練語言模型文章，分別圍繞知識向量、知識檢索以及知識監(jiān)督的方法來向語言模型中注入知識。第一篇通過一個知識聚合器將KG中的實(shí)體和關(guān)系向量顯式注入語言模型;第二篇通過將知識圖譜轉(zhuǎn)換為自然文本，為檢索型語言模型擴(kuò)充檢索知識語料庫，從而將結(jié)構(gòu)化知識無縫地注入到語言模型中;第三篇基于知識監(jiān)督的方式來建模文本中的關(guān)系事實(shí)從而增強(qiáng)預(yù)訓(xùn)練語言模型。

原文標(biāo)題：從最新的ACL、NAACL和EMNLP中詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
532

瀏覽量
10300

原文標(biāo)題：從最新的ACL、NAACL和EMNLP中詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

全面剖析大語言模型的核心技術(shù)與基礎(chǔ)知識。首先，概述自然語言的基本表示，這是理解大語言模型技術(shù)的

發(fā)表于 05-05 12:17

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

訓(xùn)練數(shù)據(jù)時，數(shù)量、質(zhì)量和多樣性三者缺一不可。數(shù)據(jù)的多樣性對于大語言模型至關(guān)重要，這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的

發(fā)表于 05-07 17:10

檢索增強(qiáng)型語言表征模型預(yù)訓(xùn)練

如果有一種預(yù)訓(xùn)練方法可以顯式地獲取知識，如引用額外的大型外部文本語料庫，在不增加模型大小或復(fù)雜性的情況下獲得準(zhǔn)確結(jié)果，會怎么樣？

發(fā)表于 09-27 14:50 ?2023次閱讀

預(yù)訓(xùn)練語言模型設(shè)計(jì)的理論化認(rèn)識

在這篇文章中，我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文，出自MASS的同一作者。這篇文章的亮點(diǎn)是：

發(fā)表于 11-02 15:09 ?2729次閱讀

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語言模型（如RoBERTa、BERT等）中融入知識。

發(fā)表于 06-23 15:07 ?4275次閱讀

如何向大規(guī)模<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>中融入<b class='flag-5'>知識</b>？

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM預(yù)訓(xùn)練多語言

發(fā)表于 05-05 15:23 ?3013次閱讀

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計(jì)算效率高于掩碼語言

發(fā)表于 05-10 15:01 ?1571次閱讀

利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

預(yù)訓(xùn)練通常被用于自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域，以增強(qiáng)主干網(wǎng)絡(luò)的特征提取能力，達(dá)到加速訓(xùn)練和提高模型

發(fā)表于 08-08 15:33 ?1425次閱讀

預(yù)訓(xùn)練語言模型的字典描述

今天給大家?guī)?b class='flag-5'>一篇IJCAI2022浙大和阿里聯(lián)合出品的采用對比學(xué)習(xí)的字典描述知識增強(qiáng)的預(yù)訓(xùn)練語言

發(fā)表于 08-11 10:37 ?1187次閱讀

CogBERT：腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語言模型

另一方面，從語言處理的角度來看，認(rèn)知神經(jīng)科學(xué)研究人類大腦中語言處理的生物和認(rèn)知過程。研究人員專門設(shè)計(jì)了預(yù)訓(xùn)練的

發(fā)表于 11-03 15:07 ?1099次閱讀

預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

BERT類模型的工作模式簡單，但取得的效果也是極佳的，其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語言學(xué)的特征角度來衡量一個預(yù)

發(fā)表于 03-03 11:20 ?1476次閱讀

基于預(yù)訓(xùn)練模型和語言增強(qiáng)的零樣本視覺學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他

發(fā)表于 06-15 16:36 ?584次閱讀

基于醫(yī)學(xué)知識增強(qiáng)的基礎(chǔ)模型預(yù)訓(xùn)練方法

? ? ? 近年來，基于大數(shù)據(jù)預(yù)訓(xùn)練的多模態(tài)基礎(chǔ)模型 (Foundation Model) 在自然語言理解和視覺感知方面展現(xiàn)出了前所未有的進(jìn)展，在各領(lǐng)域中受到了廣泛關(guān)注。在醫(yī)療領(lǐng)域中，

發(fā)表于 07-07 11:10 ?840次閱讀

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

預(yù)訓(xùn)練模型（Pre-trained Model）是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要概念，尤其是在自然語言處理（NLP）和計(jì)算機(jī)視覺（CV）

發(fā)表于 07-03 18:20 ?3005次閱讀

大語言模型的預(yù)訓(xùn)練

能力，逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型的預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟，它通過在海量無標(biāo)簽數(shù)據(jù)上進(jìn)行

發(fā)表于 07-11 10:11 ?476次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

一文詳解知識增強(qiáng)的語言預(yù)訓(xùn)練模型

評論

【大語言模型：原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

檢索增強(qiáng)型語言表征模型預(yù)訓(xùn)練

預(yù)訓(xùn)練語言模型設(shè)計(jì)的理論化認(rèn)識

如何向大規(guī)模預(yù)訓(xùn)練語言模型中融入知識？

Multilingual多語言預(yù)訓(xùn)練語言模型的套路

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

利用視覺語言模型對檢測器進(jìn)行預(yù)訓(xùn)練

預(yù)訓(xùn)練語言模型的字典描述

CogBERT：腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語言模型

預(yù)訓(xùn)練數(shù)據(jù)大小對于預(yù)訓(xùn)練模型的影響

基于預(yù)訓(xùn)練模型和語言增強(qiáng)的零樣本視覺學(xué)習(xí)

基于醫(yī)學(xué)知識增強(qiáng)的基礎(chǔ)模型預(yù)訓(xùn)練方法

預(yù)訓(xùn)練模型的基本原理和應(yīng)用

大語言模型的預(yù)訓(xùn)練