在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:DataFunTalk ? 2023-06-26 14:39 ? 次閱讀

導(dǎo)讀今天討論的是面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究,這是現(xiàn)在AIGC特別火的場(chǎng)景之一。這種技術(shù)不同于傳統(tǒng)的文本生成,它的輸入是一種比較特殊的結(jié)構(gòu),比如幾百條不同的三元組或者很多種數(shù)字的信息。在使用傳統(tǒng)的ChatGPT時(shí),我們可以通過(guò)做一些摘要任務(wù)、翻譯任務(wù)等來(lái)隨意提出問(wèn)題,但是對(duì)于結(jié)構(gòu)化數(shù)據(jù),它需要更高的生成能力,因?yàn)樗烁嗟男畔?。因此,我們今天選擇這個(gè)主題來(lái)給大家講解。

01

文本生成介紹

首先介紹一下現(xiàn)階段熱門的文本生成。

1.人工智能的發(fā)展階段

人工智能的發(fā)展經(jīng)歷了許多次的突破。早期,李世石下棋戰(zhàn)勝了電腦,但后來(lái)又輸給了AlphaGo,這拉開了人工智能快速發(fā)展的序幕。之后,無(wú)人車的感知智能以及能看會(huì)讀的人工智能模型也受到了很多資本的青睞。近幾個(gè)月來(lái),以ChatGPT、GPT-4以及文心一言為首的對(duì)話式人工智能模型受到了巨大的關(guān)注,甚至被認(rèn)為是一種認(rèn)知智能。它基本上可以對(duì)人的問(wèn)題以及意圖達(dá)到90%以上的理解能力,并且能根據(jù)意圖很好地生成你所要的文本。這被認(rèn)為是當(dāng)前最核心的一種前沿技術(shù)之一,這種方式通過(guò)大量無(wú)監(jiān)督的學(xué)習(xí)再加上和人的對(duì)齊,實(shí)現(xiàn)了一種通用人工智能。經(jīng)過(guò)不斷的發(fā)展,人工智能技術(shù)水平也在不斷提高。

2.文本生成概念

1e2f747e-13e9-11ee-962d-dac502259ad0.png

今天我們要講的文本生成是現(xiàn)在最流行的研究領(lǐng)域之一。文本生成的目標(biāo)是讓計(jì)算機(jī)像人類一樣學(xué)會(huì)表達(dá),目前看基本上接近實(shí)現(xiàn)。這些突然的技術(shù)涌現(xiàn),使得計(jì)算機(jī)能夠撰寫出高質(zhì)量的自然文本,滿足特定的需求。典型的一些任務(wù)有文本到文本的生成,例如傳統(tǒng)的摘要、翻譯以及回答等。除了傳統(tǒng)的文本生成,還有一種輸入結(jié)構(gòu)化數(shù)據(jù)的生成,例如天氣預(yù)報(bào)、比賽數(shù)據(jù)以及傳感器數(shù)據(jù)等。雖然這些數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)的形式進(jìn)行存儲(chǔ),但并不便于人們?nèi)ダ斫饣蛘哒业狡渲械奶攸c(diǎn)。因此,希望能通過(guò)文本的形式更易于閱讀或者理解。另外,最近混合模態(tài)的生成已經(jīng)得到了突破,輸入圖像或者視頻可以對(duì)應(yīng)輸出相關(guān)的文本。這些是之前文本生成領(lǐng)域主要做的一些研究。

1e552e94-13e9-11ee-962d-dac502259ad0.png

如果不考慮不同的模態(tài),它實(shí)際上是按照輸入的長(zhǎng)短來(lái)生成的。起初我們常常用它來(lái)做一些比較簡(jiǎn)單的任務(wù),比如壓縮式的文本生成。輸入比較長(zhǎng),而輸出比較短,比如只有簡(jiǎn)單的標(biāo)題或者100多個(gè)字符的摘要。再之后,還有一種平行式的文本生成,比如我們來(lái)復(fù)述一句話或者潤(rùn)色一句話。機(jī)器翻譯也是典型的平行式文本生成任務(wù),只是我們會(huì)控制它用不同的語(yǔ)言來(lái)進(jìn)行生成。其次,還有一種比較有挑戰(zhàn)性的擴(kuò)展式的文本生成。比如,提供一個(gè)意圖生成篇章級(jí)文本,我們可以讓ChatGPT和GPT-4寫出好故事,甚至,它可以寫一些比較好的報(bào)告。我們認(rèn)為,隨著輸入輸出比的不斷變化,讓它的挑戰(zhàn)也變得更多,因?yàn)殡S著文本的輸出更長(zhǎng),它所要遵循的邏輯、層次以及其內(nèi)部本身文本上有一些退化問(wèn)題,都更具挑戰(zhàn)。

3.文本生成模型

1e8bee70-13e9-11ee-962d-dac502259ad0.png

技術(shù)層面,最早在2000年前后,生成方式采用的是所謂pipeline流水線的方式。它通過(guò)目標(biāo)任務(wù)來(lái)找到寫作對(duì)應(yīng)的一些詞單元,把這些單元和詞進(jìn)行規(guī)劃、排序,再把每個(gè)單元合并成句子,最后再套入模板中,這是很復(fù)雜的流水線過(guò)程。

在2014年,我們采用了一種端到端的編碼器解碼器的方式,也就是基于深度學(xué)習(xí)的方式,典型的任務(wù)是機(jī)器翻譯,比如我們把每個(gè)詞變成向量,輸入到神經(jīng)網(wǎng)絡(luò)里面,就可以把向量進(jìn)行編碼。最后傳給解碼器進(jìn)行解碼,每次解碼的時(shí)候,它實(shí)際上是從很大的幾萬(wàn)個(gè)詞表中選取概率最大的詞作為當(dāng)前的輸出。這種方式在機(jī)器翻譯領(lǐng)域或者當(dāng)時(shí)的文本摘要任務(wù)上非常成功。

后來(lái)在2018年,人工智能領(lǐng)域又發(fā)生了一次變革,這次變革中出現(xiàn)了預(yù)訓(xùn)練模型的方法,比較典型的有三個(gè)不同的模型:GPT-1、GPT-2、GPT-3。這三個(gè)模型在使用時(shí),像GPT-1和GPT-2這樣的小模型通常采用微調(diào)的范式,即讓其提前學(xué)習(xí)海量的文本和知識(shí),并在小規(guī)模數(shù)據(jù)上進(jìn)行調(diào)優(yōu),以便更好地適應(yīng)下游任務(wù)。當(dāng)預(yù)訓(xùn)練模型的規(guī)模變得非常大時(shí),很難對(duì)模型內(nèi)的參數(shù)進(jìn)行finefune,這時(shí)就通過(guò)提示學(xué)習(xí)的方式,為不同的任務(wù)設(shè)計(jì)不同的表示,以引導(dǎo)模型輸出想要的內(nèi)容。最新的方法被稱為instruct tuning(指令微調(diào)),它不需要改變預(yù)訓(xùn)練模型,也不需要為每個(gè)任務(wù)學(xué)習(xí)專門的特征或表示,只需利用所有的自然語(yǔ)言文本即可。

4.文本生成技術(shù)

1e9edefe-13e9-11ee-962d-dac502259ad0.png

隨著預(yù)訓(xùn)練模型的發(fā)展,其規(guī)模呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)。目前,比較大的預(yù)訓(xùn)練模型有Megatron- Turning和 OPT,它們分別來(lái)自于Nvidia和Meta。目前我們不知道ChatGPT相比于GPT-3在模型大小上的區(qū)別,也不確定GPT-4是達(dá)到了十萬(wàn)億的參數(shù)還是像GPT-3一樣保持相對(duì)較小的規(guī)模。隨著新的預(yù)訓(xùn)練語(yǔ)言模型的不斷提出,它們改變了我們基于傳統(tǒng)pipeline學(xué)習(xí)的文本生成方法,這些新的模型能夠解決過(guò)去在連貫性等方面所遇到的問(wèn)題,例如微觀規(guī)劃。它們?cè)谠~的使用、詞的表達(dá)以及句子合成方面都更加流暢自然,讓人感覺與真人寫作的差別不大,甚至有時(shí)更好。現(xiàn)在,我們更關(guān)注的是如何圍繞輸入的內(nèi)容來(lái)寫作,以及如何寫作。這些問(wèn)題值得我們作為文本生成研究者去思考。

1ef32b8a-13e9-11ee-962d-dac502259ad0.png

一方面我們主要圍繞不同的編碼器,如編碼文本、結(jié)構(gòu)化數(shù)據(jù)(如表格)、圖像等,但GPT-4的多模態(tài)能力給這種任務(wù)帶來(lái)了巨大的沖擊。解碼會(huì)有不同的風(fēng)格,例如,ChatGPT可以很好地生成一首李白風(fēng)格的詩(shī),雖然有可能存在一些事實(shí)性的問(wèn)題。另外在寫長(zhǎng)文本時(shí),我們需要關(guān)注邏輯、主題、重復(fù)性等,也需要控制長(zhǎng)度。這些問(wèn)題在ChatGPT之前就經(jīng)常被討論,但未來(lái)在具體實(shí)現(xiàn)方式上仍需深入研究。

02面向結(jié)構(gòu)化數(shù)據(jù)的文本生成

接下來(lái),將討論面向結(jié)構(gòu)化數(shù)據(jù)的文本生成。

1f3a7850-13e9-11ee-962d-dac502259ad0.png

狹義上,這種生成任務(wù)是根據(jù)非語(yǔ)言結(jié)構(gòu)信息生成自然語(yǔ)言文本的過(guò)程,這意味著只要輸入不是自然語(yǔ)言,都可以屬于這類范疇。具體地我們可以輸入表格,如財(cái)務(wù)報(bào)表,然后把它們生成為簡(jiǎn)單的報(bào)表,使人們更容易理解。這與AIGC非常相似,它可以賦能企業(yè)自動(dòng)寫作的場(chǎng)景,減輕企業(yè)用戶在撰寫報(bào)告方面的成本。整個(gè)任務(wù)的定義輸入是結(jié)構(gòu)化數(shù)據(jù),可以看作是知識(shí)圖譜中的三元組,包括不同的節(jié)點(diǎn),例如數(shù)字和實(shí)體等。輸出則為自然語(yǔ)言文本,這可以被用來(lái)生成結(jié)構(gòu)化數(shù)據(jù)的文本。

1f7f17a8-13e9-11ee-962d-dac502259ad0.png

這種技術(shù)的應(yīng)用也有著重要意義。知識(shí)圖譜的價(jià)值在于它更易于計(jì)算機(jī)理解,但不太便于人類理解,因此需要將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為人類易于理解的文本。例如,當(dāng)播報(bào)天氣預(yù)報(bào)時(shí),不能簡(jiǎn)單地說(shuō)出“溫度-32度-哈爾濱”,而應(yīng)該將其轉(zhuǎn)化為易于理解的文本形式。另外,在撰寫賽事報(bào)道時(shí),原始的輸入數(shù)據(jù)以三元組的形式存儲(chǔ)在Excel表格或其它數(shù)據(jù)庫(kù)中,之前需要編輯去寫作,而現(xiàn)在騰訊、新浪等一些新聞網(wǎng)站已經(jīng)可以通過(guò)自動(dòng)化的方式將其轉(zhuǎn)化為易于理解的文本。另外,我們做了很多種柱狀圖或者是餅圖,其背后的原理都是一種三元組,可以把這種三元組都轉(zhuǎn)化成文本的形式,便于大家去閱讀和理解。

1f8d175e-13e9-11ee-962d-dac502259ad0.png

具體的場(chǎng)景,例如輸入體育比賽這種相對(duì)復(fù)雜一點(diǎn)的結(jié)構(gòu)化表格,輸出一篇報(bào)道。隨著ChatGPT或者GPT-4的出現(xiàn),自動(dòng)化生產(chǎn)文本的能力得到了很大的提升,未來(lái)很多文本都會(huì)用這種技術(shù)來(lái)做。我們可以把它看成簡(jiǎn)單的實(shí)體存儲(chǔ)的描述,用這種方式來(lái)播報(bào)它的具體內(nèi)容,以便于人們理解。還可以把不同區(qū)域的經(jīng)濟(jì)數(shù)值轉(zhuǎn)換成財(cái)報(bào),這對(duì)很多銀行或者金融保險(xiǎn)企業(yè)來(lái)說(shuō)很重要,因?yàn)樗麄冃枰獙?shí)時(shí)了解各地方的情況。還可以通過(guò)一些好的生成方法讓它自動(dòng)挖掘出一些風(fēng)險(xiǎn)點(diǎn),或者是誰(shuí)的業(yè)績(jī)比較好等信息。

1fc84cf2-13e9-11ee-962d-dac502259ad0.png

上圖中列舉了一些之前國(guó)內(nèi)以及國(guó)外比較典型的生成系統(tǒng),其中包括國(guó)內(nèi)的新華社推出的快筆小新、阿里巴巴等。還有國(guó)外的一些種初創(chuàng)公司,獲得了很多的關(guān)注,比如美國(guó)明星企業(yè)Narrative Science、Automated Insights等,但是目前這種企業(yè)在ChatGPT和GPT-4的沖擊下具體情況還未可知。

這里也羅列一些近20年來(lái)自然語(yǔ)言處理領(lǐng)域中的典型任務(wù)。最早有數(shù)據(jù)支撐的任務(wù)是在2009年,涉及天氣預(yù)報(bào)數(shù)據(jù)集。2016年,出現(xiàn)了描述人物的維基百科任務(wù),可以看作是簡(jiǎn)單圖譜的分支。隨后在2017年,開始研究餐館的描述,例如給美團(tuán)每個(gè)餐館打上廣告。此外,還有一些更偏向推理的任務(wù),如棒球比賽等。在2020年之后,基于推理、事實(shí)一致性和數(shù)值計(jì)算成為更受關(guān)注的方向。事實(shí)一致性最早出現(xiàn)在結(jié)構(gòu)化數(shù)據(jù)文本生成中,目前也被認(rèn)為是ChatGPT沒(méi)有解決的最核心的問(wèn)題。而針對(duì)如何解決事實(shí)不一致性問(wèn)題,領(lǐng)域相關(guān)工作者可以進(jìn)一步深入研究。

最后再說(shuō)一下該任務(wù)的意義。它可以很好地提升我們工作的效率,幫助用戶理解離散的數(shù)據(jù)并進(jìn)行正確的決策。面向結(jié)構(gòu)化數(shù)據(jù),未來(lái)我們可以把不同的圖像如餅圖、線圖等轉(zhuǎn)化為文字的形式,有廣泛的應(yīng)用空間。實(shí)際上,GPT-4采用的策略不一定是三元組的存儲(chǔ),而是采用一種視覺的方式。

20128bb4-13e9-11ee-962d-dac502259ad0.png

結(jié)構(gòu)化數(shù)據(jù)文本生成,與傳統(tǒng)的文本生成在評(píng)價(jià)指標(biāo)上有一些不同。傳統(tǒng)的文本生成有經(jīng)典的評(píng)價(jià)指標(biāo),如BLEU和ROUGE。在結(jié)構(gòu)化數(shù)據(jù)上,更加關(guān)注抽取的三元組內(nèi)容(content Selection),以及所寫的內(nèi)容和原本輸入的結(jié)構(gòu)化表格是否對(duì)應(yīng)(Relation Generation),內(nèi)容的順序是否一致(Content Ordering)。它構(gòu)建了一些自己的打分方法,同時(shí)還會(huì)用一些經(jīng)典的人工評(píng)價(jià)來(lái)指導(dǎo)或說(shuō)明生成系統(tǒng)的好壞。

204b50de-13e9-11ee-962d-dac502259ad0.png

接下來(lái)介紹主要的技術(shù)架構(gòu):

最早期是使用pipeline的方式,研究了傳統(tǒng)的內(nèi)容規(guī)劃,通過(guò)決定哪些內(nèi)容是三元組來(lái)進(jìn)行選擇,然后將這些三元組放到有序的條件下,最后將它們進(jìn)行文字模板的嵌套生成最終的結(jié)果。這種方法的好處是易于控制,因?yàn)槟懔私馄渲忻恳徊奖澈蟮暮x,并且可以進(jìn)行改進(jìn)。但缺點(diǎn)是需要人為地從中寫入一些特征,并且存在錯(cuò)誤傳播的現(xiàn)象。

20673f10-13e9-11ee-962d-dac502259ad0.png

之后采用了基于深度學(xué)習(xí)的方法,通過(guò)編碼器-解碼器來(lái)生成文本。其中編碼器是面向于結(jié)構(gòu)化數(shù)據(jù)特殊設(shè)計(jì)的一種層次化的編碼器。通過(guò)解碼器加上注意力文本和拷貝文本,我們就能生成想要的合適的輸出。這種方法的好處是可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)施,只要收集足夠多的數(shù)據(jù),就可以得到比較好的生成文本。但是它的問(wèn)題是可解釋性比較強(qiáng),難以針對(duì)某個(gè)錯(cuò)誤進(jìn)行控制。

20ac1432-13e9-11ee-962d-dac502259ad0.png

很多人認(rèn)為隨著ChatGPT的出現(xiàn),整個(gè)NLP或NLG領(lǐng)域就不存在了。事實(shí)上,我們?nèi)钥吹綄?duì)于一些非常復(fù)雜的結(jié)構(gòu)化表格,在建模能力方面它并沒(méi)有我們想象的那樣強(qiáng)大。首先,我們把整個(gè)表格以三組的形式或者以json的形式輸入到ChatGPT,這里它犯了一些錯(cuò)誤,后面會(huì)講到如何解決。

首先,在講分?jǐn)?shù)時(shí)選擇或者生成了錯(cuò)誤的數(shù)據(jù),犯了事實(shí)不一致的問(wèn)題。例如,它提到國(guó)王和布魯克林的比分是99比90,但實(shí)際上應(yīng)該是107比99。

第二,它對(duì)大小的認(rèn)知程度不夠。例如,它寫到球隊(duì)中最高分的球員得了24分,但實(shí)際上我們?cè)诒砀裰锌吹接腥说昧烁叩?5分。盡管ChatGPT經(jīng)過(guò)了很多輪的更新,但這種選擇性錯(cuò)誤和不符合邏輯的表達(dá)表明它在數(shù)字的理解方面仍然很薄弱。

03目前主要挑戰(zhàn)

接下來(lái)介紹目前的主要挑戰(zhàn),也是我們所研究的主要內(nèi)容。

20e9b9ae-13e9-11ee-962d-dac502259ad0.png

我們希望能夠?qū)o定樣式的表格,能夠比較好地顯示它的結(jié)果。然而,結(jié)果是當(dāng)前比較困難的,例如與其它數(shù)據(jù)集相比,這個(gè)賽事表格有600多個(gè)不同的單元和三元組。它使用的長(zhǎng)度也很長(zhǎng),因此無(wú)法將所有信息都輸進(jìn)去。我們需要解決如何選擇合理的結(jié)構(gòu)化信息或單元來(lái)進(jìn)行描寫,以及如何更好地表示數(shù)字的大小,使其能夠合理地輸出。例如很多情況不一定是完全要遵照表格數(shù)據(jù),有時(shí)需要呈現(xiàn)兩個(gè)隊(duì)的比分以及分差,需要通過(guò)計(jì)算器計(jì)算的結(jié)果,這是任務(wù)本身不具備的能力。此外,還有一些風(fēng)格的控制,例如每個(gè)人寫的新聞報(bào)道都有自己的風(fēng)格,我們是否能夠通過(guò)參考之前報(bào)道的風(fēng)格來(lái)寫整個(gè)內(nèi)容。這些都是我們關(guān)于內(nèi)容上不同方面的研究。

1.內(nèi)容選擇

對(duì)于ChatGPT來(lái)說(shuō),其輸入通常是文本,是典型的序列化輸入,只有上下文。但對(duì)于結(jié)構(gòu)化的表格來(lái)說(shuō),每一列和每一行之間都存在典型的相關(guān)性。例如,一列可以代表當(dāng)前球隊(duì)誰(shuí)得分最高,一行可以顯示有多少個(gè)得分,籃板和助攻等特殊信息,是否拿到了兩雙或三雙等等。同時(shí),我們需要考慮一些球隊(duì)的歷史信息,比如球隊(duì)表現(xiàn)的差異等。因此,我們需要解決如何更好地表示這些信息。

214be8b8-13e9-11ee-962d-dac502259ad0.png

對(duì)此,研究人員進(jìn)行了一種層次化的建模,首先使用行的編碼器來(lái)確定各項(xiàng)數(shù)值之間的比較,同時(shí)使用列的編碼器來(lái)整合不同維度的信息,以及用不同的三元組來(lái)建模人物整體的表示,判斷是否應(yīng)該被選擇出來(lái)。

21686f88-13e9-11ee-962d-dac502259ad0.png

基于之前提到的RG、CS、CO評(píng)估指標(biāo),效果很明顯,且在各個(gè)指標(biāo)上都達(dá)到了最優(yōu)效果。這種層次化的方式實(shí)際上也是比較符合結(jié)構(gòu)化數(shù)據(jù)的,但是剛才跟ChatGPT做對(duì)比的時(shí)候,實(shí)際上是把它當(dāng)作一種json模式在用。

2.數(shù)字表示

如何讓模型更好地學(xué)習(xí)數(shù)字表示,我們發(fā)現(xiàn)ChatGPT在選擇數(shù)字大小時(shí)會(huì)出現(xiàn)錯(cuò)誤,因此需要將數(shù)字大小的信息嵌入到寫作過(guò)程中,這是非常核心的內(nèi)容。由于ChatGPT是典型地根據(jù)概率去建模生成內(nèi)容,即本質(zhì)上是0/1問(wèn)題,兩者存在不一致性,這導(dǎo)致ChatGPT在數(shù)值問(wèn)題上建模能力稍有欠缺。

21aadc60-13e9-11ee-962d-dac502259ad0.png

我們嘗試將數(shù)值之間的大小關(guān)系轉(zhuǎn)化為模型中的表示,以便比較大小關(guān)系。我們獲取同類型的content表示,并將比較信息嵌入到數(shù)字表示過(guò)程中。這樣,在理解表格和結(jié)構(gòu)化信息時(shí)就可以更加準(zhǔn)確,這相當(dāng)于在預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)了數(shù)字大小比較能力。其次,在建模每個(gè)三元組時(shí),我們會(huì)設(shè)計(jì)多維度的reward,以提升模型選擇內(nèi)容的能力。

220067d4-13e9-11ee-962d-dac502259ad0.png

最后新的方法在結(jié)果上也獲得了很好的性能。其中一個(gè)值得探索的問(wèn)題是,我們是否加入了數(shù)字大小的能力。我們?cè)诓煌谋荣惢驍?shù)據(jù)上做了二維空間映射的對(duì)比實(shí)驗(yàn),其中紅色表示之前的建模方法,藍(lán)色表示加入數(shù)字大小后的方法。結(jié)果顯示,加入數(shù)字大小后,模型的不同維度表示之間呈現(xiàn)出典型的線性關(guān)系,這樣就能更好地拉寬不同數(shù)字之間的屬性或表示的性質(zhì),從而更好地選擇要生成的內(nèi)容。

3.數(shù)值推理

另外,我們也希望模型能在數(shù)值推理時(shí)能夠合理地推出原始表中沒(méi)有出現(xiàn)的信息,并根據(jù)這些信息給出總結(jié)性或分析性的結(jié)論。以賽事表格為例,表格中除了有像107代表一隊(duì)的總分,103代表另一隊(duì)的總分的信息之外,還有很多數(shù)字是與原始表格里不匹配的,比如有兩個(gè)球員一起合作得到了9分,還有兩隊(duì)有4分的差別,差距對(duì)應(yīng)的是險(xiǎn)勝。這些信息實(shí)際上從原始的表格是得不到的,需要對(duì)數(shù)字內(nèi)容實(shí)現(xiàn)推理來(lái)計(jì)算。

2269990c-13e9-11ee-962d-dac502259ad0.png

在生成過(guò)程中可以采用一種填槽的方式。我們采用了雙解碼器的策略。除了文本解碼器外,還可以建模表格中的實(shí)體、類型和分?jǐn)?shù),使用三元組的方式將其結(jié)構(gòu)化。在解碼文本時(shí),除了解碼文本本身外,我們還會(huì)使用關(guān)鍵的槽位。這些槽位類似于觸發(fā)器或gate。當(dāng)槽位被啟動(dòng)時(shí),就會(huì)引入公式的計(jì)算。我們嘗試用這種方式讓它解碼出不同的數(shù)字。例如,針對(duì)當(dāng)前的三分,它可以解碼出差距是三分的107-104。但在真實(shí)場(chǎng)景中,它無(wú)法直接計(jì)算答案,因?yàn)榛镜恼Z(yǔ)言模型不具備計(jì)算能力。因此可以將其放在計(jì)算器中計(jì)算出結(jié)果,然后將結(jié)果放回原文中使用。這種方式可以很好地將數(shù)值推理的能力嵌入到文本中。

22866fd2-13e9-11ee-962d-dac502259ad0.png

為了更好地讓它理解表格的結(jié)構(gòu)和數(shù)據(jù),結(jié)合我們的任務(wù),我們提出了一種叫做tablemask的策略。我們可以隨意從表格中摳掉一些,然后使用它的行列嘗試恢復(fù)它。例如,如果某個(gè)球員的得分被扣掉了,我們可以用總分減去其它所有區(qū)域的分?jǐn)?shù)來(lái)獲得該球員的分?jǐn)?shù)。這樣就可以基于樣例來(lái)訓(xùn)練,提前保證預(yù)訓(xùn)練公式計(jì)算器的解碼能力。之后,把解碼能力嵌入到文本解碼器內(nèi),兩者相互配合就可以得到比較好的結(jié)果。

22d97a56-13e9-11ee-962d-dac502259ad0.png

從實(shí)驗(yàn)數(shù)據(jù)來(lái)看,我們除了做文本生成任務(wù),也去看能否產(chǎn)生比較有意思的結(jié)果。我們就做了一些對(duì)比,例如“尼克斯戰(zhàn)勝了灰熊”,給它“#”,讓模型生成下一個(gè)詞。因?yàn)楫?dāng)時(shí)很多用的都是transformer,沒(méi)有預(yù)訓(xùn)練。我們看到,通過(guò)調(diào)整數(shù)字構(gòu)造器的方法,大于70% 的數(shù)字都是可以正確生成的,而這些數(shù)字都是通過(guò)計(jì)算得到的,并不是在原始的表格里存在的。

同時(shí)我們找了一些其它好的例子,發(fā)現(xiàn)確實(shí)是可以生成原始內(nèi)容中沒(méi)有的信息。比如生成兩隊(duì)在上半場(chǎng)的比分,在實(shí)際數(shù)據(jù)中只有每一節(jié)的分?jǐn)?shù),沒(méi)有上半場(chǎng)的總分?jǐn)?shù),就需要分別計(jì)算兩個(gè)球隊(duì)上半場(chǎng)分?jǐn)?shù)之和,相加之后再把兩個(gè)數(shù)字導(dǎo)回去,獲得合理的生成結(jié)果。

4.風(fēng)格控制

2329f1a2-13e9-11ee-962d-dac502259ad0.png

我們還希望能夠指定寫作的風(fēng)格。前文介紹的更加傾向于能夠產(chǎn)生有價(jià)值的信息,現(xiàn)在是考慮是否能遵照不同人的風(fēng)格生成更加可定制、個(gè)性化的內(nèi)容。我們提出了一種篇章級(jí)的風(fēng)格遷移任務(wù)。以前的風(fēng)格遷移是源于圖像視覺領(lǐng)域,比如要求模型畫一個(gè)達(dá)芬奇風(fēng)格的畫。后來(lái)在文本中,我們會(huì)希望模型生成積極的表達(dá),或者生成更加正式的一段表達(dá)。

2393eaa8-13e9-11ee-962d-dac502259ad0.png

我們提到的篇章級(jí)風(fēng)格控制是指,給定一個(gè)表格和需要新聞報(bào)道的樣式素材,將這些材料整合為一篇文章。由于這些數(shù)據(jù)本身并不匹配,因此要寫出符合這種文體的文章是一項(xiàng)具有挑戰(zhàn)性的任務(wù),只能通過(guò)一種無(wú)監(jiān)督的方式進(jìn)行。為了解決這個(gè)任務(wù),我們?cè)O(shè)計(jì)了不同種學(xué)習(xí)的損失函數(shù),保證內(nèi)容可信度和語(yǔ)言風(fēng)格,并生成類似于back-translation的內(nèi)容,以指導(dǎo)我們將文章寫回原來(lái)的文本。

23ae2756-13e9-11ee-962d-dac502259ad0.png

在建模方面,我們將表格和參考文本用層次化的方式建模,再進(jìn)行attention交互的矩陣計(jì)算,最后我們用它來(lái)指導(dǎo)文章生成。

23e31a88-13e9-11ee-962d-dac502259ad0.png

文章在風(fēng)格表達(dá)方面達(dá)到了比較好的效果。直接把原始文本上的數(shù)字摳掉去填充,這種風(fēng)格匹配是百分之百的,一些內(nèi)容可行性上的準(zhǔn)確率、召回率以及BLEU值都還是很好的。實(shí)際上,在生成內(nèi)容方面,模型的效果還不錯(cuò),比如輸入表格和左側(cè)文本,能夠按照風(fēng)格生成理想中的內(nèi)容。由于模型建模能力有限,還是會(huì)犯一些小錯(cuò)誤,不過(guò)大部分情況下,它都能夠?qū)W習(xí)并正確生成所需的文本。

04總結(jié)

243671f6-13e9-11ee-962d-dac502259ad0.png

最后做一個(gè)簡(jiǎn)單的總結(jié),首先隨著ChatGPT的出現(xiàn),結(jié)構(gòu)化數(shù)據(jù)的文本生成的應(yīng)用會(huì)越來(lái)越多,未來(lái)很難找到一些典型的問(wèn)題。其次,ChatGPT可以幫助我們做文本生成的評(píng)價(jià),因?yàn)槟壳拔谋旧稍u(píng)價(jià)的進(jìn)展依舊不容樂(lè)觀。另外,我們還需要對(duì)ChatGPT做一些特殊的優(yōu)化,比如如何設(shè)計(jì)給ChatGPT的結(jié)構(gòu)化數(shù)據(jù)的模板形式。同時(shí)我們還可以設(shè)計(jì)一些特殊的prompt。這方面還有研究空間。此外,現(xiàn)在是以三元組方式去建模,但是在做summarization的時(shí)候,它是以一種跨模態(tài)的圖片形式,我們也需要思考表格是否能采用這種多模態(tài)的形式處理。

05Q&A

Q1:table2txt的工作中,行編碼器或者列編碼器會(huì)將table中的數(shù)據(jù)解析成三元組的形式,喂給到模型中進(jìn)行建模嗎?

A1:是的,這確實(shí)是個(gè)很好的問(wèn)題。它確實(shí)是以三元組形式輸入到我們的模型中。因?yàn)楫?dāng)時(shí)它不一定都是序列化的,像現(xiàn)在這種transformer的編碼方式。比如我們把人名和他的對(duì)應(yīng)的得分加上他的分?jǐn)?shù),他們?nèi)齻€(gè)組合成三元組的形式,通過(guò)MLP的簡(jiǎn)單形式進(jìn)行編碼。它的效果還可以,讓我們覺得這種方式還不錯(cuò)。

Q2:大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)的建模(大寬表,freebas)有什么比較好的思路嗎?

A2:我們還試驗(yàn)了其他例子,剛才給大家展示的是ChatGPT,它生成會(huì)存在的一些問(wèn)題。那我們內(nèi)部也測(cè)了一下,GPT-4能讀一些結(jié)構(gòu)化的信息,就比如你把它存成json這種有一定層次的表達(dá)也可以讀取。而且它的輸入效果要比ChatGPT好,基本上找不出來(lái)明顯的錯(cuò)誤。

Q3:多元時(shí)序結(jié)構(gòu)化的數(shù)據(jù)表的建模,請(qǐng)問(wèn)有好的建模的思路嗎?

A3:我覺得可以參考我們?cè)谧鲂蛄谢r(shí)候加入類似position embedding的時(shí)間戳的做法,這是一種最直接的方式。

Q4:GPT對(duì)于知識(shí)圖譜的研究最大的挑戰(zhàn)和啟示是什么?未來(lái)知識(shí)圖譜的研究會(huì)發(fā)生根本性的轉(zhuǎn)變嗎?

A4:我覺得確實(shí)也是現(xiàn)在很值得思考的問(wèn)題。我覺得也是我們要開次峰會(huì)的原因,因?yàn)榇蠹铱吹桨阎R(shí)存到參數(shù)化的效果里面是很好的,那很多時(shí)候我們基本上也不需要去搜索知識(shí)圖譜或者是檢索一些外部知識(shí),它就能給出來(lái)很好的答案。像采用New Bing的形式,我通過(guò)實(shí)時(shí)檢索,返回一些文本信息,它來(lái)作為補(bǔ)充,那這對(duì)于時(shí)效性和準(zhǔn)確性的提升也是很明顯的。那在整個(gè)過(guò)程中,圖譜能發(fā)揮的作用確實(shí)是值得我們?nèi)ニ伎?。我個(gè)人感覺可以想辦法,他們有的文章提出可以讓模型去恢復(fù)圖譜,去預(yù)測(cè)圖譜中的節(jié)點(diǎn)??梢哉f(shuō)能把知識(shí)的這種方式嵌入到我的模型中,就類似先Mask原本的文本再去恢復(fù)它,這樣你能學(xué)到文本的上下文。那你把圖譜中的節(jié)點(diǎn)刪除摳掉之后,你讓模型去恢復(fù)圖譜,你就能學(xué)到些不同知識(shí)間的相關(guān)性。確實(shí)是很難回答的問(wèn)題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47279

    瀏覽量

    238497
  • 結(jié)構(gòu)化
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    10308
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7709

原文標(biāo)題:面向結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)研究

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    面向新興三維視頻應(yīng)用的技術(shù)研究與開發(fā)

    此資料是:面向新興三維視頻應(yīng)用的技術(shù)研究與開發(fā),希望對(duì)大家有所幫助
    發(fā)表于 07-31 21:19

    圖像中的文本定位技術(shù)研究綜述_晉瑾 電子書

    圖像中的文本定位技術(shù)研究綜述_晉瑾
    發(fā)表于 06-29 12:24

    結(jié)構(gòu)化程序設(shè)計(jì)和面向對(duì)象程序設(shè)計(jì)

    結(jié)構(gòu)化程序設(shè)計(jì)和面向對(duì)象程序設(shè)計(jì),在接下來(lái)很長(zhǎng)的一段時(shí)間里,我將陸續(xù)分享項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn)。從電源、單片機(jī)、晶體管、驅(qū)動(dòng)電路、顯示電路、有線通訊、無(wú)線通信、傳感器、原理圖設(shè)計(jì)、PCB設(shè)計(jì)、軟件設(shè)計(jì)、上位機(jī)等,給新手綜合學(xué)習(xí)的平臺(tái),給老司機(jī)交流的平臺(tái)。所有文章來(lái)源于項(xiàng)目實(shí)戰(zhàn),屬于
    發(fā)表于 07-14 06:35

    三菱Q系列PLC編程手冊(cè)(結(jié)構(gòu)化文本篇)

    Q系列PLC編程手冊(cè)(結(jié)構(gòu)化文本篇)
    發(fā)表于 03-07 18:00 ?38次下載

    如何使用西門子結(jié)構(gòu)化文本編程

    下面,我就結(jié)合自己的一些使用經(jīng)驗(yàn)介紹一下如何使用結(jié)構(gòu)化文本編程。
    的頭像 發(fā)表于 08-04 08:29 ?1w次閱讀
    如何使用西門子<b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>文本</b>編程

    結(jié)構(gòu)化文本語(yǔ)言ST編程的學(xué)習(xí)課件

    文本呢?“結(jié)構(gòu)”是指高水平的結(jié)構(gòu)化編程能力,象一個(gè)“結(jié)構(gòu)化的編程”;“文本”是指應(yīng)用文本而不是梯
    發(fā)表于 12-28 08:00 ?18次下載
    <b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>文本</b>語(yǔ)言ST編程的學(xué)習(xí)課件

    文本生成任務(wù)中引入編輯方法的文本生成

    4. FELIX FELIX是Google Research在“FELIX: Flexible Text Editing Through Tagging and Insertion”一文中提出的文本生成
    的頭像 發(fā)表于 07-23 16:56 ?1737次閱讀
    <b class='flag-5'>文本生成</b>任務(wù)中引入編輯方法的<b class='flag-5'>文本生成</b>

    受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

    來(lái)自:哈工大訊飛聯(lián)合實(shí)驗(yàn)室 本期導(dǎo)讀:本文是對(duì)受控文本生成任務(wù)的一個(gè)簡(jiǎn)單的介紹。首先,本文介紹了受控文本生成模型的一般架構(gòu),點(diǎn)明了受控文本生成模型的特點(diǎn)。然后,本文介紹了受控文本生成
    的頭像 發(fā)表于 10-13 09:46 ?3538次閱讀
    受控<b class='flag-5'>文本生成</b>模型的一般架構(gòu)及故事<b class='flag-5'>生成</b>任務(wù)等方面的具體應(yīng)用

    基于GPT-2進(jìn)行文本生成

    系統(tǒng)投入使用。這些系統(tǒng)根據(jù)格式數(shù)據(jù)或自然語(yǔ)言文本生成新聞、財(cái)報(bào)或者其他解釋性文本。例如,Automated Insights的WordSmith
    的頭像 發(fā)表于 04-13 08:35 ?4765次閱讀

    結(jié)構(gòu)化文本(ST)編程參考手冊(cè)

    結(jié)構(gòu)化文本(ST)編程參考手冊(cè) 產(chǎn)品規(guī)格書,ST 語(yǔ)言是指,關(guān)于開放/控制中的邏輯記述方式所制定的國(guó)際標(biāo)準(zhǔn) IEC61131- 3 中定義的語(yǔ)言。
    發(fā)表于 08-25 10:44 ?43次下載
    <b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>文本</b>(ST)編程參考手冊(cè)

    MELSEC Q/L結(jié)構(gòu)體編程手冊(cè)(結(jié)構(gòu)化文本篇)

    MELSEC-Q/L結(jié)構(gòu)體編程手冊(cè)(結(jié)構(gòu)化文本篇) 產(chǎn)品規(guī)格書
    發(fā)表于 08-25 14:33 ?2次下載
    MELSEC Q/L<b class='flag-5'>結(jié)構(gòu)</b>體編程手冊(cè)(<b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>文本</b>篇)

    MELSEC iQ R結(jié)構(gòu)化文本(ST)編程指南

    MELSEC iQ-R 結(jié)構(gòu)化文本(ST)編程指南 產(chǎn)品規(guī)格書.本手冊(cè)用于幫助理解如何使用GX Work3進(jìn)行結(jié)構(gòu)化文本編程等內(nèi)容
    發(fā)表于 08-26 16:08 ?2次下載
    MELSEC iQ R<b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>文本</b>(ST)編程指南

    基于VQVAE的長(zhǎng)文本生成 利用離散code來(lái)建模文本篇章結(jié)構(gòu)的方法

    寫在前面 近年來(lái),多個(gè)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 GPT、BART、T5 等被提出,這些預(yù)訓(xùn)練模型在自動(dòng)文摘等多個(gè)文本生成任務(wù)上顯著優(yōu)于非預(yù)訓(xùn)練語(yǔ)言模型。但對(duì)于開放式生成任務(wù),如故事生成、新聞生成
    的頭像 發(fā)表于 12-01 17:07 ?1739次閱讀

    通過(guò)循環(huán)訓(xùn)練實(shí)現(xiàn)忠實(shí)的低資源數(shù)據(jù)文本生成

    結(jié)構(gòu)化數(shù)據(jù)中自然語(yǔ)言生成(NLG)往往會(huì)產(chǎn)生多種錯(cuò)誤,從而限制了這些模型在面向客戶的應(yīng)用中的實(shí)用性。當(dāng)NLG 模型在生成的輸出
    的頭像 發(fā)表于 08-24 14:53 ?481次閱讀
    通過(guò)循環(huán)訓(xùn)練實(shí)現(xiàn)忠實(shí)的低資源<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>文本生成</b>

    如何使用 Llama 3 進(jìn)行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進(jìn)行文本生成,可以通過(guò)以下幾種方式實(shí)現(xiàn),取決于你是否愿意在本地運(yùn)行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?390次閱讀
    主站蜘蛛池模板: 中文字幕在线播放不卡| 亚洲va久久久噜噜噜久久男同| 五月天亚洲| 韩国十八禁毛片无遮挡| 天天天天天干| 亚洲一级免费视频| 色多多视频在线播放| 艹逼视频免费看| 操操操干干| 香港三澳门三日本三级| 国产三级精品最新在线| 奇米影视一区二区三区| 久久99热久久精品| 久久综合九色综合欧美狠狠| 人人草人人射| 中国成人免费视频| 国产亚洲精品激情都市| 国产伦精品一区二区三区高清| 在线观看国产日本| 高清人人天天夜夜曰狠狠狠狠| 爱射综合| 日韩a毛片| 手机在线观看一级午夜片| 国产一区中文字幕| 国产真实偷乱视频在线观看| 成人人免费夜夜视频观看| 四虎在线最新永久免费播放| 一本久草| 免费毛片网| 免费特黄视频| 亚洲电影免费| 中文日产国产精品久久| 中文字幕一区二区在线观看| 欧美一区二区三区综合色视频| 手机看片福利盒子久久青| 一级特级片| 亚洲 欧美 日韩 丝袜 另类| 男人j进入女人免费视频| 国模精品视频一区二区三区| 欧美日穴| 快播久久|