欢乐颂小说txt,殿上欢,天下高月小说

大語(yǔ)言模型（LLM）能夠以一種無(wú)需微調(diào)的方式從少量示例中學(xué)習(xí)，這種方式被稱為 "上下文學(xué)習(xí)"（In-context Learning）。目前只在大模型上觀察到上下文學(xué)習(xí)現(xiàn)象，那么，常規(guī)大小的模型是否具備類似的能力呢？GPT4、Llama等大模型在非常多的領(lǐng)域中都表現(xiàn)出了杰出的性能，但很多場(chǎng)景受限于資源或者實(shí)時(shí)性要求較高，無(wú)法使用大模型。為了探索小模型的上下文學(xué)習(xí)能力，字節(jié)和華東師大的研究團(tuán)隊(duì)在場(chǎng)景文本識(shí)別任務(wù)上進(jìn)行了研究。

場(chǎng)景文本識(shí)別（Scene Text Recognition）的目標(biāo)是將圖像中的文本內(nèi)容提取出來(lái)。實(shí)際應(yīng)用場(chǎng)景中，場(chǎng)景文本識(shí)別面臨著多種挑戰(zhàn)：不同的場(chǎng)景、文字排版、形變、光照變化、字跡模糊、字體多樣性等，因此很難訓(xùn)練一個(gè)能應(yīng)對(duì)所有場(chǎng)景的統(tǒng)一的文本識(shí)別模型。一個(gè)直接的解決辦法是收集相應(yīng)的數(shù)據(jù)，然后在特定場(chǎng)景下對(duì)模型進(jìn)行微調(diào)。但是這一過(guò)程需要重新訓(xùn)練模型，當(dāng)場(chǎng)景變多、領(lǐng)域任務(wù)變得復(fù)雜時(shí)，實(shí)際的訓(xùn)練、存儲(chǔ)、維護(hù)資源則呈幾何倍增長(zhǎng)。如果文本識(shí)別模型也能具備上下文學(xué)習(xí)能力，面對(duì)新的場(chǎng)景，只需少量標(biāo)注數(shù)據(jù)作為提示，就能提升在新場(chǎng)景上的性能，那么上面的問(wèn)題就迎刃而解。然而，場(chǎng)景文本識(shí)別是一個(gè)資源敏感型任務(wù)，將大模型當(dāng)作文本識(shí)別器非常耗費(fèi)資源，并且通過(guò)初步的實(shí)驗(yàn)，研究人員發(fā)現(xiàn)傳統(tǒng)的訓(xùn)練大模型的方法在場(chǎng)景文本識(shí)別任務(wù)上并不適用。

為了解決這個(gè)問(wèn)題，來(lái)自字節(jié)和華東師大的研究團(tuán)隊(duì)提出了自進(jìn)化文本識(shí)別器，ESTR（Ego-Evolving Scene Text Recognizer），一個(gè)融合了上下文學(xué)習(xí)能力的常規(guī)大小文本識(shí)別器，無(wú)需微調(diào)即可快速適應(yīng)不同的文本識(shí)別場(chǎng)景。ESTR配備了一種上下文訓(xùn)練和上下文推理模式，不僅在常規(guī)數(shù)據(jù)集上達(dá)到了SOTA的水平，而且可以使用單一模型提升在各個(gè)場(chǎng)景中的識(shí)別性能，實(shí)現(xiàn)對(duì)新場(chǎng)景的快速適應(yīng)，甚至超過(guò)了經(jīng)過(guò)微調(diào)后專用模型的識(shí)別性能。ESTR證明，常規(guī)大小的模型足以在文本識(shí)別任務(wù)中實(shí)現(xiàn)有效的上下文學(xué)習(xí)能力。ESTR在各種場(chǎng)景中無(wú)需微調(diào)即可表現(xiàn)出卓越的適應(yīng)性，甚至超過(guò)了經(jīng)過(guò)微調(diào)后的識(shí)別性能。

論文地址：https://arxiv.org/pdf/2311.13120

方法

圖1介紹了ESTR的訓(xùn)練和推理流程。

1.基礎(chǔ)文本識(shí)別訓(xùn)練

基礎(chǔ)文本識(shí)別訓(xùn)練階段采用自回歸框架訓(xùn)練視覺(jué)編碼器和語(yǔ)言解碼器：

2.上下文訓(xùn)練

上下文訓(xùn)練階段ESTR 將根據(jù)文中提出的上下文訓(xùn)練范式進(jìn)行進(jìn)一步訓(xùn)練。在這一階段，ESTR 會(huì)學(xué)習(xí)理解不同樣本之間的聯(lián)系，從而從上下文提示中獲益。

如圖2所示，這篇文章提出 ST 策略，在場(chǎng)景文本數(shù)據(jù)中進(jìn)行隨機(jī)的分割和轉(zhuǎn)換，從而生成一組 "子樣本"。子樣本在視覺(jué)和語(yǔ)言方面都是內(nèi)在聯(lián)系的。這些內(nèi)在聯(lián)系的樣本被拼接成一個(gè)序列，模型從這些語(yǔ)義豐富的序列中學(xué)習(xí)上下文知識(shí)，從而獲取上下文學(xué)習(xí)的能力。這一階段同樣采用自回歸框架進(jìn)行訓(xùn)練：

3.上下文推理

針對(duì)一個(gè)測(cè)試樣本，該框架會(huì)從上下文提示池中選擇個(gè)樣本，這些樣本在視覺(jué)隱空間與測(cè)試樣本具有最高的相似度。具體來(lái)說(shuō)，這篇文章通過(guò)對(duì)視覺(jué)token序列做平均池化，計(jì)算出圖像embedding 。然后，從上下文池中選擇圖像嵌入與的余弦相似度最高的前 N 個(gè)樣本，從而形成上下文提示。

上下文提示和測(cè)試樣本拼接在一起送入模型，ESTR便會(huì)以一種無(wú)訓(xùn)練的方式從上下文提示中學(xué)得新知識(shí)，提升測(cè)試樣本的識(shí)別準(zhǔn)確率。值得注意的是，上下文提示池只保留了視覺(jué)編碼器輸出的token，使得上下文提示的選擇過(guò)程非常高效。此外，由于上下文提示池很小，而且ESTR不需要訓(xùn)練就能直接進(jìn)行推理，因此額外的消耗也降到了最低限度。

實(shí)驗(yàn)

實(shí)驗(yàn)從三個(gè)角度進(jìn)行：

1.傳統(tǒng)數(shù)據(jù)集

從訓(xùn)練集中隨機(jī)抽取很少的樣本（1000個(gè)，訓(xùn)練集 0.025% 的樣本數(shù)量）組成上下文提示池，在12個(gè)常見(jiàn)的場(chǎng)景文本識(shí)別測(cè)試集中進(jìn)行的測(cè)試，結(jié)果如下:

2.跨域場(chǎng)景

跨域場(chǎng)景下每個(gè)測(cè)試集僅提供100個(gè)域內(nèi)訓(xùn)練樣本，無(wú)訓(xùn)練和微調(diào)對(duì)比結(jié)果如下。ESTR甚至超過(guò)了SOTA方法的微調(diào)結(jié)果。

3.困難樣本修正

研究人員收集了一批困難樣本，對(duì)這些樣本提供了10%~20%的標(biāo)注，對(duì)比ESTR的無(wú)訓(xùn)練學(xué)習(xí)方法和SOTA方法的微調(diào)學(xué)習(xí)方法，結(jié)果如下：

可以發(fā)現(xiàn)，ESTR-ICL大大降低了困難樣本的錯(cuò)誤率。

未來(lái)展望

ESTR證明了使用合適的訓(xùn)練和推理策略，小模型也可以擁有和LLM類似的In-context Learning的能力。在一些實(shí)時(shí)性要求比較強(qiáng)的任務(wù)中，使用小模型也可以對(duì)新場(chǎng)景進(jìn)行快速的適應(yīng)。更重要的是，這種使用單一模型來(lái)實(shí)現(xiàn)對(duì)新場(chǎng)景快速適應(yīng)的方法使得構(gòu)建統(tǒng)一高效的小模型更近了一步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3290

瀏覽量
49022
識(shí)別器

識(shí)別器

+關(guān)注

關(guān)注
0

文章
20

瀏覽量
7619
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2523

瀏覽量
2984

原文標(biāo)題：小模型也能進(jìn)行上下文學(xué)習(xí)！字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

文章出處：【微信號(hào)：CVer，微信公眾號(hào)：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

。對(duì)于文本數(shù)據(jù)，可以采用同義詞替換、句法變換、上下文擴(kuò)展等技術(shù)。微調(diào)策略和方法全參數(shù)微調(diào)：對(duì)模型的所有參數(shù)進(jìn)行再訓(xùn)練。雖然需要大量的計(jì)算資源，但它可以充分適應(yīng)特定任務(wù)。輕量級(jí)微調(diào)方法：

發(fā)表于 01-14 16:51

《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

的應(yīng)用。MAML算法通過(guò)二階優(yōu)化找到對(duì)任務(wù)變化敏感的模型參數(shù)，實(shí)現(xiàn)了快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制，使模型能夠根據(jù)當(dāng)前場(chǎng)景動(dòng)態(tài)調(diào)整行為策略。在預(yù)訓(xùn)練-微調(diào)范式中，我們要注意任務(wù)表示的重要性：好的表示

發(fā)表于 12-24 15:03

Llama 3 語(yǔ)言模型應(yīng)用

理解復(fù)雜的上下文信息，包括對(duì)話歷史、用戶偏好和文化差異。這使得它在對(duì)話系統(tǒng)和個(gè)性化推薦中表現(xiàn)出色。情感分析：通過(guò)深度學(xué)習(xí)技術(shù)，Llama 3 能夠識(shí)別和理解文本中的情感傾向，無(wú)論是

發(fā)表于 10-27 14:15 ?310次閱讀

onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp; 行業(yè)應(yīng)用

系列MOSFET介紹。4.onsemiLV/MVMOSFET市場(chǎng)&amp;應(yīng)用。技術(shù)亮點(diǎn)onsemi最新一代T10系列MOSFET優(yōu)勢(shì)&amp;市場(chǎng)前景。學(xué)習(xí)收獲期望了解onsemiSi

發(fā)表于 10-13 08:06 ?497次閱讀

onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

SystemView上下文統(tǒng)計(jì)窗口識(shí)別阻塞原因

SystemView工具可以記錄嵌入式系統(tǒng)的運(yùn)行時(shí)行為，實(shí)現(xiàn)可視化的深入分析。在新發(fā)布的v3.54版本中，增加了一項(xiàng)新功能：上下文統(tǒng)計(jì)窗口，提供了對(duì)任務(wù)運(yùn)行時(shí)統(tǒng)計(jì)信息的深入分析，使用戶能夠徹底檢查每個(gè)任務(wù)，幫助開(kāi)發(fā)人員識(shí)別阻塞原因。

發(fā)表于 08-20 11:31 ?464次閱讀

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

的信息，提供更全面的上下文理解。這使得模型能夠更準(zhǔn)確地理解復(fù)雜問(wèn)題中的多個(gè)層面和隱含意義。 2. 語(yǔ)義分析模型通過(guò)訓(xùn)練學(xué)習(xí)到語(yǔ)言的語(yǔ)義特征，能夠識(shí)

發(fā)表于 08-02 11:03

鴻蒙Ability Kit（程序框架服務(wù)）【應(yīng)用上下文Context】

[Context]是應(yīng)用中對(duì)象的上下文，其提供了應(yīng)用的一些基礎(chǔ)信息，例如resourceManager（資源管理）、applicationInfo（當(dāng)前應(yīng)用信息）、dir（應(yīng)用文件路徑）、area

發(fā)表于 06-06 09:22 ?533次閱讀

編寫(xiě)一個(gè)任務(wù)調(diào)度程序，在上下文切換后遇到了一些問(wèn)題求解

\"rfe\" 不會(huì)在 A[11] 寄存器中設(shè)置新的返回地址。當(dāng)任務(wù)函數(shù)以\"ret16\" 結(jié)束時(shí)，μC 將在陷阱中運(yùn)行。我在上下文切換的準(zhǔn)備過(guò)程中錯(cuò)過(guò)了什么？在上下文切換/\"rfe\" 之后，A[11] 的正確行為是

發(fā)表于 05-22 07:50

MiniMax推出“海螺AI”，支持超長(zhǎng)文本處理

近日，大模型公司MiniMax宣布，其全新產(chǎn)品“海螺AI”已正式上架。這款強(qiáng)大的AI工具支持高達(dá)200ktokens的上下文長(zhǎng)度，能夠在1秒內(nèi)處理近3萬(wàn)字的文本。

發(fā)表于 05-17 09:30 ?813次閱讀

OpenAI發(fā)布GPT-4o模型，支持文本、圖像、音頻信息，速度提升一倍，價(jià)格不變

　此外，該模型還具備128K的上下文記憶能力，知識(shí)截止日期設(shè)定為2023年10月。微軟方面也宣布，已通過(guò)Azure OpenAI服務(wù)提供GPT-4o的預(yù)覽版。

發(fā)表于 05-14 17:12 ?876次閱讀

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

的分布式表示，基于預(yù)訓(xùn)練的詞嵌入表示。獨(dú)熱表示就是在一個(gè)大的向量空間中，其中一個(gè)位1，其余都為0，這樣就會(huì)變成單獨(dú)的。詞的分布式表示：根據(jù)上下文進(jìn)行推斷語(yǔ)義。基于預(yù)訓(xùn)練的詞嵌入表示：重要的是利用莫

發(fā)表于 05-12 23:57

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

Transformer有效避免了CNN中的梯度消失和梯度爆炸問(wèn)題，同時(shí)提高了處理長(zhǎng)文本序列的效率。此外，模型編碼器可以運(yùn)用更多層，以捕獲輸入序列中元素間的深層關(guān)系，并學(xué)習(xí)更全面的

發(fā)表于 05-05 12:17

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

用于文本生成，根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本，為故事創(chuàng)作等提供無(wú)限可能。大語(yǔ)言模型也面臨挑戰(zhàn)。一方面，其計(jì)算資源需求巨大，訓(xùn)練和

發(fā)表于 05-04 23:55

TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH錯(cuò)誤怎么解決？

我收到EVAL_6EDL7141_TRAP_1SH 3 類（TIN4-Free 上下文列表下溢）上下文管理EVAL_6EDL7141_TRAP_1SH錯(cuò)誤。請(qǐng)告訴我解決這個(gè)問(wèn)題的辦法。

發(fā)表于 03-06 08:00

請(qǐng)問(wèn)risc-v中斷還需要軟件保存上下文和恢復(fù)嗎？

risc-v中斷還需要軟件保存上下文和恢復(fù)嗎？

發(fā)表于 02-26 07:40

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

小模型也能進(jìn)行上下文學(xué)習(xí)！字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識(shí)別器

評(píng)論

【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

Llama 3 語(yǔ)言模型應(yīng)用

onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp; 行業(yè)應(yīng)用

SystemView上下文統(tǒng)計(jì)窗口識(shí)別阻塞原因

【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

鴻蒙Ability Kit（程序框架服務(wù)）【應(yīng)用上下文Context】

編寫(xiě)一個(gè)任務(wù)調(diào)度程序，在上下文切換后遇到了一些問(wèn)題求解

MiniMax推出“海螺AI”，支持超長(zhǎng)文本處理

OpenAI發(fā)布GPT-4o模型，支持文本、圖像、音頻信息，速度提升一倍，價(jià)格不變

大語(yǔ)言模型：原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH錯(cuò)誤怎么解決？

請(qǐng)問(wèn)risc-v中斷還需要軟件保存上下文和恢復(fù)嗎？