在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM在各種情感分析任務(wù)中的表現(xiàn)如何

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-29 17:24 ? 次閱讀

最近幾年,GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務(wù),特別是在zero-shot和few-shot方面表現(xiàn)出它們強(qiáng)大的性能。因此,情感分析(SA)領(lǐng)域也必然少不了LLM的影子,但是哪種LLM適用于SA任務(wù)依然是不清晰的。

ab4c9358-fded-11ed-90ce-dac502259ad0.png

論文:Sentiment Analysis in the Era of Large Language Models: A Reality Check
地址:https://arxiv.org/pdf/2305.15005.pdf
代碼:https://github.com/DAMO-NLP-SG/LLM-Sentiment

這篇工作調(diào)查了LLM時代情感分析的研究現(xiàn)狀,旨在幫助SA研究者們解決以下困惑:

LLM在各種情感分析任務(wù)中的表現(xiàn)如何?

與在特定數(shù)據(jù)集上訓(xùn)練的小模型(SLM)相比,LLM在zero-shot和few-shot方面的表現(xiàn)如何?

在LLM時代,當(dāng)前的SA評估實踐是否仍然適用?

實驗

實驗設(shè)置

1、調(diào)查任務(wù)和數(shù)據(jù)集

該工作對多種的SA任務(wù)進(jìn)行了廣泛調(diào)查,包括以下三種類型任務(wù):情感分類(SC)、基于方面的情感分析(ABSA)和主觀文本的多面分析(MAST)。ab55f632-fded-11ed-90ce-dac502259ad0.png

2、基線模型

Large Language Models (LLMs) LLM將直接用于SA任務(wù)的推理而沒有特定的訓(xùn)練,本文從Flan模型家族中選取了兩個模型,分別是Flan-T5(XXL版本,13B)和Flan-UL2(20B)。同時,采用了GPT-3.5家族兩個模型,包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003,175B)。為了正確性預(yù)測,這些模型的溫度設(shè)置為0。

Small Language Models (SLMs) 本文采用T5(large版本,770M)作為SLM。模型訓(xùn)練包括全訓(xùn)練集的方式和采樣部分?jǐn)?shù)據(jù)的few-shot方式,前者訓(xùn)練epoch為3而后者為100。采用Adam優(yōu)化器并設(shè)置學(xué)習(xí)率為1e-4,所有任務(wù)的batch大小設(shè)置為4。為了穩(wěn)定對比,為SLM構(gòu)造3輪不同隨機(jī)seed的訓(xùn)練,并采用其平均值作為結(jié)果。

3、Prompting策略

ab605546-fded-11ed-90ce-dac502259ad0.pngSC,ABSA,和MAST的提示實例。虛線框為few-shot設(shè)置,在zero-shot設(shè)置時刪除。

為了評估LLM的通用能力,本文為不同模型采用相對一致的的propmts,這些propmts滿足簡單清晰直接的特性。對于zero-shot學(xué)習(xí),propmt只包含任務(wù)名、任務(wù)定義和輸出格式三個必要組件,而對于few-shot學(xué)習(xí),將為每個類增加k個實例。

實驗結(jié)果

1、Zero-shot結(jié)果
ab6c00c6-fded-11ed-90ce-dac502259ad0.png對于LLM,直接將其用于測試集上進(jìn)行結(jié)果推理。對于SLM,先將其在完整訓(xùn)練集上fine-tuned然后再用于測試,從上圖結(jié)果中可以觀測到:

LLM在簡單SA任務(wù)上表現(xiàn)出強(qiáng)大的zero-shot性能 從表中結(jié)果可以看到LLM的強(qiáng)大性能在SC和MAST任務(wù)上,而不需要任何的前置訓(xùn)練。同時也能觀察到任務(wù)稍微困難一點,比如Yelp-5(類目增多)和,LLM就比fine-tuned模型落后很多。

更大的模型不一定導(dǎo)致更好的性能 從表中結(jié)果可以看到LLM對于SC和MAST任務(wù)表現(xiàn)較好,而且不需要任何的前置訓(xùn)練。但是也能觀察到任務(wù)稍微困難一點,比如Yelp-5(類目增多),LLM就比fine-tuned模型落后很多。

LLM難以提取細(xì)粒度的結(jié)構(gòu)化情感和觀點信息 從表中中間部分可以看出,F(xiàn)lan-T5和Flan-UL2在ABSA任務(wù)根本就不適用,而text-003和ChatGPT雖然取得了更好的結(jié)果,但是對于fine-tuned的SLM來說,依然是非常弱的。

RLHF可能導(dǎo)致意外現(xiàn)象 從表中可以觀察到一個有趣現(xiàn)象,ChatGPT在檢測仇恨、諷刺和攻擊性語言方面表現(xiàn)不佳。即使與在許多其他任務(wù)上表現(xiàn)相似的text-003相比,ChatGPT在這三項任務(wù)上的表現(xiàn)仍然差得多。對此一個可能的解釋是在ChatGPT的RLHF過程與人的偏好“過度一致”。這一發(fā)現(xiàn)強(qiáng)調(diào)了在這些領(lǐng)域進(jìn)一步研究和改進(jìn)的必要性。

2、Few-shot結(jié)果
ab75e488-fded-11ed-90ce-dac502259ad0.png本文采用了手中K-shot的設(shè)置:1-shot, 5-shot, 和10-shot。這些采樣的實例分別作為LLM上下文學(xué)習(xí)實例以及SLM的訓(xùn)練數(shù)據(jù)??梢杂腥缦掳l(fā)現(xiàn):

在不同的few-shot設(shè)置下,LLM超越SLM 在三種few-shot設(shè)置中,LLM幾乎在所有情況下都始終優(yōu)于SLM。這一優(yōu)勢在ABSA任務(wù)中尤為明顯,因為ABSA任務(wù)需要輸出結(jié)構(gòu)化的情感信息,SLM明顯落后于LLM,這可能是由于在數(shù)據(jù)有限的情況下學(xué)習(xí)這種模式會變得更加困難。

SLM通過增加shot在多數(shù)任務(wù)性能得到持續(xù)提升 隨著shot數(shù)目的增加,SLM在各種SA任務(wù)中表現(xiàn)出實質(zhì)性的提升。這表明SLM能有效利用更多的示例實現(xiàn)更好的性能。任務(wù)復(fù)雜性也可以從圖中觀察到,T5模型用于情感分類任務(wù)性能逐漸趨于平穩(wěn),然而對于ABSA和MAST任務(wù),性能繼續(xù)增長,這表明需要更多的數(shù)據(jù)來捕捉其基本模式。

LLM shots的增加對不同任務(wù)產(chǎn)生不同結(jié)果 增加shot數(shù)目對LLM的影響因任務(wù)而異。對于像SC這種相對簡單的任務(wù),增加shot收益并不明顯。此外,如MR和Twitter等數(shù)據(jù)集以及立場和比較任務(wù),甚至隨著shot的增加,性能受到阻礙,這可能是由于處理過長的上下文誤導(dǎo)LLM的結(jié)果。然而,對于需要更深入、更精確的輸出格式的ABSA任務(wù),增加few數(shù)目大大提高了LLM的性能。這表明更多示例并不是所有任務(wù)的靈丹妙藥,需要依賴任務(wù)的復(fù)雜性。

SA能力評估再思考

呼吁更全面的評估 目前大多數(shù)評估往往只關(guān)注特定的SA任務(wù)或數(shù)據(jù)集,雖然這些評估可以為LLM的情感分析能力的某些方面提供有用見解,但它們本身并沒有捕捉到模型能力的全部廣度和深度。這種限制不僅降低了評估結(jié)果的總體可靠性,而且限制了模型對不同SA場景的適應(yīng)性。因此,本文試圖在這項工作中對廣泛的SA任務(wù)進(jìn)行全面評估,并呼吁在未來對更廣泛的SA工作進(jìn)行更全面的評估。

呼吁更自然的模型交互方式 常規(guī)情感分析任務(wù)通常為一個句子配對相應(yīng)的情感標(biāo)簽。這種格式有助于學(xué)習(xí)文本與其情感之間的映射關(guān)系,但可能不適合LLM,因為LLM通常是生成模型。在實踐中不同的寫作風(fēng)格產(chǎn)生LLM解決SA任務(wù)的不同方式,所以在評估過程中考慮不同的表達(dá)以反映更現(xiàn)實的用例是至關(guān)重要的。這確保評估結(jié)果反映真實世界的互動,進(jìn)而提供更可靠的見解。

prompt設(shè)計的敏感性 如圖所示,即使在一些簡單的SC任務(wù)上,prompt的變化也會對ChatGPT的性能產(chǎn)生實質(zhì)性影響。當(dāng)試圖公平、穩(wěn)定地測試LLM的SA能力時,與prompt相關(guān)的敏感性也帶來了挑戰(zhàn)。當(dāng)各種研究在一系列LLM中對不同的SA任務(wù)使用不同的prompt時,挑戰(zhàn)被進(jìn)一步放大。與prompt相關(guān)的固有偏見使采用相同prompt的不同模型的公平對比變得復(fù)雜,因為單個prompt可能并不適用于所有模型。

ab80fe90-fded-11ed-90ce-dac502259ad0.png

為了緩解上述評估LLM的SA能力時的局限性,本文提出了SENTIEVAL基準(zhǔn),用于在LLM時代進(jìn)行更好的SA評估,并利用各種LLM模型進(jìn)行了再評估,結(jié)果如圖所示。ab899e7e-fded-11ed-90ce-dac502259ad0.png

總結(jié)

這項工作使用LLM對各種SA任務(wù)進(jìn)行了系統(tǒng)評估,有助于更好地了解它們在SA問題中的能力。結(jié)果表明,雖然LLM在zero-shot下的簡單任務(wù)中表現(xiàn)很好,但它們在處理更復(fù)雜的任務(wù)時會遇到困難。在few-shot下,LLM始終優(yōu)于SLM,這表明它們在標(biāo)注資源稀缺時的潛力。同時還強(qiáng)調(diào)了當(dāng)前評估實踐的局限性,然后引入了SENTIEVAL基準(zhǔn)作為一種更全面、更現(xiàn)實的評估工具。

總體而言,大型語言模型為情感分析開辟了新的途徑。雖然一些常規(guī)SA任務(wù)已經(jīng)達(dá)到了接近人類的表現(xiàn),但要全面理解人類的情感、觀點和其他主觀感受還有很長的路要走。LLM強(qiáng)大的文本理解能力為LLM時代情感分析探索之路提供了有效的工具和令人興奮的研究方向。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3244

    瀏覽量

    48842
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24703
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1561

    瀏覽量

    7674
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    288

    瀏覽量

    338

原文標(biāo)題:ChatGPT時代情感分析還存在嗎?一份真實調(diào)查

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    雙目標(biāo)函數(shù)支持向量機(jī)情感分析的應(yīng)用

    雙目標(biāo)函數(shù)支持向量機(jī)情感分析的應(yīng)用_劉春雨
    發(fā)表于 01-03 17:41 ?0次下載

    簡單介紹ACL 2020有關(guān)對象級情感分析的三篇文章

    CL 2020有關(guān)情感分析的文章主要集中Sentiment Analysis, Stylistic Analysis, and Argument Mining論壇
    的頭像 發(fā)表于 08-28 09:49 ?6087次閱讀
    簡單介紹ACL 2020<b class='flag-5'>中</b>有關(guān)對象級<b class='flag-5'>情感</b><b class='flag-5'>分析</b>的三篇文章

    金融市場的NLP 情感分析

    的機(jī)器學(xué)習(xí),而不是使用深層神經(jīng)網(wǎng)絡(luò)。 2018年,一些NLP任務(wù),一種名為BERT的最先進(jìn)(STOA)模型的表現(xiàn)超過了人類的得分。在這里,我將幾個模型應(yīng)用于情緒
    的頭像 發(fā)表于 11-02 16:18 ?1979次閱讀

    將對話情感分類任務(wù)建模為序列標(biāo)注 并對情感一致性進(jìn)行建模

    本文是平安科技發(fā)表ACL2020上的一篇論文,思路比較新穎,它將ERC任務(wù)看做序列標(biāo)注任務(wù),并對情感一致性進(jìn)行建模。 ? 之前解決ERC的思路是利用上下文的話語特征預(yù)測對話
    的頭像 發(fā)表于 01-18 16:24 ?3114次閱讀

    紹華為云細(xì)粒度情感分析方面的實踐

    推薦、產(chǎn)品輔助決策、公司政府的輿情監(jiān)測、服務(wù)評價等等。本文主要介紹情感分析的概念、應(yīng)用、任務(wù)和方法,進(jìn)一步會介紹華為云細(xì)粒度情感
    的頭像 發(fā)表于 03-08 10:40 ?1887次閱讀

    情感分析常用的知識有哪些呢?

    一般的文本分類任務(wù)只提供句子或文檔級別的情感標(biāo)簽,引入情感詞典等先驗情感知識可以給情感文本引入更細(xì)粒度監(jiān)督信號,使得模型能學(xué)到更適合
    的頭像 發(fā)表于 04-15 14:22 ?3392次閱讀
    <b class='flag-5'>情感</b><b class='flag-5'>分析</b>常用的知識有哪些呢?

    圖模型方面級情感分析任務(wù)的應(yīng)用

    方面級情感分析(Aspect-based Sentiment Analysis, ABSA)是一項細(xì)粒度的情感分析任務(wù),主要針對句子級別的文
    的頭像 發(fā)表于 11-24 10:20 ?1876次閱讀

    Macaw-LLM:具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模

    盡管指令調(diào)整的大型語言模型 (LLM) 各種 NLP 任務(wù)表現(xiàn)出卓越的能力,但它們文本以外
    的頭像 發(fā)表于 06-19 10:35 ?1474次閱讀
    Macaw-<b class='flag-5'>LLM</b>:具有圖像、音頻、視頻和文本集成的多模態(tài)語言建模

    適用于各種NLP任務(wù)的開源LLM的finetune教程~

    ChatGLM2-6b是清華開源的小尺寸LLM,只需要一塊普通的顯卡(32G較穩(wěn)妥)即可推理和微調(diào),是目前社區(qū)非?;钴S的一個開源LLM。
    的頭像 發(fā)表于 07-24 09:04 ?1720次閱讀
    適用于<b class='flag-5'>各種</b>NLP<b class='flag-5'>任務(wù)</b>的開源<b class='flag-5'>LLM</b>的finetune教程~

    基于單一LLM情感分析方法的局限性

    LLM的發(fā)展為情感分析任務(wù)帶來的新的解決方案。有研究人員使用LLM,在上下文學(xué)習(xí)(in-context learning, ICL)的范式下
    的頭像 發(fā)表于 11-23 11:14 ?864次閱讀
    基于單一<b class='flag-5'>LLM</b>的<b class='flag-5'>情感</b><b class='flag-5'>分析</b>方法的局限性

    如何利用OpenVINO加速LangChainLLM任務(wù)

    去完成一些更復(fù)雜的任務(wù)。簡單來說,LangChain 可以讓你的 LLM 回答問題時參考自定義的知識庫,實現(xiàn)更精確的答案輸出。例如在以下這個Retrieval Augmented Generation
    的頭像 發(fā)表于 12-05 09:58 ?814次閱讀

    LLM技術(shù)對人工智能發(fā)展的影響

    。 一、LLM技術(shù)人工智能領(lǐng)域的應(yīng)用 自然語言處理(NLP) LLM技術(shù)自然語言處理領(lǐng)域發(fā)揮著重要作用。通過訓(xùn)練模型識別和生成語言模式,LLM
    的頭像 發(fā)表于 11-08 09:28 ?377次閱讀

    LLM技術(shù)的未來趨勢分析

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)已經(jīng)成為自然語言處理(NLP)領(lǐng)域的一個熱點。這些模型通過分析和學(xué)習(xí)大量的文本數(shù)據(jù),能夠執(zhí)行多種語言任務(wù),如文本生成、翻譯、問答和情感
    的頭像 發(fā)表于 11-08 09:35 ?258次閱讀

    基于LSTM神經(jīng)網(wǎng)絡(luò)的情感分析方法

    情感分析是自然語言處理(NLP)領(lǐng)域的一項重要任務(wù),旨在識別和提取文本的主觀信息,如情感傾向、情感
    的頭像 發(fā)表于 11-13 10:15 ?524次閱讀

    什么是LLMLLM自然語言處理的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本的長距
    的頭像 發(fā)表于 11-19 15:32 ?584次閱讀
    主站蜘蛛池模板: 婷婷丁香激情| 69老司机亚洲精品一区| 巨骚综合网| 五月婷婷社区| 国产精品7m凸凹视频分类大全| 青草久操| 综合一个色| 婷婷 综合网站| 电影天堂在线观看三级| 小草影院亚洲私人影院| 特别黄的免费视频大片| www.jizz在线观看| www.午夜色| 日本三黄色大| 五月天婷婷久久| 欧美性色xo影院在线观看| 午夜老司机福利| 成人观看天堂在线影片| 黄色的网站在线观看| 日韩三级中文| 痴女中文字幕在线视频| 午夜黄色在线观看| 日本在线黄色| 欧美一级在线全免费| 18黄无遮挡免费视频| 国产片无遮挡在线看床戏| 性夜影院爽黄e爽在线观看| 四虎精品成在线播放| 午夜精品视频在线| 狠狠色噜噜狠狠狠狠2021天天| 精品伊人久久大线蕉地址| 4438x全国最大色| 三级日韩| 免费在线看片网站| 午夜两性网| 视频在线免费| 亚洲色图综合网站| 夜夜爽夜夜爱| 综合五月天堂| 亚洲午夜综合网| h网站亚洲|