已完结小说排行榜,绝色狂妃仙魅小说,完美世界辰东

論文名稱：Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages

論文作者：覃立波，陳麒光，車萬翔等

原創作者：陳麒光

論文鏈接：https://arxiv.org/abs/2310.14799

出處：哈工大SCIR

最后一個名額：帶你沖刺ACL2024

0. Take-away messages

?本文引入了簡單有效的Cross-Lingual Prompting (CLP)，其中包含cross-lingual alignment prompting (CAP) 和 task-specific solver prompting (TSP)，它們能夠幫助思維鏈(CoT)范式在不同語言間進行有效地對齊，共同改進了跨語言的零樣本 CoT 推理。

?進一步地，提出了Cross-Lingual Self-consistent Prompting (CLSP)，利用不同語言專家的知識和不同語言間更加多樣的思考方式，集成了多個推理路徑，顯著地提高了self-consistency的跨語言性能。CLSP 都能夠在CLP的基礎上更進一步地有效提高零樣本跨語言 CoT 性能。

?對多個基準的廣泛評估表明，CLP 在各類任務上甚至取得了比機器翻譯用戶請求更加優異的性能（在各個多語言數據集上平均準確率至少提高了1.8%）。在此基礎上，CLSP能夠進一步地提高CLP的性能，在多個基準上都取得了超過6%的提升。

1. 背景與動機

1.1 背景

LLM能夠在訓練和測試過程中無需修改模型參數，實現零樣本推理，受到越來越多的關注。具體來說，零樣本思維鏈 (CoT) 只需要附加提示 Let's think step by step! ，就可以從大型語言模型中誘導強大的推理能力，并在各種任務上展示出驚人的性能，包括算術推理、常識推理甚至具身規劃。

圖 1：傳統單語言CoT示例以傳統CoT為例，提供提示 Let's think step by step! 針對英文請求以進行分步推理。最終，LLM通過多步推理給出了相應的答案68 years。

1.2 動機

全世界有200多個國家和7000多種語言。隨著全球化的加速，迫切需要將當前的CoT推廣到不同的語言中。盡管零樣本CoT取得了顯著的成功，但其推理能力仍然難以推廣到不同的語言。

圖 2：跨語言CoT示例與請求的語言和 CoT 輸出相同的傳統 CoT 場景不同，跨語言 CoT 要求 LLM 通過提供觸發語句Let's think in English step by step!。當前零樣本跨語言推理仍處于一個非常早期的階段，沒有考慮跨語言間的顯式對齊。為了更好地將CoT零樣本地泛化到不同語言上，我們提出了cross-lingual-prompting (CLP)，旨在有效地彌合不同語言之間的差距。具體來說，CLP 由兩個部分組成：(1) cross-lingual alignment prompting (CAP) 和(2) task-specific solver prompting (TSP)。在第一步中，CLP首先要求模型逐步地理解英語任務，對齊了不同語言之間的表示。在第二步中，CLP要求模型根據上一步理解的內容逐步地完成最終的任務。此外，受self-consistency工作的啟發，我們提出了Cross-Lingual Self-consistent Prompting (CLSP)，使模型能夠集成不同語言專家的不同推理路徑。總的來說，簡單而有效的CLP和CLSP方法可以極大地增強跨語言場景的推理能力。

2. Prompting設計

2.1 CLP設計

為了激發LLM的跨語言推理能力，我們引入了跨語言提示（CLP）作為解決方案。具體來說，CLP 由兩個部分組成：(1) cross-lingual alignment prompting (CAP) 和 (2) task-specific solver prompting (TSP)。

圖 3：Cross-Lingual Prompting (CLP) 示意圖

2.1.1 Cross-lingual Alignment Prompting (CAP)

跨語言對齊是跨語言遷移的核心挑戰。因此，為了更好地捕獲對齊信息，我們首先引入了cross-lingual alignment prompting。該prompt的表述如下：

圖 4：跨語言對齊提示 (CAP) 示意圖具體來說，給定請求句子 X，我們首先要求 LLM 扮演在多語言理解方面的專家，來理解跨語言問題。此外，對齊提示將從源語言 Ls 到目標語言 Lt 進行逐步地對齊。

2.1.2 Task-specific Solver Prompting (TSP)

實現跨語言對齊后，我們進一步提出task-specific solver prompting 以促進多語言環境中的多步推理。

圖 5：Task-specific Solver Prompting (TSP) 示意圖具體來說，給定目標語言和從上一步獲得的對齊文本，我們提示 LLM 參與解析目標任務。LLM嘗試根據之前對齊的跨語言理解進行進一步的多步推理以確定最終結果。此外，我們提供了一個答案提取的指令來格式化模型的答案，其定義為：

圖 6：答案提取指令示意圖

2.2 CLSP設計

在我們的研究中，我們觀察到LLM在不同語言中表現出不同的推理路徑。受Self-consistency的啟發，我們提出了一種Cross-lingual Self-consistent Prompting (CLSP) 來整合不同語言的推理知識（如圖7所示）。

圖 7：Cross-lingual Self-consistent Prompting (CLSP) 示意圖具體來說，對于推理過程中的每個步驟，我們要求LLM以不同的目標語言生成跨語言對齊的回復，并分別在各自目標語言上進行推理。我們通過投票機制保留在推斷推理結果中表現出高度一致性的答案。然后將這些一致推斷的答案視為最終結果。

3 主實驗分析

表 1：在MGSM基準上主實驗的推理表現從表1結果來看，我們有以下觀察結果：

GPT-3.5 表現出顯著的跨語言推理優勢。在各種設置下，GPT-3.5 均大幅超越了 PaLM-540B 和 GPT-3 的少樣本結果。具體來說，與少樣本 PaLM-540B相比，零樣本GPT-3.5實現了 30.3%、2.3%、7.7% 和 14.2%的改進。我們認為是多語言SFT 和 RLHF 技術帶來了跨語言推理性能的顯著提高。

CLP 實現了最先進的性能。CLP 超越了之前的所有基線，特別是優于少樣本的PALM-540B(Translate-En)，提高了 16.4%。這一改進不能僅僅歸功于 GPT-3.5，因為CLP 的平均準確度甚至比擁有額外知識的高質量機器翻譯（Translate-En）高 2.2%。這些發現表明 CLP 超越了原始的文本翻譯，提供了自己的理解，能夠并進一步增強了模型固有的跨語言理解能力。

CLSP 進一步顯著提高了性能。CLSP 在所有語言中都比 CLP 表現出顯著的優越性（平均準確率提高了 6.1%）。這一觀察結果表明，整合不同語言的知識和不同語言間的思考路徑可以有效提高跨語言CoT的推理性能，驗證了CLSP 的有效性。

4 CLP 分析

4.1 CLP能夠擁有更好的推理質量

為了進一步研究CLP為何有效，我們采用Roscoe 框架來評估模型思想鏈中推理路徑的質量。

圖 8：Native-CoT 和 CLP 的推理路徑質量如圖8所示，我們發現CLP的推理路徑表現出更高的忠實度，在推理過程中與關鍵步驟表現出更好的一致性。具體來說，CLP的推理路徑優勢可以總結為：

推理幻覺更少：CLP的推理路徑的Faithfulness得分提高了 1.6%，表明模型更好地理解了問題陳述，并確保了清晰的推理鏈，而不會生成不相關或誤用的信息，更加可信。

推理更有依據：此外，我們觀察到“Step”和“Chain”的Informativeness指標分別提高了 2.8% 和 2.5%。它表明模型的推理在跨語言對齊之后可以提供更有根據的推理步驟。

邏輯鏈更完整：此外，CLP 在 Miss-step 指標中也增強了 2.8%，表明模型的推理可以包含完整的邏輯鏈，從而帶來更好的性能。

4.2 二階段交互式提示比單輪提示效果更好

由于之前CLP分為了兩個階段，本節將探討兩階段交互式提示的有效性。

圖 9：二階段和單輪的CoT效果比較與兩階段交互式提示（CLP）相比，我們觀察到單輪提示性能平均顯著下降 10.4%。我們認為兩階段的交互提示可以更好地引出LLM強大的對話交互能力，從而提高表現。

4.3 CLP 并不是簡單的翻譯

如表1 所示，我們可以發現CLP的平均準確率甚至比機器翻譯請求高出2.2%，這表明CLP不是普通翻譯，而是利用了語言之間的語義對齊。為了進一步了解 CLP 為何比翻譯效果更好，我們隨機選擇了 200 個來自不同語言的樣本進行細粒度探索。首先，我們發現CLP會自動地采取7種不同的策略，大部分策略一定程度上都對最終的性能做出了貢獻，這證明了CLP的有效性。

表 2：CLP自動使用的策略的占比以及性能影響此外，我們發現進一步分解第一階段有助于改進。將第 1 階段的行動分解為 2-4 個策略可以顯著提高性能（至少 6.45%）。例如，通過將對齊過程分解為“問題重述”和“解決初步解決”，就可以獲得優異的性能，達到 64.71%（與 Native-CoT 相比提高了 11.77%）。

4.4 Prompt的選擇如何影響CLP?

我們利用不同的表述的跨語言對齊提示以驗證CLP零樣本跨語言CoT的魯棒性。表3說明了 4 種意思相同但表述不同的跨語言對齊提示的性能。

表 3：不同表述的CAP對CLP的影響分析實驗結果表明，雖然AVG Acc. 存在一定的波動（最大差異超過4％）。但所有跨語言對齊提示相比En-CoT仍然可以提高性能。這進一步驗證了CLP的有效性。

4.5 CLP的泛化性分析

為了進一步研究我們工作的通用性，我們從兩個方面驗證CLP的泛化性：

圖 10：在其他多語言數據集上的準確率表現

CLP 在其他多語言基準上效果優異。我們在其他廣泛使用的多語言推理數據集（即 XNLI 和 PAWS-X）上進行了實驗。從表4中的結果來看，我們觀察到 CLP 在大多數語言中都可以獲得更好的性能。與En-CoT相比，我們觀察到 XNLI 的平均改進為 3.1%，PAWS-X 的平均改進為 4.5%。

表 4：在其他開源/較小的LLM上的準確率表現

CLP 在其他 LLM 上表現優異。為了更好地理解模型泛化，我們在具有較小 LLM 的 XCOPA 上進行了實驗。實驗結果（如表X所示）表明，在較小的法學碩士上，CLP 與 En-CoT 相比至少實現了 6.8% 的改進。

4.6 CLP能夠通過上下文學習策略進一步提升

近年來，上下文學習（ICL）取得了驚人的結果，為了進一步探索 CLP 在 ICL 框架內的效果，我們進行了一系列實驗。對實證結果的后續分析得出以下觀察結果（實驗在1000條抽樣結果上進行）：

表 5：CLP各個階段在ICL設置下的表現

在CAP中使用 ICL 可以顯著提高推理性能。如表5所示，CLP 比 MGSM 上的零樣本設置表現出顯著的 6.9% 改進。這進一步強調了我們的方法作為即插即用模塊的優勢，與 ICL 方法正交，以提高性能。

在TSP中使用 ICL 可以進一步提高推理性能。如表5所示，結果顯示，在 Task-specific Solver Prompting (TSP) 中結合 Complex-CoT時，性能額外提高了 1.1%。與其他 CoT 優化方法相比，這進一步鞏固了我們的方法的獨特性，強調了其適應性以及為下游 CoT 推理技術提供更廣泛支持的能力。

CAP階段的示例選擇起著關鍵作用。我們對ICL策略的各種組合進行了實驗。如表5所示，如果依賴單一策略，則模型的平均性能顯著下降至63.5%，甚至遠低于零樣本的效果。相反，當在少樣本示例中采用更多樣化的策略時，模型的性能顯示出顯著的改進，達到 75.9%。它表明更多樣化的策略樣本可以帶來更好的性能提升。

表 6：在示例中不同對齊策略數量對準確率的影響（策略按照表2中的占比從大到小選取）

5. CLSP Analysis

5.1 CLSP 超越了原始的Self-consistency

為了驗證 CLSP 的有效性，我們對原始的Self-consistency（VSC）進行了實驗。原始的Self-consistency 是指利用不同Temperature生成多條推理路徑，并通過投票的方式確定最終的答案。如圖11所示，與VSC相比，CLSP平均提高了大約 4.5%，驗證了CLSP的有效性。

圖 11：CLSP和VSC在MGSM上各個語言的準確率表現此外，我們嘗試探索 CLSP 為何有效。我們使用所有正確的預測結果和手動注釋的 CoT 推理路徑來評估跨語言 CoT 推理路徑（包括 CLSP 和 VSC）之間的對齊分數。

圖 12：CLSP和VSC的不同的推理路徑與標準推理路徑的對齊分數如圖12所示，CLSP生成的對齊分數的方差明顯高于VSC。它表明 CLSP 更好地集成了語言知識，從而提高了最終的跨語言 CoT 性能。

5.2 集成更多的語言并不能帶來更多的提升

一個自然出現的問題是，“在CLSP中集成大量語言是否會帶來更好的整體表現？”為了回答這個問題，我們探討了CoT表現與集成的語言數量之間的關系。

圖 13：Common Crawl 2021數據集語言分布一些研究表明LLM的表現與每種語言的預訓練數據比例高度相關。因此，我們檢查了廣泛使用的多語言預訓練數據集 Common Crawl 2021 中的語言分布（如圖13所示）。

圖 14：集成語言數量對最終性能的影響根據比例，我們按照語言的降序和升序逐步整合每種語言。各自的比例。圖14中的結果表明，在高資源設置中，隨著添加更多語言，性能會提高。然而，當合并低資源語言時，性能會隨著語言數量的增加而下降。這些發現表明，語言整合的有效性不僅僅取決于整合的語言數量。每種語言的預訓練數據量，尤其是高資源語言，起著至關重要的作用。考慮到可用資源和影響，平衡多種語言至關重要。

5.3 CLSP泛化性研究

為了進一步驗證 CLSP 的有效性，我們在 XCOPA 數據集上進行了實驗，這是一個廣泛采用的基準，用于評估 11 種不同語言的常識推理技能。

表 7：XCOPA上CLSP的表現正如表7 中所示的結果所示，與基線相比，我們觀察到 CLP 性能平均顯著提高了 4.7%。此外，與 CLP 相比，CLSP 的性能進一步提高了 7.4%。這些結果表明，除了在數學推理方面表現出色之外，CLSP 在解決常識推理任務方面也表現出顯著的有效性。

6. 結論

在這項工作中，我們引入了跨語言思維鏈的Cross-lingual Prompting (CLP)。具體來說，CLP 由 cross-lingual alignment prompting 和 task-specific solver prompting 組成，用于跨語言對齊表示并在跨語言設置中生成最終推理路徑。

此外，我們提出了Cross-Lingual Self-consistent Prompting (CLSP)來有效利用跨語言的知識，這進一步提高了 CLP 的性能。

大量實驗表明，CLP 和 CLSP 在跨語言 CoT 中都能取得良好的性能。

歡迎感興趣的同學閱讀我們的論文，對于cross-lingual alignment prompting中不同策略的思考，該問題對跨語言的相關研究是非常有價值的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

CLP

CLP

+關注

關注
0

文章
5

瀏覽量
7147
模型

模型

+關注

關注
1

文章
3261

瀏覽量
48914
機器翻譯

機器翻譯

+關注

關注
0

文章
139

瀏覽量
14914

原文標題：6. 結論

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

基于機器翻譯增加的跨語言機器閱讀理解算法

利用一個注意力機制的教師來將源語言的答案轉移到目標語言的答案輸出空間，從而進行深度級別的輔助以增強跨語言傳輸能力。同時，提出了一種改進的交叉

發表于 12-12 10:28 ?603次閱讀

基于機器翻譯增加的<b class='flag-5'>跨</b><b class='flag-5'>語言</b>機器閱讀理解算法

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

的未來發展方向進行了展望，包括跨領域、跨模態和自動提示生成能力方向，為讀者提供了對未來技術發展的深刻見解。《大語言模型原理與工程實踐》是一本

發表于 04-30 15:35

【大語言模型：原理與工程實踐】大語言模型的應用

設計提示詞時，需要明確輸出需求，以便得到滿意的結果。推理引導如前文所述，提示工程對于訓練大語言模型的逐步推理能力至關重要。

發表于 05-07 17:21

AKI跨語言調用庫神助攻C/C++代碼遷移至HarmonyOS NEXT

跨語言調用，成為開發者和廠商面臨的重要挑戰。為解決這一痛點，一款名為AKI (Alpha Kernel Interacting)的開源三方庫應運而生，它通過高效封裝跨語言調用接口，幫助

發表于 01-02 17:08

JAVA語言為什么能跨平臺？

無論你用才C# 還是VB.NET 最后的意思表達都是一樣的, 只不過機器在中做了翻譯的過程; 中間有N 多專有名詞反正都是通過.net Framework 所謂的虛擬機。JAVA語言為什么能跨平臺？你是怎么看的？

發表于 11-27 17:06

DevEco Studio新特性分享-跨語言調試，讓調試更便捷高效

HarmonyOS應用及服務的一站式集成開發環境。本次分享DevEco Studio 3.1 Canary1上線的新特性- ArkTS與C++跨語言調試，讓調試更便捷高效。一、什么是跨語言

發表于 01-04 11:45

C語言指針跨函數訪問

C語言指針跨函數訪問

發表于 12-16 17:23 ?1次下載

基于預訓練視覺-語言模型的跨模態Prompt-Tuning

了各種跨模態任務。然而，作者注意到模型pre-training和finetune的客觀形式之間存在顯著差距，導致需要大量標記數據來刺激 VL-PTMs 對下游任務的視覺基礎能力。為了應對這一挑戰，本文提出了跨模態提示調優

發表于 10-09 15:10 ?3264次閱讀

ACL2021的跨視覺語言模態論文之跨視覺語言模態任務與方法

來自：復旦DISC 引言本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺語言預訓練模型和如何生成包含

發表于 10-13 10:48 ?2526次閱讀

融合零樣本學習和小樣本學習的弱監督學習方法綜述

融合零樣本學習和小樣本學習的弱監督學習方法綜述來源：《系統工程與電子技術》，作者潘崇煜等摘要:?深度學習模型嚴重依賴于大量人工標注的數據，使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏

發表于 02-09 11:22 ?2328次閱讀

形狀感知零樣本語義分割

由于大規模視覺語言預訓練取得了令人矚目的進展，最近的識別模型可以以驚人的高準確度對任意對象進行零樣本和開放式分類。

發表于 04-28 11:26 ?833次閱讀

一個通用的自適應prompt方法，突破了零樣本學習的瓶頸

為了解決這個問題，這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法，對LLMs的零樣本學習進行了優化，同時也適用于少樣本學習任務。USP只需要少量

發表于 06-01 14:48 ?796次閱讀

基于多語言的跨平臺靜態測試解決方案

，多語言跨平臺的敏捷靜態測試及測試結果管理共享已經成為關鍵需求。如何較為高效地完成多語言跨平臺測試工程的構建以及測試項目跟蹤，較大程度地實現信息共享，已經成為提高測試

發表于 03-03 10:15 ?613次閱讀

基于多語言的跨平臺靜態測試解決方案

，多語言跨平臺的敏捷靜態測試及測試結果管理共享已經成為關鍵需求。如何較為高效地完成多語言跨平臺測試工程的構建以及測試項目跟蹤，較大程度地實現信息共享，已經成為提高測試

發表于 03-03 10:41 ?613次閱讀

什么是零樣本學習？為什么要搞零樣本學習？

零樣本分類的技術目前正處于高速發展時期，所涉及的具體應用已經從最初的圖像分類任務擴展到了其他計算機視覺任務乃至自然語言處理等多個相關領域。對此，本文將其稱為廣義零

發表于 09-22 11:10 ?2232次閱讀