有声小说打包下载,盗墓笔记第二季,官场小说排行榜

一、研究背景

手寫數學公式識別是將包含數學表達式的圖像轉換為結構表達式，例如LaTeX數學表達式或符號布局樹的過程。手寫數學表達式的識別已經帶來了許多下游應用，如在線教育、自動評分和公式圖像搜索。在在線教育場景下，手寫數學表達式的識別率對提高學習效率和教學質量至關重要。對比于傳統的文本符號識別（Optical Charac ter Recognition， OCR），公式識別具有更大的挑戰性。公式識別不僅需要從圖像中識別不同書寫風格的符號，還需要建模符號和上下文之間的關系。例如，在LaTeX中，模型需要生成“^”、“_”、“{”和“}”來描述二維圖像中符號之間的位置和層次關系。編碼器-解碼器架構由于可以編碼器部分進行特征提取，在解碼器部分進行語言建模，而在手寫數學公式識別任務（Handwritten Mathematical Expression Recognition， HMER）中被廣泛使用。雖然Transformer在自然語言處理領域已經成為了基礎模型，但其在HMER任務上的性能相較于循環神經網絡（Recurrent Neural Network， RNN）還不能令人滿意。作者觀察到現有的Transformer與RNN一樣會受到缺少覆蓋注意力機制的影響，即“過解析”——圖像的某些部分被不必要地多次解析，以及“欠解析”——有些區域未被解析。RNN解碼器使用覆蓋注意機制來緩解這一問題。然而，Transformer解碼器所采用的點積注意力沒有這樣的覆蓋機制，作者認為這是限制其性能的關鍵因素。不同于RNN，Transformer中每一步的計算是相互獨立的。雖然這種特性提高了Transformer中的并行性，但也使得在Transformer解碼器中直接使用以前工作中的覆蓋機制變得困難。為了解決上述問題，作者提出了一種利用Transformer解碼器中覆蓋信息的新模型，稱為CoMER。受RNN中覆蓋機制的啟發，作者希望Transformer將更多的注意力分配到尚未解析的區域。具體地說，作者提出了一種新穎的注意精煉模塊（Attention Refinement Module， ARM），它可以在不影響并行性的前提下，根據過去的對齊信息對注意權重進行精煉。同時為了充分利用來自不同層的過去對齊信息，作者提出了自覆蓋和交叉覆蓋，分別利用來自當前層和前一層的過去對齊信息。作者進一步證明，在HMER任務中，CoMER的性能優于標準Transformer解碼器和RNN解碼器。

圖1 本文提出的具有注意力精煉模塊的Transformer模型

二、方法原理簡述

CNN編碼器在編碼器部分，本文使用DenseNet作為編碼器。相較于ResNet，DenseNet在不同尺度特征圖上的密集連接能夠更好地反映出不同大小字符的尺度特征，有利于后續解碼不同位置大小字符的含義。為了使DenseNet輸出特征與解碼器模型尺寸對齊，作者在編碼器的末端增加了1 × 1的卷積層，得到輸出圖像特征

。

位置編碼與RNN解碼器不同，由于Transformer解碼器的Token之間不具有空間位置關系，額外的位置信息是必要的。在論文中，作者與BTTR［1］一致，同時使用圖像位置編碼和字符位置編碼。對于字符位置編碼，作者使用Transformer［2］中引入的1D位置編碼。給定編碼維數d，位置p，特征維索引i，則字符位置編碼向量

可表示為：

圖像位置編碼采用與［1，3］相同的二維歸一化位置編碼。由于模型需要關注的是相對位置，所以首先要將位置坐標歸一化。給定二維坐標元組，編碼維數為d，通過一維位置的拼接計算二維圖像位置編碼

。

其中和代表了輸入圖像特征的尺寸。注意力精煉模塊（ARM）如果在Transformer中直接采用RNN式的覆蓋注意力機制。那么將會產生一個具有空間復雜度的覆蓋矩陣，這樣的大小是難以接受的。問題的瓶頸在于覆蓋矩陣需要先與其他特征向量相加，再乘以向量。如果我們可以先將覆蓋矩陣與相乘，再加上LuongAttention［4］的結果，空間復雜度將大大降低到。因此作者將注意力機制修改為：

其中相似向量可分為注意項和精煉項。需要注意的是，精煉項可以通過覆蓋函數直接由累積向量生成，從而避免了具有為維數為的中間項。作者將上式命名為注意力精煉框架。

圖2 注意精煉模塊（ARM）的整體結構為了在Transformer中使用這一框架，作者提出了如圖2所示的注意精煉模塊（ARM）。可以將Transformer中的點積矩陣作為注意項，精煉項矩陣R需要從經過Softmax后的注意權值A中計算出來。作者使用了注意權值A來提供歷史對齊信息，具體的選擇會在下一小節介紹。作者定義了一個將注意力權重作為輸入，輸出為精煉矩陣的函數：

其中是在時間步時的注意力權重。代表一個卷積核，*代表卷積操作。是一個偏置項，是一個線性投影矩陣。作者認為函數可以提取局部覆蓋特征來檢測已解析區域的邊緣，并識別傳入的未解析區域。最終，作者通過減去精煉項R來達到精煉注意力項E的目的。覆蓋注意力本節將介紹注意權重A的具體選擇。作者提出了自覆蓋、交叉覆蓋以及融合覆蓋三種模式，以利用不同階段的對齊信息。自覆蓋：自覆蓋是指使用當前層生成的對齊信息作為注意精煉模塊的輸入。對于當前層j，首先計算注意權重，并對其進行精煉。

其中代表了精煉后的點積結果。代表在j層精煉后的注意力權重。交叉覆蓋：作者利用Transformer中解碼層相互堆疊的特性，提出了一種新的交叉覆蓋方法。交叉覆蓋使用前一層的對齊信息作為當前層ARM的輸入。j為當前層，我們使用精煉后的注意力權重之前層來精煉當前層的注意力項。

融合覆蓋：將自覆蓋和交叉覆蓋相結合，作者提出了一種新的融合覆蓋方法，充分利用從不同層生成的過去對齊信息。

其中表示來自當前層的注意權重與來自前一層的精煉注意權重進行拼接。

三、主要實驗結果及可視化結果

表1 與先前工作在CROHME數據集上的效果的比較

從表1中可以看出，與使用覆蓋注意力機制的RNN的模型相比，CoMER在每個CROHME測試集上的性能優于Ding等人［5］提出的先前最先進的模型。在完全正確率ExpRate中，與之前性能最好的基于RNN的模型相比，CoMER平均提高了1.43%。與基于Transformer的模型相比，作者提出的帶有ARM和融合覆蓋的CoMER顯著提高了性能。具體而言，CoMER在所有指標上都優于基準“BTTR”，在ExpRate中平均領先基準“BTTR”3.6%。

表2 各模塊消融實驗

在表2中，“Scale -aug”表示是否采用尺度增廣［6］。“Self-cov”和“Cross-cov”分別表示是否使用自覆蓋和交叉覆蓋。與BTTR相比，采用ARM和覆蓋機制的CoMER的性能有了明顯的提高。

圖3 不同算法在CROHME 2014數據集上不同長度正確率的對比從圖3中可以看到，相較于基準方法與本文提出的三種覆蓋方法，融合覆蓋可以大大增強模型對長公式的識別率。這也驗證了覆蓋機制能夠更好地引導注意力對齊歷史信息。

圖4 公式圖像識別中的精煉項R可視化。

如圖4所示，作者將識別過程中的精煉項R可視化。可以看到，經過解析的區域顏色較深，這表明ARM將抑制這些解析區域的注意權重，鼓勵模型關注未解析區域。可視化實驗表明，作者提出的ARM可以有效地緩解覆蓋不足的問題。

四、總結及討論

作者受RNN中覆蓋注意力的啟發，提出將覆蓋機制引入到Transformer解碼器中。提出了一種新的注意精煉模塊（ARM），使得在Transformer中進行注意力精煉的同時不損害其并行計算特性成為可能。同時還提出了自覆蓋、交叉覆蓋和融合覆蓋的方法，利用來自當前層和前一層的過去對齊信息來優化注意權重。實驗證明了作者提出的CoMER緩解了覆蓋不足的問題，顯著提高了長表達式的識別精度。作者認為其提出的注意精煉框架不僅適用于手寫數學表達式識別。ARM可以幫助精煉注意權重，提高所有需要動態對齊的任務的對齊質量。為此，作者打算將解碼器中的ARM擴展為一個通用框架，用于解決未來工作中的各種視覺和語言任務（例如，機器翻譯、文本摘要、圖像字幕）。

原文作者： Wenqi Zhao， Liangcai Gao

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

解碼器

解碼器

+關注

關注
9

文章
1144

瀏覽量
40798
ARM

ARM

+關注

關注
134

文章
9109

瀏覽量
368020
編碼器

編碼器

+關注

關注
45

文章
3651

瀏覽量
134764

【正點原子STM32H7R3開發套件試用體驗】手寫數字、字母的識別

【正點原子STM32H7R3開發套件試用體驗】手寫數字、字母的識別本文介紹了利用正點原子提供的手寫識別庫，在STM32H7R3開發板上實現 0-9 數字和 A-Z，a-z 字母的

發表于 01-01 17:37

一種基于因果路徑的層次圖卷積注意力網絡

機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場，使用多尺度卷積來提取特征。基于分層注意力機制來聚合

發表于 11-12 09:52 ?319次閱讀

一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

Llama 3 模型與其他AI工具對比

、技術架構 Llama 3模型采用了最新的Transformer架構，并結合了自注意力機制和分組查詢關注（GQA）機制。引入了高效的tokenizer和RoPE位置編碼，提高了語言

發表于 10-27 14:37 ?432次閱讀

matlab 神經網絡數學建模數值分析

matlab神經網絡數學建模數值分析精通的可以討論下

發表于 09-18 15:14

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器（Encoder）和解碼器（Decoder）兩部分實現語言的編碼和解碼。 注意力機制：Transformer中的

發表于 08-02 11:03

llm模型有哪些格式

：基于Transformer的模型 Transformer是一種基于自注意力機制的模型，廣泛應用于NLP領域。基于Transformer的

發表于 07-09 09:59 ?660次閱讀

Transformer模型在語音識別和語音生成中的應用優勢

隨著人工智能技術的飛速發展，語音識別和語音生成作為人機交互的重要組成部分，正逐漸滲透到我們生活的各個方面。而Transformer模型，自其誕生以來，憑借其獨特的自注意力機制和并行計算

發表于 07-03 18:24 ?1189次閱讀

數學建模神經網絡模型的優缺點有哪些

數學建模神經網絡模型是一種基于人工神經網絡的數學建模方法，它通過模擬人腦神經元的連接和信息傳遞機制，對復雜系統進行

發表于 07-02 11:36 ?942次閱讀

神經網絡在數學建模中的應用

數學建模是一種利用數學方法和工具來描述和分析現實世界問題的過程。神經網絡是一種模擬人腦神經元結構和功能的計算模型，可以用于解決各種復雜問題。在數學建

發表于 07-02 11:29 ?982次閱讀

Transformer 能代替圖神經網絡嗎？

初設計之外的數據（如圖像和其他序列數據）。然后人們也開始優化和尋找替代方案，主要是為了減少計算成本（自注意力機制的二次方成本）。關于哪種架構在計算成本方面更優的討論一

發表于 07-02 08:27 ?365次閱讀

【大規模語言模型：從理論到實踐】- 閱讀體驗

再次感謝電子發燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制的心得體會。雖然注意力機制可以顯著提高模型處理長序列數據的能力，但這也帶來了計算成本的增加。在大型

發表于 06-07 14:44

采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

日前，北京理工大學王涌天教授、黃玲玲教授團隊聯合張軍院士、邊麗蘅教授團隊，采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像。

發表于 04-25 09:08 ?1173次閱讀

視覺Transformer基本原理及目標檢測應用

視覺Transformer的一般結構如圖2所示，包括編碼器和解碼器兩部分，其中編碼器每一層包括一個多頭自注意力模塊（self-attention）和一個位置前饋神經網絡(FFN)。

發表于 04-03 10:32 ?3596次閱讀

基于Transformer的多模態BEV融合方案

由于大量的相機和激光雷達特征以及注意力的二次性質，將 Transformer 架構簡單地應用于相機-激光雷達融合問題是很困難的。

發表于 01-23 11:39 ?877次閱讀

電流計算公式簡單方法

電流計算公式是描述電流與電壓和電阻之間的關系的數學公式。根據歐姆定律，電流通過一個導體時與電壓成正比，與電阻成反比。這意味著，當電壓增加或電阻減小時，電流也會增加。電流的計算公式是I = V/R

發表于 01-16 14:28 ?9768次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

基于Transformer與覆蓋注意力機制建模的手寫數學公式識別

評論

【正點原子STM32H7R3開發套件試用體驗】手寫數字、字母的識別

一種基于因果路徑的層次圖卷積注意力網絡

Llama 3 模型與其他AI工具對比

matlab 神經網絡數學建模數值分析

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

llm模型有哪些格式

Transformer模型在語音識別和語音生成中的應用優勢

數學建模神經網絡模型的優缺點有哪些

神經網絡在數學建模中的應用

Transformer 能代替圖神經網絡嗎？

【大規模語言模型：從理論到實踐】- 閱讀體驗

采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

視覺Transformer基本原理及目標檢測應用

基于Transformer的多模態BEV融合方案

電流計算公式簡單方法