玄幻小说改编的电视剧,欢乐颂,完美世界小说下载

1. Abstract

這篇paper主要是針對(duì)于傳統(tǒng)的預(yù)訓(xùn)練語言模型捕捉細(xì)微差異能力不足的問題，像添加和刪除單詞、修改句子等微小的噪音就可能會(huì)導(dǎo)致模型預(yù)測(cè)錯(cuò)誤

因此，該論文提出一種新型的雙流注意力增強(qiáng)型bert（DABERT，Dual Attention Enhanced BERT ），用來提高捕捉句子對(duì)中細(xì)微差異的能力，包括兩個(gè)模塊，

（1）雙流注意力模塊，通過引入新的雙通道對(duì)齊機(jī)制來測(cè)量軟詞匹配，來建模相似注意力和差異注意力

（2）自適應(yīng)融合模塊，使用注意力機(jī)制來學(xué)習(xí)差異和相似特征的聚合，并生成一個(gè)描述句對(duì)匹配細(xì)節(jié)的向量

2. Motivation

之前的研究提出的方法在區(qū)分字面上相似但語義不同的句子對(duì)方面表現(xiàn)不佳，這可能是因?yàn)閟elf-attention機(jī)制是利用上下文來理解token的語義，但這樣忽略了句子對(duì)之間的語義差異，因此為了更好的整合句子對(duì)之間的更加細(xì)粒度的差別，將difference向量和affinity向量放在一起建模

difference vector為差異向量

affinity vector為相似向量，即普通的attention得到的向量表示

字面意義相似但語義不同的例句，S1和S2是一對(duì)句子

2.1 Two questions

有了上面的思路之后，就自然而然的產(chǎn)生了兩個(gè)關(guān)鍵問題

Q1：如何使普通的注意力機(jī)制能夠?qū)渥訉?duì)之間細(xì)微差別的語義進(jìn)行建模？

Vanilla attention，或稱為affinity attention，并不太關(guān)注句子對(duì)之間的細(xì)微差別，要提升這個(gè)能力，一個(gè)直觀的解決方案是在表示向量之間做減法，以捕獲它們的語義差異。論文中提出了一個(gè)雙注意力模塊，包括差異注意力和普通注意力。差異注意力使用基于減法的cross-attention來聚合詞和短語層面的交互差異。同時(shí)，為了充分利用差異信息，使用雙通道將差異信息注入Transformer中的multi-head attention，以獲得描述相似和差異的語義表示。

Q2：如何將兩類語義表示融合為一個(gè)統(tǒng)一的表示？

通過額外的結(jié)構(gòu)對(duì)兩種信號(hào)進(jìn)行硬融合可能會(huì)破壞預(yù)訓(xùn)練模型的表示能力，如何將這些信息更柔和地注入到預(yù)訓(xùn)練的模型中仍然是一個(gè)難題。論文中提出了一個(gè)自適應(yīng)融合模塊，使用額外的注意力來學(xué)習(xí)差異和相似特征，以產(chǎn)生描述句子匹配細(xì)節(jié)的向量。

它首先通過不同的注意力將兩個(gè)信號(hào)相互對(duì)齊以捕獲語義交互，然后使用門控來自適應(yīng)地融合差異特征。這些生成的向量通過另一個(gè) fuse-gate 進(jìn)一步縮放，以減少差異信息對(duì)預(yù)訓(xùn)練模型的損害，輸出的最終向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)。

3. Main contributions

明確地對(duì)句子對(duì)之間的細(xì)粒度差異語義進(jìn)行建模，進(jìn)而有效地提升句子語義匹配任務(wù)的效果，并且提出了一種基于BERT的新型雙流注意力增強(qiáng)機(jī)制

提出的DABERT模型使用雙流注意力來分別關(guān)注句子對(duì)中的相似性和差異性特征，并采用soft-integrated的調(diào)節(jié)機(jī)制來自適應(yīng)地聚合這兩個(gè)特征，使得生成的向量可以更好地描述句子對(duì)的匹配細(xì)節(jié)

4. Semantic Sentence Matching

先介紹一下句子語義匹配任務(wù)（SSM， Semantic Sentence Matching），其目標(biāo)是比較兩個(gè)句子并識(shí)別它們的語義關(guān)系。

在轉(zhuǎn)述識(shí)別中，SSM用來確定兩個(gè)句子是否是轉(zhuǎn)述關(guān)系；在自然語言推理任務(wù)中，SSM用來判斷一個(gè)假設(shè)句是否可以從一個(gè)前提句中推斷出來；在QA任務(wù)中，SSM被用來評(píng)估問題-答案之間的相關(guān)性，并對(duì)所有候選回答進(jìn)行排序。

處理句子語義匹配任務(wù)一般可分為兩個(gè)主要的研究方向：

利用句子編碼器將句子轉(zhuǎn)換為潛在空間中的低維向量，并應(yīng)用參數(shù)化的函數(shù)來學(xué)習(xí)二者之間的匹配分?jǐn)?shù)

采用注意力機(jī)制來計(jì)算兩個(gè)句子token之間的分?jǐn)?shù)，然后將匹配分?jǐn)?shù)匯總，做出句子級(jí)的決策

還有通過注入知識(shí)來解決該問題的嘗試，如SemBERT，UER-BERT，Syntax-BERT等

5. Model architecture

DABERT是對(duì)原始 Transformer結(jié)構(gòu)的修改，其結(jié)構(gòu)如下所示

The overall architecture of Dual Attention Enhanced BERT (DABERT). The left side is the Dual attention module, and the right side is the Adaptive Fusion module

在這個(gè)新結(jié)構(gòu)中包括兩個(gè)子模塊

(1）雙注意力模塊，它在多頭注意力中使用雙通道機(jī)制來匹配兩個(gè)句子之間的單詞，每個(gè)通道使用不同的注意力頭，分別計(jì)算affinity 和 difference分?jǐn)?shù)，得到兩個(gè)表征，分別測(cè)量相似和差異信息。

(2）自適應(yīng)融合模塊，用于融合雙流注意力得到的表征，首先使用guide-attention來對(duì)齊兩個(gè)信號(hào)，然后使用多個(gè)門控模塊來融合這兩個(gè)信號(hào)，最終輸出一個(gè)包括更細(xì)粒度的匹配細(xì)節(jié)的向量

5.1 Dual Attention Module

在這個(gè)模塊中，使用兩個(gè)不同的注意力函數(shù)，即常規(guī)注意力和差異注意力，來比較兩個(gè)句子之間向量的相似度和差異度。雙重注意力模塊的輸入是的三要素，其中是潛在維度，是序列長(zhǎng)度。

雙流注意力模塊通過兩個(gè)獨(dú)立的注意力機(jī)制計(jì)算K、Q和V之間的潛在關(guān)系，以測(cè)量它們的相似度和差異度。因此該模塊會(huì)產(chǎn)生兩組注意力表征，后續(xù)由自適應(yīng)融合模塊處理。

雙流注意力模塊

5.1.1 Affinity Attention

相似注意力是雙流注意力的一部分，它是標(biāo)準(zhǔn)的點(diǎn)積注意力，按照Transformer的默認(rèn)操作進(jìn)行計(jì)算。該模塊的輸入包括query和維度為的key，以及維度為的value。

計(jì)算query與所有key的點(diǎn)積，將每個(gè)點(diǎn)積除以，并使用softmax函數(shù)來獲得數(shù)值的權(quán)重，將輸出的相似向量表示為

其中，表示描述由Transformer原始注意力模塊生成的相似表達(dá)的向量。

5.1.2 Difference Attention

雙流注意力的第二部分是差異注意力模塊，用于捕捉和聚合句子對(duì)之間的差異信息，采用基于減法的cross-attention機(jī)制，它允許模型通過element-wise的減法來捕獲句子對(duì)之間的差別，如

其中，是輸入序列長(zhǎng)度，
表示差異注意力模塊所產(chǎn)生的表示。是一個(gè)Mask操作。相似注意力和差異注意力都被用來建模句子對(duì)之間的語義關(guān)系，并分別從相似和差異的角度獲得相同維度的表征，這種雙通道機(jī)制可以獲得描述句子匹配的更詳細(xì)的表征。

5.2 Adaptive Fusion Module

使用自適應(yīng)融合模塊來融合相似表示A和差異表示D，因?yàn)橹苯尤诤希雌骄度胂蛄浚┛赡軙?huì)損害預(yù)訓(xùn)練模型的原始表示能力

自適應(yīng)融合模塊

融合過程包括三個(gè)步驟

通過affinity-guided attention和difference-guided attention，靈活地與這兩個(gè)表示進(jìn)行互動(dòng)和對(duì)齊

采用多個(gè)門控模塊來選擇性地提取交互語義信息

為了減輕差異表示對(duì)預(yù)訓(xùn)練模型的損害，我們利用filter gates來自適應(yīng)地過濾掉噪聲信息，最后生成更好描述句子匹配細(xì)節(jié)的向量

6. Experimental and Results analysis

6.1 Datasets

作者主要做了語義匹配和模型魯棒性的實(shí)驗(yàn)，用到的數(shù)據(jù)集分別如下

Semantic Matching

GLUE的6個(gè)句對(duì)數(shù)據(jù)集：MRPC、QQP、STS-B、MNLI、RTE、QNLI

其他4個(gè)流行的數(shù)據(jù)集：SNLI、SICK、TwitterURL、Scitail

Robustness Test

利用TextFlint對(duì)多個(gè)數(shù)據(jù)集（Quora、SNLI、MNLI-m/mm）進(jìn)行轉(zhuǎn)化，包括特定任務(wù)的轉(zhuǎn)化（SwapAnt、NumWord、AddSent）和一般轉(zhuǎn)化（InsertAdv、Appendlrr、AddPunc、BackTrans、TwitterType、SwapNamedEnt、SwapSyn-WordNet）

TextFlint是一個(gè)自然語言處理模型的魯棒性評(píng)估平臺(tái)。它包括80多種模式來變形數(shù)據(jù)，包括插入標(biāo)點(diǎn)符號(hào)，改變文本中的數(shù)字，替換同義詞，修改副詞，刪除單詞等，可以有效地評(píng)估模型的魯棒性和泛化性

6.2 Baselines

BERT、SemBERT、SyntaxBERT、URBERT和其他多個(gè)PLM

此外，還選擇了幾個(gè)沒有預(yù)訓(xùn)練的競(jìng)爭(zhēng)模型作為基線，如ESIM，Transformer等

在魯棒性實(shí)驗(yàn)中，比較了多個(gè)預(yù)訓(xùn)練模型和SemBERT，URBERT、Syntax-BERT

6.3 Results analysis

更具體的實(shí)驗(yàn)結(jié)果這里就不羅列了，只看一下論文作者對(duì)于一些結(jié)果的解釋

模型表現(xiàn)優(yōu)于SyntaxBERT，這是之前利用外部知識(shí)的最佳模型，基于BERT-large的平均相對(duì)改進(jìn)為0.86%。在QQP數(shù)據(jù)集上，DABERT的準(zhǔn)確性比SyntaxBERT明顯提高了2.4%。造成這種結(jié)果的主要原因有兩個(gè)

使用雙流注意力來增強(qiáng)DABERT捕捉差異特征的能力，這使得DABERT能夠獲得更精細(xì)的交互匹配特征

對(duì)于外部結(jié)構(gòu)引入的潛在噪聲問題，自適應(yīng)融合模塊可以有選擇地過濾掉不合適的信息，以抑制噪聲的傳播，而以前的工作似乎沒有對(duì)這個(gè)問題給予足夠的關(guān)注

SyntaxBERT仍在幾個(gè)數(shù)據(jù)集上取得了稍好的準(zhǔn)確性，作者認(rèn)為這是句法和依存知識(shí)的內(nèi)在關(guān)聯(lián)性的結(jié)果

The performance comparison of DABERT with other methods. Accuracy × 100 on 6 GLUE datasets. Methods with ? indicate the results from their papers, while methods with ? indicate our implementation

Robustness Test Performance

下表列出了DABERT和六個(gè)基線模型在三個(gè)數(shù)據(jù)集上的準(zhǔn)確性。可以觀察到，

SwapAnt的性能表現(xiàn)最差，而DABERT在SwapAnt(QQP)上優(yōu)于最佳模型SemBert近10%，這表明DABERT比基線模型更能處理反義詞引起的語義矛盾

NumWord轉(zhuǎn)換，BERT模型性能下降到56.96%，而DABERT優(yōu)于BERT近6%，因?yàn)樗竽Ｐ?strong>捕捉細(xì)微的數(shù)字差異，以進(jìn)行正確的語言推理

SwapSyn變換，UERBERT明顯優(yōu)于其他基線模型，因?yàn)樗鞔_使用同義詞相似性矩陣來校準(zhǔn)注意力分布，而DABERT在不添加外部知識(shí)的情況下仍能達(dá)到與UERBERT相當(dāng)?shù)男阅?/strong>

TwitterType和AddPunc，注入句法樹的SyntaxBERT性能明顯下降，這可能是因?yàn)閷⑽谋巨D(zhuǎn)換為twitter類型或添加標(biāo)點(diǎn)符號(hào)破壞了句子的正常句法結(jié)構(gòu)，而DABERT在這兩種轉(zhuǎn)換中仍然取得了不錯(cuò)的的性能

在其他情況下，DABERT也取得了更好的性能，因?yàn)樗蹲降搅司渥訉?duì)的細(xì)微差別。同時(shí)，ESIM的表現(xiàn)最差，結(jié)果反映出預(yù)訓(xùn)練機(jī)制得益于豐富的外部資源，并提供了比從頭訓(xùn)練的模型更好的泛化能力。

而改進(jìn)后的預(yù)訓(xùn)練模型SyntaxBERT比原來的BERT模型表現(xiàn)更好，這反映出足夠的預(yù)訓(xùn)練語料和合適的外部知識(shí)融合策略有助于提高模型的泛化性能。

Robustness Test Performance

6.4 Ablation Study

作者在QQP和QNLI數(shù)據(jù)集上進(jìn)行了基于BERT的消融實(shí)驗(yàn)

去掉相似注意力后，模型在兩個(gè)數(shù)據(jù)集上的性能分別下降了1.8%和0.7%。相似注意力可以捕捉到詞對(duì)之間的動(dòng)態(tài)對(duì)齊關(guān)系，這對(duì)SSM任務(wù)至關(guān)重要

去掉差異注意力后，兩個(gè)數(shù)據(jù)集的性能分別下降了1.5%和0.6%。差異信息可以進(jìn)一步描述詞與詞之間的相互作用，并且可以為預(yù)訓(xùn)練的模型提供更精細(xì)的比較信息，從而使模型獲得更好的表現(xiàn)

上述實(shí)驗(yàn)表明，去除子模塊后，性能急劇下降，這表明了雙流注意力模塊內(nèi)部組件的有效性

自適應(yīng)融合模塊中，作者也進(jìn)行了幾次實(shí)驗(yàn)來驗(yàn)證相似和差異向量的融合效果。在QQP數(shù)據(jù)集上，

刪除引導(dǎo)注意力模塊（guide attention），性能下降到90.4%。因?yàn)橐龑?dǎo)注意力可以捕捉到兩種表示之間的相互作用，這種相互作用信息對(duì)于融合兩個(gè)不同的信息至關(guān)重要

去掉fusion gate后，只通過簡(jiǎn)單的平均來整合兩個(gè)表示，準(zhǔn)確率下降到91.4%，表明根據(jù)不同的權(quán)重動(dòng)態(tài)地合并相似和差異向量可以提高模型的性能

移出filter gate后，準(zhǔn)確率下降了0.4%，表明沒有filter gate，模型抑制噪聲的能力被削弱了

用簡(jiǎn)單的平均代替整體聚合和調(diào)節(jié)模塊，性能急劇下降到89.4%。雖然差異信息對(duì)判斷句對(duì)關(guān)系至關(guān)重要，但將差異信息硬性整合到PLM中會(huì)破壞其預(yù)存的知識(shí)，而更柔和的聚合和處理可以更好地利用差異信息

總的來說，通過各個(gè)部分的有效組合，DABERT可以自適應(yīng)地將差異特征融合到預(yù)訓(xùn)練的模型中，并利用其強(qiáng)大的上下文表示法來更好地推斷語義

Results of component ablation experiment

6.5 Case Study

為了直觀地了解DABERT的工作情況，作者使用下表中的三個(gè)案例進(jìn)行定性分析。

在第一種情況下，非預(yù)訓(xùn)練的語言模型ESIM很難捕捉到由差異詞引起的語義沖突。因此，ESIM在案例1中給出了錯(cuò)誤的預(yù)測(cè)結(jié)果。

BERT在案例1中可以借助于上下文來識(shí)別語義差異，但在案例3中，BERT不能捕捉到數(shù)字 "12 "和 "24 "之間的差異，并給出了錯(cuò)誤的預(yù)測(cè)。

SyntaxBERT通過引入句法樹來加強(qiáng)文本理解，由于案例2和案例3具有相同的句法結(jié)構(gòu)，SyntaxBERT也給出了錯(cuò)誤的預(yù)測(cè)

總的來說，這幾種不同的情況，上述三種模型都有其處理不了的原因，反觀DABERT在上述所有的情況下都做出了正確的預(yù)測(cè)。

由于DABERT通過差異注意力明確地關(guān)注句子對(duì)中的不同部分，并在自適應(yīng)融合模塊中自適應(yīng)地聚合相似和差異信息，它可以識(shí)別由句子對(duì)內(nèi)的細(xì)微差異引起的語義差異

Example sentence pairs, Red and Blue are difference phrases in sentence pair.

Attention Distribution

為了驗(yàn)證基于減法的注意力對(duì)差異信息的融合效果，作者還在下圖中展示了BERT和DABERT的權(quán)重分布并進(jìn)行比較。

可以看出，雙流注意力得到的注意力矩陣分布變得更加合理，尤其是 "hardware "和 "software"之間的注意力權(quán)重明顯增加，這表明DABERT給句子對(duì)的差異之處給予了更多的關(guān)注

Distribution of BERT (a) and DABERT (b)

7. Conclusion

總結(jié)一下，這篇論文是通過改變傳統(tǒng)Transformer中的注意力結(jié)構(gòu)來達(dá)到優(yōu)化注意力權(quán)重分布的效果，進(jìn)而讓模型可以將句子對(duì)之間的向量表示有差別的地方凸顯出來，而相似的地方更加靠近。

在保持原始預(yù)訓(xùn)練語言模型不被影響到情況下，增強(qiáng)模型的表示能力，并且做了大量的實(shí)驗(yàn)來證明，比之前的工作得到了更好的效果。

審核編輯：劉清

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ssm

ssm

+關(guān)注

關(guān)注
0

文章
21

瀏覽量
11503

MRPC

MRPC

+關(guān)注

關(guān)注
0

文章
2

瀏覽量
1303

原文標(biāo)題：清華&美團(tuán)提出：DABERT — 雙流注意力增強(qiáng)型BERT，自適應(yīng)融合提升模型效果 | COLING'22

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

評(píng)論

發(fā)布評(píng)論請(qǐng)先登錄

相關(guān)推薦

Bondout、增強(qiáng)型Hooks芯片和標(biāo)準(zhǔn)產(chǎn)品芯片

Hooks芯片作為仿真CPU需要一些額外的特殊功能電路來從復(fù)用的芯片引腳中，分解出地址和數(shù)據(jù)總線以及一些必須的控制信號(hào)，用戶的目標(biāo)板沒有這些電路，所有仍然是單片工作模式。采用bondo

發(fā)表于 08-11 14:20

一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

一種適用于SoC的瞬態(tài)增強(qiáng)型線性穩(wěn)壓器_張琪

發(fā)表于 01-07 22:23 ?0次下載

DeepMind為視覺問題回答提出了一種新的硬注意力機(jī)制

然而，在基于梯度的學(xué)習(xí)框架（如深度學(xué)習(xí)）中存在一個(gè)關(guān)鍵的缺點(diǎn)：因?yàn)檫x擇要處理的信息的過程是離散化的，因此也就是不可微分的，所以梯度不能反向傳播到選擇機(jī)制中來支持基于梯度的優(yōu)化。目前研究

發(fā)表于 08-10 08:44 ?6347次閱讀

北大研究者創(chuàng)建了一種注意力生成對(duì)抗網(wǎng)絡(luò)

同時(shí)我們還將完整的GAN結(jié)構(gòu)和我們網(wǎng)絡(luò)的部分相對(duì)比：A表示只有自動(dòng)編碼器，沒有注意力地圖；A+D表示沒有注意力自動(dòng)編碼器，也沒有注意力判別器；A+AD表示沒有注意力自動(dòng)編碼器，但是有

發(fā)表于 08-11 09:22 ?5095次閱讀

一種通過引入硬注意力機(jī)制來引導(dǎo)學(xué)習(xí)視覺回答任務(wù)的研究

)，用于通過頂層正則化項(xiàng)來選擇固定數(shù)量的特征向量。第二個(gè)版本我們稱之為自適應(yīng)的硬注意力網(wǎng)絡(luò) AdaHAN (Hard Hard Attention Network)，這是基于輸入來決定特征向量的可變數(shù)量的

發(fā)表于 10-04 09:23 ?5659次閱讀

深度分析NLP中的注意力機(jī)制

注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中，因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制做了較為全面的綜述。

發(fā)表于 02-17 09:18 ?4034次閱讀

注意力機(jī)制的誕生、方法及幾種常見模型

簡(jiǎn)而言之，深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義為一個(gè)描述重要性的權(quán)重向量：通過這個(gè)權(quán)重向量為了預(yù)測(cè)或者推斷一個(gè)元素，比如圖像中的某個(gè)像素或

發(fā)表于 03-12 09:49 ?4.2w次閱讀

一種自監(jiān)督同變注意力機(jī)制，利用自監(jiān)督方法來彌補(bǔ)監(jiān)督信號(hào)差異

本文提出了一種自監(jiān)督同變注意力機(jī)制（self-supervised equivariant attention mechanism，簡(jiǎn)稱SEAM），利用自監(jiān)督方法來彌補(bǔ)監(jiān)督信號(hào)差異。在

發(fā)表于 05-12 10:16 ?7977次閱讀

一種全新的多階段注意力答案選取模型

信息與問題關(guān)鍵信息的多階段注意力答案選取模型。該方法首先利用雙向LSTM模型分別對(duì)問題和候選答案進(jìn)行語義表示;然后采用問題的關(guān)鍵信息，包括問題類型和問題中心詞，利用注意力機(jī)制對(duì)候選答案集合進(jìn)行信息增強(qiáng)，篩選?opK個(gè)候

發(fā)表于 03-24 11:17 ?8次下載

一種注意力增強(qiáng)的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層

發(fā)表于 03-25 11:34 ?9次下載

一種上下文感知與層級(jí)注意力網(wǎng)絡(luò)的文檔分類方法

集中于當(dāng)前所編碼的句子，并沒有有效地將文檔結(jié)構(gòu)知識(shí)整合到體系結(jié)構(gòu)中。針對(duì)此問題，提出種上下文感知與層級(jí)注意力網(wǎng)絡(luò)的文檔分類方法（ CAHAN）。該方法采用分層結(jié)構(gòu)來表示文檔的層次結(jié)構(gòu)，

發(fā)表于 04-02 14:02 ?3次下載

如何用番茄鐘提高注意力

電子發(fā)燒友網(wǎng)站提供《如何用番茄鐘提高注意力.zip》資料免費(fèi)下載

發(fā)表于 10-28 14:29 ?0次下載

計(jì)算機(jī)視覺中的注意力機(jī)制

計(jì)算機(jī)視覺中的注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡(jiǎn)介與分類 注意力機(jī)制（Attention Mechanism）是機(jī)器學(xué)習(xí)

發(fā)表于 05-22 09:46 ?1次下載

一種新的深度注意力算法

本文簡(jiǎn)介了一種新的深度注意力算法，即深度殘差收縮網(wǎng)絡(luò)（Deep Residual Shrinkage Network）。從功能上講，深度殘差收縮網(wǎng)絡(luò)是一種面向強(qiáng)噪聲或者高度冗余數(shù)據(jù)的特征學(xué)習(xí)方法

發(fā)表于 05-24 16:28 ?0次下載

一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

機(jī)電系統(tǒng)中的故障檢測(cè)對(duì)其可維護(hù)性和安全性至關(guān)重要。然而，系統(tǒng)監(jiān)測(cè)變量往往具有復(fù)雜的聯(lián)系，很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)（HGCAN），以提

發(fā)表于 11-12 09:52 ?708次閱讀