古风小说,重生之毒妃梅果小说,择天记

命名實體識別是NLP領域中的一項基礎任務，在文本搜索、文本推薦、知識圖譜構建等領域都起著至關重要的作用，一直是熱點研究方向之一。多模態命名實體識別在傳統的命名實體識別基礎上額外引入了圖像，可以為文本補充語義信息來進行消岐，近些年來受到人們廣泛的關注。

盡管當前的多模態命名實體識別方法取得了成功，但仍然存在著兩個問題：(1)當前大部分方法基于注意力機制來進行文本和圖像間的交互，但由于不同模態的表示來自于不同的編碼器，想要捕捉文本中token和圖像中區域之間的關系是困難的。如下圖所示，句子中的‘Rob’應該和圖像中存在貓的區域(V5,V6,V9等)有著較高的相似度，但由于文本和圖像的表示并不一致，在通過點積等形式計算相似度時，‘Rob’可能會和其它區域有著較高的相似度得分。因此，表示的不一致會導致模態之間難以建立起較好的關系。

(2)當前的方法認為文本與其隨附的圖像是匹配的，并且可以幫助識別文本中的命名實體。然而，并不是所有的文本和圖像都是匹配的，模型考慮這種不匹配的圖像將會做出錯誤的預測。如下圖所示，圖片中沒有任何與命名實體“Siri”相關的信息，如果模型考慮這張不匹配的圖像，便會受圖中“人物”的影響將“Siri”預測為PER(人)。而在只有文本的情況下，預訓練模型(BERT等)通過預訓練任務中學到的知識可以將“Siri”的類型預測為MISC(雜項)。

為了解決上述存在的問題，本文提出了MAF，一種通用匹配對齊框架(General Matching and Alignment Framework)，將文本和圖像的表示進行對齊并通過圖文匹配的概率過濾圖像信息。由于該框架中的模塊是插件式的，其可以很容易地被拓展到其它多模態任務上。

本文研究成果已被WSDM2022接收，

整體框架

本文框架如下圖所示，由5個主要部分組成：

Input Representations

將原始的文本輸入轉為token序列的表示以及文本整體的表示，將原始的圖像輸入轉為圖像區域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入，通過對比學習將文本和圖像的表示變得更為一致。

Cross-Modal Interac tion Module

接收token序列的表示以及圖像區域的表示作為輸入，使用注意力機制建立起文本token和圖像區域之間的聯系得到文本增強后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強后的圖像的表示作為輸入，用于判斷文本和圖像匹配的概率，并用輸出的概率對圖像信息進行過濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結合在一起輸入到CRF層進行預測。

主要部分

Input Representations

實驗

主要結果

本文的方法在Twitter-2015和Twitter-2017數據集上效果均優于之前的方法。

運行時間

本文的方法相比于之前的方法除了有著模態之間交互的模塊(本文中為CI)，還添加了對齊模態表示的CA以及判斷圖文是否匹配的CM，這可能會導致訓練成本以及預測成本增加。但本文簡化了模態之間交互的過程，因此整體訓練和預測時間以及模型大小均由于之前的SOTA方法。

消融實驗

本文進行了消融實驗，驗證了CA和CM的有效性。

樣例分析

本文還進行了樣例分析來更加直觀地展示CA和CM的有效性。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3679

瀏覽量
135357
MLP

MLP

+關注

關注
0

文章
57

瀏覽量
4308

原文標題：用于多模態命名實體識別的通用匹配對齊框架

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

Orcad繪制原理圖的元器件對齊方法

在使用Orcad軟件繪制原理圖的時候，為了使原理圖繪制的美觀一些，有時候也希望像PCB設計一樣，將所有的器件都進行對齊，這里我們給大家介紹下，原理圖器件

發表于 02-07 10:33 ?159次閱讀

Orcad繪制原理圖的元器件<b class='flag-5'>對齊</b>方法

AI開發框架集成介紹

隨著AI應用的廣泛深入，單一框架往往難以滿足多樣化的需求，因此，AI開發框架的集成成為了提升開發效率、促進技術創新的關鍵路徑。以下，是對AI開發框架集成的

發表于 01-07 15:58 ?148次閱讀

一種降低VIO/VSLAM系統漂移的新方法

本文提出了一種新方法，通過使用點到平面匹配將VIO/VSLAM系統生成的稀疏3D點云與數字孿生體進行對齊，從而實現精確且全球一致的定位，無需視覺數據關聯。所提方法為VIO/VSLAM系

發表于 12-13 11:18 ?268次閱讀

<b class='flag-5'>一種</b>降低VIO/VSLAM系統漂移的新方法

KiCad的對齊工具不好用？

“ ?不存在的。唯一的原因是您還沒有學會怎么用。 ? ” 對齊命令在哪里？ KiCad的對齊命令（Align）藏得比較隱蔽，既不在菜單欄，也不在工具欄。右鍵的菜單中默認也不存在。只有當您選中兩個或

發表于 12-04 18:15 ?315次閱讀

一種面向飛行試驗的數據融合框架

天地氣動數據一致性，針對某外形飛行試驗數據開展了典型對象的天地氣動數據融合方法研究。結合數據挖掘的隨機森林方法，本文提出了一種面向飛行試驗的數據融合框架，通過引入地面風洞試驗氣動數據，實現了對復雜輸入參數的特征

發表于 11-27 11:34 ?350次閱讀

<b class='flag-5'>一種</b>面向飛行試驗的數據融合<b class='flag-5'>框架</b>

基于視覺語言模型的導航框架VLMnav

本文提出了一種將視覺語言模型（VLM）轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離，而是使用VLM在一步中直接選擇動作。驚訝的是，我們發現VLM可以作為一種無需任

發表于 11-22 09:42 ?287次閱讀

I2S有左對齊，右對齊跟標準的I2S三種格式，那么這三種格式各有什么優點呢？

大家好，關于I2S格式，有兩個疑問請教一下我們知道I2S有左對齊，右對齊跟標準的I2S三種格式，那么這三種格式各有什么優點呢？而且對于

發表于 10-21 08:23

rup是一種什么模型

RUP（Rational Unified Process，統一建模語言）是一種軟件開發過程模型，它是一種迭代和增量的軟件開發方法。RUP是由Rational Software公司（現為IBM的

發表于 07-09 10:13 ?1424次閱讀

介紹一種嵌入式Linux中的錄音降噪方案

降噪不僅只能從硬件入手，本文為您介紹一種嵌入式Linux中的錄音降噪方案。該方案完全依靠軟件實現，最大程度上降低投入。

發表于 05-21 11:52 ?633次閱讀

關于BlueNRG 355MC藍牙與其他藍牙模塊配對的問題求解

觸發配對完成事件，沒有立即觸發disconnect事件，而是等待了相當于輸入密鑰超時時間（10秒左右）才觸發disconnect事件，disconnect的錯誤碼為0x13，另外還有一種情況，在配對

發表于 03-28 07:59

榮耀終端發布指紋匹配專利，聚焦電子設備領域

此項技術研究揭示了一種指紋匹配方法及其對應的電子設備應用，具有增強指印解鎖圖像與指紋模板圖像配對成功率的優勢，從而提升用戶的使用體驗。其具體策略包括：在指印解鎖圖像無法與電子設備指紋模板圖像相

發表于 03-21 09:43 ?684次閱讀

一種高效的KV緩存壓縮框架--GEAR

GEAR框架通過結合三種互補的技術來解決這一挑戰：首先對大多數相似幅度的條目應用超低精度量化；然后使用低秩矩陣來近似量化誤差。

發表于 03-19 10:12 ?389次閱讀

介紹一種OpenAtom OpenHarmony輕量系統適配方案

本文在不改變原有系統基礎框架的基礎上，介紹了一種OpenAtom OpenHarmony（以下簡稱“OpenHarmony”）輕量系統適配方案。

發表于 03-05 09:24 ?1314次閱讀

慣量匹配對于伺服電機選型是很重要的

要求來具體選擇具有合適慣量大小的電機；在調試時，正確設定慣量比參數是充分發揮機械及伺服系統最佳效能的前提。此點在要求高速高精度的系統上表現尤為突出，這樣，就有了慣量匹配的問題。一、什么是“慣量匹配”？ 1、根

發表于 02-25 16:42 ?714次閱讀

大語言模型中的語言與知識：一種神秘的分離現象

自然語言處理領域存在著一個非常有趣的現象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊關系。

發表于 02-20 14:53 ?607次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

介紹一種通用匹配對齊框架MAF

評論

Orcad繪制原理圖的元器件對齊方法

AI開發框架集成介紹

一種降低VIO/VSLAM系統漂移的新方法

KiCad的對齊工具不好用？

一種面向飛行試驗的數據融合框架

基于視覺語言模型的導航框架VLMnav

I2S有左對齊，右對齊跟標準的I2S三種格式，那么這三種格式各有什么優點呢？

rup是一種什么模型

介紹一種嵌入式Linux中的錄音降噪方案

關于BlueNRG 355MC藍牙與其他藍牙模塊配對的問題求解

榮耀終端發布指紋匹配專利，聚焦電子設備領域

一種高效的KV緩存壓縮框架--GEAR

介紹一種OpenAtom OpenHarmony輕量系統適配方案

慣量匹配對于伺服電機選型是很重要的

大語言模型中的語言與知識：一種神秘的分離現象