在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-07 14:24 ? 次閱讀

引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別。

華中科技大學白翔老師團隊在自然場景文本檢測與識別領域成果頗豐,這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出,最近,基于深度神經網絡的模型已經主導了場景文本檢測和識別領域。在該文中,研究了場景“text spotting”的問題,其旨在自然圖像中同時進行文本檢測和識別。

該文受到Mask R-CNN的啟發提出了一種用于場景text spotting的可端到端訓練的神經網絡模型:Mask TextSpotter。與以前使用端到端可訓練深度神經網絡完成text spotting的方法不同,Mask TextSpotter利用簡單且平滑的端到端學習過程,通過語義分割獲得精確的文本檢測和識別。此外,它在處理不規則形狀的文本實例(例如,彎曲文本)方面優于之前的方法。

ICDAR2013、ICDAR2015和Total-Text數據庫上的實驗表明,所提出的方法在場景文本檢測和端到端文本識別任務中都達到了state-of-the-art的水平。

彎曲形狀文本檢測與識別的例子:

左圖是水平text spotting方法的結果,它的檢測框是水平的;中間圖是具有方向的text spotting方法的結果,它的檢測框傾斜;右圖是該文提出的Mask TextSpotter算法的結果,它的檢測框不是外接矩形而是一個最小外接多邊形,對這種彎曲文本達到了更精確的文本檢測和識別。

網絡架構

網絡架構由四部分組成,骨干網feature pyramid network (FPN),文本候選區域生成網絡region proposal network (RPN),文本包圍盒回歸網絡Fast R-CNN,文本實例分割與字符分割網絡mask branch。

▌訓練階段

RPN首先生成大量的文本候選區域,然后這些候選區域的RoI特征被送入Fast R-CNN branch和mask branch,由它們去分別生成精確的文本候選包圍盒(text candidate boxes)、文本實例分割圖(text instance segmentation maps)、字符分割圖(character segmentation maps)。

尤其值得一提的是Mask Branch,如下圖:

它將輸入的RoI(固定大小16*64)經過4層卷積層和1層反卷積層,生成38通道的圖(大小32*128),包括一個全局文本實例圖——它給出了文本區域的精確定位,無論文本排列的形狀如何它都能分割出來,還包括36個字符圖(對應于字符0~9,A~Z),一個字符背景圖(排除字符后的的所有背景區域),在后處理階段字符背景圖會被用到。

這是一個多任務模型,其Loss組成:

▌推理階段

推理階段mask branch的輸入RoIs來自于Fast R-CNN的輸出。

推理的過程如下:首先輸入一幅測試圖像,通過Fast R-CNN獲取候選文本區域,然后通過NMS(非極大抑制)過濾掉冗余的候選區域,剩下的候選區域resize后送入mask branch,得到全局文本實例圖,和字符圖。通過計算全局文本實例圖的輪廓可以直接得到包圍文本的多邊形,通過在字符圖上使用提出的pixel voting方法生成字符序列。

如上圖所示,Pixel voting方法根據字符背景圖中每一個聯通區域,計算每一字符層相應區域的平均字符概率,即得到了識別的結果。

為了在識別出來的字符序列中找到最佳匹配單詞,作者在編輯距離(Edit Distance)基礎上發明了加權編輯距離(Weighted Edit Distance)。

識別結果示例:

▌ICDAR2013的結果

該庫主要用來驗證在水平文本上的識別效果。

▌ICDAR2015的結果

用來驗證方向變化的文本的結果。

▌Total-Text結果

驗證彎曲的文本檢測識別結果。

彎曲文本識別示例

▌速度

在Titan Xp顯卡上,720*1280的圖像,速度可以達到6.9FPS。

▌效果分析

作者通過進一步的實驗分析,發現:如果去除字符圖子網絡,只訓練檢測模型,檢測的性能會下降,說明檢測可以受益于識別模塊。下圖中Ours(det only)為只有檢測的模型。

如果去除訓練樣本中的真實世界字符標注圖像,模型依然可以達到相當競爭力的性能。下圖中Ours(a)即不使用真實世界字符標注圖像的訓練結果。

通過加權編輯距離(weighted edit distance)和原始編輯距離的比較,發現,加權編輯距離可以明顯提高識別性能。下圖中Ours(b)為原始編輯距離的結果。

該文將Mask R-CNN語義分割的方法用于文本檢測與識別,取得了顯著的性能改進,并能成功應對任意形狀的文本,其他語義分割方法是否也能拿來試一下呢?(該文目前還沒有開源代碼。)

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4772

    瀏覽量

    100792
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17086

原文標題:ECCV 2018 | 華科白翔老師團隊ECCV2018 OCR論文:Mask TextSpotter

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    手把手教你使用LabVIEW實現Mask R-CNN圖像實例分割(含源碼)

    使用LabVIEW實現Mask R-CNN圖像實例分割
    的頭像 發表于 03-21 13:39 ?2332次閱讀
    手把手教你使用LabVIEW實現<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>圖像實例<b class='flag-5'>分割</b>(含源碼)

    介紹目標檢測工具Faster R-CNN,包括它的構造及實現原理

    在本篇文章中,公司的研究人員介紹了他們在研究過程中所使用的先進目標檢測工具Faster R-CNN,包括它的構造及實現原理。
    的頭像 發表于 01-27 11:49 ?1.8w次閱讀
    介紹目標<b class='flag-5'>檢測</b>工具Faster <b class='flag-5'>R-CNN</b>,包括它的構造及實現原理

    Mask R-CNN:自動從視頻中制作目標物體的GIF動圖

    用深度學習模型——Mask R-CNN,自動從視頻中制作目標物體的GIF動圖。
    的頭像 發表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNNMask R-CNN的工作原理

    它的概念很簡單:對于每個目標對象,Faster R-CNN都有兩個輸出,一是分類標簽,二是候選窗口;為了分割目標像素,我們可以在前兩個輸出的基礎上增加第三個輸出——指示對象在窗口中像素位置的二進制
    的頭像 發表于 07-20 08:53 ?6.8w次閱讀

    手把手教你操作Faster R-CNNMask R-CNN

    R-CNN又承繼于R-CNN,因此,為了能讓大家更好的理解基于CNN的目標檢測方法,我們從R-CNN開始切入,一直介紹到
    的頭像 發表于 04-04 16:32 ?1.3w次閱讀

    FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask

    然而,盡管目前性能最好的對象檢測器依賴于滑動窗口預測來生成初始候選區域,但獲得更準確的預測主要來自對這些候選區域進行細化的階段,如 Faster R-CNNMask
    的頭像 發表于 04-08 12:00 ?1.2w次閱讀

    Facebook AI使用單一神經網絡架構來同時完成實例分割語義分割

    這一新架構“全景 FPN ”在 Facebook 2017 年發布的 Mask R-CNN 的基礎上添加了一個用于語義分割的分支。這一新架構可以同時對圖像
    的頭像 發表于 04-22 11:46 ?2891次閱讀
    Facebook AI使用單一神經網絡架構來同時完成實例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    基于改進Faster R-CNN的目標檢測方法

    為提高小尺度行人檢測的準確性,提出一種基于改進 Faster r-CNN的目標檢測方法。通過引入基于雙線性插值的對齊池化層,避免感興趣區域池
    發表于 03-23 14:52 ?3次下載
    基于改進Faster <b class='flag-5'>R-CNN</b>的目標<b class='flag-5'>檢測</b>方法

    一種基于Mask R-CNN的人臉檢測分割方法

    針對現有主流的人臉檢測算法不具備像素級分割,從而存在人臉特征具有噪聲及檢測精度不理想的問題提出了一種基于 Mask r-CNN的人臉
    發表于 04-01 10:42 ?5次下載
    一種基于<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>的人臉<b class='flag-5'>檢測</b>及<b class='flag-5'>分割</b>方法

    基于Mask R-CNN的遙感圖像處理技術綜述

    較為密集,且容易與港口混合。當前對艦船檢測的輸岀結果主要是檢測框,缺少對艦船掩碼的輸岀,使得無法全面分析岀模型存在的不足;冋時,由于遙感圖像中的艦船停靠密集,容易產生漏檢問題。為解決上述問題,利用 Mask
    發表于 05-08 16:39 ?3次下載

    用于實例分割Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴展了 Faster RCNN ,方法是在每個感興趣區域 (RoI) 上添加一個用于預測分割掩碼的分支,與用于分類和邊界框回歸的現有分支并行(圖 1)。掩碼分支
    的頭像 發表于 04-13 10:40 ?2663次閱讀

    3D視覺技術內容理解領域的研究進展

    Mesh R-CNN 是一種新型的當前最優方法,可基于大量 2D 現實世界圖像預測出最準確的 3D 形狀。該方法利用目標實例分割任務的通用 Mask
    的頭像 發表于 04-27 14:34 ?1481次閱讀

    PyTorch教程14.8之基于區域的CNN(R-CNN)

    電子發燒友網站提供《PyTorch教程14.8之基于區域的CNN(R-CNN).pdf》資料免費下載
    發表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8。基于區域的 CNN (R-CNN)

    Studio 實驗室在 SageMaker Studio Lab 中打開筆記本 除了第 14.7 節中描述的單次多框檢測之外,基于區域的 CNN 或具有 CNN 特征的區域 (R-CNN
    的頭像 發表于 06-05 15:44 ?653次閱讀
    PyTorch教程-14.8。基于區域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心
    的頭像 發表于 07-09 11:51 ?923次閱讀
    主站蜘蛛池模板: 欧美极品在线| 精品在线一区二区三区| 99久久99久久免费精品蜜桃| 丁香婷婷电影| 91p0rn永久备用地址二| 夜夜偷影视| 手机看片国产福利| 黄黄的网站| 久久人人青草97香蕉| 亚洲视频免费一区| 国产精品乱码高清在线观看| 在线高清国产| 四虎影院黄色片| 欧美ab在线| 大色视频| 天堂va欧美ⅴa亚洲va一国产| 久久是精品| 黄色网络在线观看| 国产精品久久久久久久成人午夜 | 97色伦人人| 天天艹天天艹| 在线观看黄色网| 久久中文字幕一区二区| 性欧美大胆高清视频| 欧美一级欧美三级在线| 国产三级中文字幕| 天天毛片| 欧美最猛黑人xxxx黑人猛交69| 男女午夜剧场| 婷婷综合 在线| 久久五月网| 偷拍福利视频| 男人操女人免费网站| 岛国毛片在线观看| 日本一区二区三区四区不卡 | 美女很黄很黄是免费的·无遮挡网站| 久久精品综合网| 天天透天天干| 男人操女人的网站| 亚洲国产成人久久一区www| 免费一级特黄特色大片在线观看|