在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

超分畫質大模型!華為和清華聯合提出CoSeR:基于認知的萬物超分大模型

CVer ? 來源:CVer ? 2023-12-04 16:22 ? 次閱讀

8980ef80-912c-11ee-939d-92fbcf53809c.png

項目主頁:https://coser-main.github.io/ 論文:https://arxiv.org/abs/2311.16512 代碼:https://github.com/VINHYU/CoSeR

8999186c-912c-11ee-939d-92fbcf53809c.png

圖1. LR,GR和SR分別為低清圖像、基于對低清圖像的認知生成的參考圖像和超分圖像。

圖像超分辨率技術旨在將低分辨率圖像轉換為高分辨率圖像,從而提高圖像的清晰度和細節真實性。這項技術在手機拍照等領域有著廣泛的應用和需求。隨著超分技術的發展和手機硬件性能的提升,人們期望拍攝出更加清晰的照片。然而,現有的超分方法存在一些局限性,如圖2所示,主要有以下兩個方面:

一是缺乏泛化能力。為了實現更好的超分效果,通常需要針對特定場景使用特定傳感器采集到的數據來進行模型訓練,這種學習方式擬合了某種低清圖像和高清圖像間的映射,但在其他場景下表現不佳。此外,逐場景訓練的方式計算成本較高,不利于模型的部署和更新。

二是缺乏理解能力。現有的超分方法主要依賴于從大量數據中學習圖像的退化分布,忽視了對圖像內容的理解,無法利用常識來準確恢復物體的結構和紋理。

89aff262-912c-11ee-939d-92fbcf53809c.png

圖2. 真實場景超分SOTA方法的局限性:(行一)難以處理訓練集外的退化分布;(行二)難以利用常識恢復物體結構。

人類在處理信息時,有兩種不同的認知反饋系統。諾貝爾獎經濟學得主丹尼爾·卡爾曼在《思考,快與慢》中將它們稱為系統一和系統二,如圖3所示。系統一是快速的、直覺的、基于記憶的反饋,比如,我們可以脫口而出十以內的加減運算。系統二是緩慢的、多步的反饋,比如,28x39往往需要逐步運算。現有的超分方法更貼近系統一,它們主要依賴于從大量數據中學習圖像的退化分布,忽視了對圖像內容的理解,無法按照常識來準確恢復物體的結構和紋理,也無法處理域外的退化情況。本文認為,真正能有效應用于真實場景的畫質大模型應該具備類似系統二的多步修復能力,即基于對圖像內容的認知,結合先驗知識來實現圖像超分(Cognitive Super-Resolution,CoSeR)。

8a52aa48-912c-11ee-939d-92fbcf53809c.png

圖3. CoSeR采用類似于人腦中系統二的修復方式

CoSeR模仿了人類專家修復低質量圖像自上而下的思維方式,首先建立對圖像內容的全面認知,包括識別場景和主要物體的特征,隨后將重點轉移到對圖像細節的檢查和還原。本文的主要貢獻如下:

提出了一種通用的萬物超分畫質大模型CoSeR,它能夠從低清圖像中提取認知特征,包括場景內容理解和紋理細節信息,從而提高模型的泛化能力和理解能力。

提出了一種基于認知特征的參考圖像生成方法,它能夠生成與低清圖像內容一致的高質量參考圖像,用于指導圖像的恢復過程,增強圖像的保真度和美感度。

提出了一種“All-in-Attention”模塊,它能夠將低清圖像、認知特征、參考圖像三個條件注入到模型當中,實現多源信息的融合和增強。

在多個測試集和評價指標上,相較于現有方法,CoSeR均取得了更好的效果。同時,CoSeR在真實場景下也展現頗佳。

方法介紹

圖4展示了CoSeR的整體架構。CoSeR首先使用認知編碼器來對低清圖像進行解析,將提取到的認知特征傳遞給Stable Diffusion模型,用以激活擴散模型中的圖像先驗,從而恢復更精細的細節。此外,CoSeR利用認知特征來生成與低清圖像內容一致的高質量參考圖像。這些參考圖像作為輔助信息,有助于提升超分辨率效果。最終,CoSeR使用提出的“All-in-Attention”模塊,將低清圖像、認知特征、參考圖像三個條件注入到模型當中,進一步提升結果的保真度。

8a68cc88-912c-11ee-939d-92fbcf53809c.png

圖4. 本文提出的萬物超分畫質大模型CoSeR

圖5展示了CoSeR參考圖像生成的效果。與直接從低清圖像中獲取描述的方法相比,CoSeR的認知特征保留了細粒度的圖像特征,在生成具有高度相似內容的參考圖像時具有優勢。在圖5的第一行,使用BLIP2從低清圖像生成的描述無法準確識別動物的類別、顏色和紋理。此外,CoSeR的認知特征對于低清圖像更加魯棒。例如,在圖5的第二行,由于輸入分布的差異,BLIP2會生成錯誤的圖像描述,而CoSeR生成了內容一致的高質量參考圖像。最后,相比于BLIP2大模型接近7B的參數量,CoSeR的認知編碼器只有其3%的參數量,極大提升了推理速度。

8a836d40-912c-11ee-939d-92fbcf53809c.png

圖5.(行一)使用BLIP2描述生成的參考圖和CoSeR生成的參考圖;(行二)CoSeR的高魯棒性

結果展示

表1和圖6展示了CoSeR與其他方法的定量和定性結果對比。CoSeR在含有豐富類別的ImageNet數據集及真實超分數據集RealSR和DRealSR上,都取得了不錯的結果。CoSeR能夠恢復出更加清晰和自然的圖像細節,同時保持了圖像的內容一致性和結構完整性。

8a8e2cc6-912c-11ee-939d-92fbcf53809c.png

表1. 定量結果對比

8aa67060-912c-11ee-939d-92fbcf53809c.png

圖6. 定性結果對比

本文提出的CoSeR模型為圖像超分辨率技術提供了一種新的思路和方法,它能夠從低清圖像中提取認知特征,用于激活圖像先驗、生成參考圖像,從而實現高質量的萬物超分效果。我們未來的研究重點是如何在不影響超分性能的情況下加速采樣,以獲得更高的視覺質量。此外,我們還將探索統一模型在更多樣化的圖像修復任務中的表現。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2551

    文章

    51207

    瀏覽量

    754535
  • 圖像
    +關注

    關注

    2

    文章

    1086

    瀏覽量

    40496
  • 大模型
    +關注

    關注

    2

    文章

    2479

    瀏覽量

    2845

原文標題:超分畫質大模型!華為和清華聯合提出CoSeR:基于認知的萬物超分大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    IoT聯網課程清單

    ://t.elecfans.com/v/25643.html *附件:L610功能之連接公有云-華為云.pdf 應用 萬物互聯工程實例(騰訊云)part1 1027秒 https://t.elecfans.com/v
    發表于 03-24 09:18

    萬物互聯時代引領者—微聯網云服務平臺

    本帖最后由 一只耳朵怪 于 2018-5-21 16:56 編輯   現今,人們對城市、企業的規劃與認知也產生了顛覆性的質變,人們期待萬事萬物的預期發展具象化、視覺化,實現真正意義上的萬物互聯
    發表于 05-21 16:52

    鴻蒙是什么?他是兼容萬物的斗戰勝佛

    萬物互聯時代,手機眼睛冰箱連你家的門都可以上網,要上網就要計算,為每個設備都單獨開發一個系統不現實,那鴻蒙就是解決這個問題而誕生的。 從功能機到智能機時代,諾基亞掉隊了,微軟想插隊也失敗了,從智能機到
    發表于 09-08 14:00

    HarmonyOS IoT首著,走進萬物互聯的世界!

    !HarmonyOS是新一代智能終端操作系統,為不同設備的智能化、互聯與協同提供了統一的語言。華為常務董事、消費者業務CEO余承東表示:“萬物互聯時代,沒有人會是一座孤島,每個人、每個設備都是萬物互聯大陸的一部
    發表于 06-16 16:45

    HarmonyOS IoT首著,走進萬物互聯的世界!

    !HarmonyOS是新一代智能終端操作系統,為不同設備的智能化、互聯與協同提供了統一的語言。華為常務董事、消費者業務CEO余承東表示:“萬物互聯時代,沒有人會是一座孤島,每個人、每個設備都是萬物互聯的一部
    發表于 06-16 17:08

    鴻蒙座艙子品牌來了,華為發布 HarmonySpace:萬物互聯的智能出行空間

    生態圈。基于讓座艙融入無處不在的智能世界的愿景,華為打造了一個寓意萬物互聯的座艙子品牌 ——HarmonySpace。讓座艙不僅是座艙,而是一個連通萬物,不斷生長,個性智能的移動出行空間。華為
    發表于 12-23 14:40

    ARM用以解決圖像模型過參數問題

    本文提出一種Any-time super-Resolution Method(ARM)用以解決圖像模型過參數問題,其出發點在于如下三個觀察:不同圖像塊的性能會
    發表于 06-10 17:52

    介紹一種MobileAI2021的圖像競賽的最佳方案

    AIBenchmark軟件測試了所提方案的CPU、GPU以及NNAPI耗時,結果見下表。MAI2021 SISR Challenge本文起初用于參加MAI2021圖像競賽,結果見下表。注:首次的提交的模型
    發表于 06-10 18:03

    介紹一種Any-time super-Resolution Method用以解決圖像模型過參數問題

    本文提出一種Any-time super-Resolution Method(ARM)用以解決圖像模型過參數問題,其出發點在于如下三個觀察:不同圖像塊的性能會
    發表于 03-21 15:25

    基于混合先驗模型分辨率重建

    在L1范數圖像分辨率重建算法框架下,引入參數自適應估計,結合差圖像統計特性和概率分布模型提出一種基于混合先驗模型
    發表于 04-11 08:42 ?24次下載

    基于信譽模型認知聯網非均勻簇路由算法

    基于信譽模型認知聯網非均勻簇路由算法_李瑩
    發表于 01-07 20:32 ?0次下載

    如何使用TensorFlow Hub的ESRGAN模型來在安卓app中生成圖片

    從一張低分辨率的圖片生成一張對應的高分辨率圖片的任務通常被稱為單圖(Single Image Super Resolution - SISR)。盡管可以使用傳統的插值方法(如雙線性
    的頭像 發表于 11-26 09:40 ?3520次閱讀

    OpenHarmony論壇-圖庫應用數據加載顯示模型

    OpenHarmony論壇-圖庫應用數據加載顯示模型 天的2021華為開發者大會上,OpenHarmony論壇上展示了圖庫應用數據加載顯示模型
    的頭像 發表于 10-23 13:42 ?1039次閱讀
    OpenHarmony<b class='flag-5'>分</b>論壇-圖庫應用數據加載顯示<b class='flag-5'>模型</b>

    眸瑞科技與沐曦集成電路聯合發布首個AI模型“貼圖”技術

    近日,長沙眸瑞網絡科技有限公司(下稱“眸瑞科技”)與沐曦集成電路(上海)有限公司(下稱“沐曦”)聯合發布首個AI模型“貼圖”技術。
    發表于 09-06 14:08 ?418次閱讀

    沐曦首次將AI分成功應用到3D模型領域

    近日,長沙眸瑞網絡科技有限公司(下稱“眸瑞科技”)與沐曦集成電路(上海)有限公司(下稱“沐曦”)聯合發布首個AI模型“貼圖”技術。該技術依托曦思N系列AI推理GPU首款產品曦思N1
    的頭像 發表于 09-06 14:11 ?987次閱讀
    主站蜘蛛池模板: 中文字幕在线资源| 亚洲第一看片| 欧美一二三区| 色中文字幕在线| 日本资源在线| 欧美视频在线观在线看| 免费高清一级欧美片在线观看| 无遮挡高清一级毛片免费| 五月婷六月丁香| 欧美资源在线| 国产在线精彩视频二区| 欧美人成绝费网站色www吃脚| 侵犯希崎中文字幕在线| 久久久久性| xxxxxx日本人免费| 天天想天天干| 国产爽视频| 69日本xxⅹxxxxx18| 男女交性视频播放 视频 视频| 成人国产三级在线播放| 天堂网www最新版在线资源| 欧美三级一区二区| 高黄视频| 人人爽天天爽夜夜爽qc| 亚洲综合在线最大成人| 一区二区三区网站| 亚洲伊人久久大香线蕉影院| aaa一区二区三区| 天堂资源www天堂在线| 欧美日a| 国产91色综合久久免费分享| 天天干天天拍天天射天天添天天爱| 国产在线免| 亚洲视频在线播放| 亚洲aaaa级特黄毛片| 噜噜噜噜影院| 久久99精品久久久久久牛牛影视| 久久青草国产免费观看| 97人人在线视频| 国产女同视频| 国内视频一区二区三区|