我吃西红柿,盗墓笔记全集,天下高月小说

我們都知道變色龍可以改變皮膚的顏色紋理，而如今深度學習技術甚至可以做到將一只貓的圖像同時轉變?yōu)楣贰⑸踔联{子和老虎的圖像。這種可以將一張圖片轉換為多種不同目標的算法不僅為電影和游戲場景制作提供了豐富的素材，更能為自動駕駛迅速和便捷地生成不同路況下豐富的訓練數(shù)據(jù)，以不斷提高面對不同路況的能力。

由一而多的圖像翻譯

早先研究人員發(fā)現(xiàn)可以利用非監(jiān)督的方法進行圖像翻譯，將一幅圖像和視頻轉換為另一個。它通過利用來自獨立域中邊緣分布的圖像來學習處于不同域之中的聯(lián)合概率分布。研究人員通過建立共享隱含空間的假設，提出了一個圖像對圖像的非監(jiān)督翻譯框架，并利用對偶GANs實現(xiàn)了高效的圖像翻譯。在實驗中進行了街道場景、動物圖像以及人臉的圖像翻譯過程。

而隨著研究的深入，研究人員們研發(fā)出了新的網(wǎng)絡結構。這種多模態(tài)的網(wǎng)絡結構將可以同時將一張圖片轉換為多張不同的圖像輸出。類似于早先的圖像翻譯研究，多模態(tài)圖形翻譯使用了兩種深度學習技術：非監(jiān)督學習和生成對抗網(wǎng)絡（GANs）,其目的在于為機器賦予更強的想象力，可以讓機器將陽光燦爛的街道照片變成狂風暴雨或者茫茫冬日的不同景色。這種技術對于無人駕駛有著極大的促進作用。與之前的技術不同，研究人員們通過轉換不止能得到一個冬天的實例，而可以同時得到一系列不同降雪量的的冬日場景。這意味著單一的數(shù)據(jù)可以生成一系列豐富的、覆蓋更廣泛情況的數(shù)據(jù)集。

為了實現(xiàn)這一非監(jiān)督圖像的翻譯任務，研究人員們提出了多模態(tài)非監(jiān)督圖像翻譯架構（Multimodal Unsupervised Image-to-image Translation ，MUNIT），首先假設圖像的表示可以被分解成與域無關的編碼，同時可以采集到與域相關的風格編碼。為了實現(xiàn)不同域間的圖像翻譯，作者將內容編碼與目標域中采樣的風格編碼結合在一起，實現(xiàn)了多個目標樣本的輸出。這種多模態(tài)非監(jiān)督圖像翻譯技術將圖像內容和風格分離開來。例如對于圖像中的一只貓來說，它的姿勢是圖像的內容而貓的種類則是圖像的風格。在實際翻譯過程中，姿勢是固定的，而風格則隨著目標的不同而不同。可以是狗狗或者豹子。動物的姿勢是保持不變的，而它的風格則可以覆蓋從柯基到美洲豹各色不同的品種。

同樣的技術還能用于生成一天中不同時間的場景圖像、不同天氣條件下或者光照條件下的場景。這樣的技術對于需要大量數(shù)據(jù)訓練的深度神經網(wǎng)絡大有裨益。

除了自動駕駛和深度學習領域外，多模態(tài)圖像翻譯技術還能為游戲公司提供一種迅速創(chuàng)造新角色和新世界的有力工具。同樣藝術家們也可以生成復雜或者豐富場景的工作交給機器去處理，將更多的精力投入到創(chuàng)作的核心上來。

沒數(shù)據(jù)？沒問題！

這一研究主要建立在一種善于生成視覺數(shù)據(jù)的深度學習方法——GANs上。一個典型的GANs包含兩個互相競爭的神經網(wǎng)絡：一個用于生成圖像而另一個用于判斷生成的圖像是否看起來像真的，或者是假的。GANs在數(shù)據(jù)短缺的時候會顯示出更強大的能力。

一般的圖像翻譯需要兩個互相關聯(lián)的數(shù)據(jù)集：如果需要將貓轉換為狗或者其他動物的話，需要收集同樣姿勢貓和狗的照片。而這樣的數(shù)據(jù)十分稀缺，有些時候甚至是不可能收集的。而本文中提出的MUNIT方法則突破了這個限制，使得圖像翻譯的使用范圍大大增加。它無需使用一一對應的數(shù)據(jù)即可實現(xiàn)多模態(tài)的轉化。

MUNIT同時還可以在無需抓取同一視點記錄的情況下為自動駕駛生成大量的訓練數(shù)據(jù)，可以再同一視角同一地點的精確位置下生成各種交通情況和細節(jié)的數(shù)據(jù)。除此之外、GANs還免去了對于圖像或者視頻冗長的人工標注，節(jié)約了大量的時間和金錢。

論文的作者表示希望給機器賦予人類一樣的想象力。就像人類在看風景時，無論庭前花開花落，總能想象出春夏秋冬四季變遷的模樣。在眺望風景時候，朝暉夕陰、氣象萬千、四季輪回都了然于胸。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網(wǎng)絡

神經網(wǎng)絡

+關注

關注
42

文章
4771

瀏覽量
100772
自動駕駛

自動駕駛

+關注

關注
784

文章
13812

瀏覽量
166461
深度學習

深度學習

+關注

關注
73

文章
5503

瀏覽量
121170

原文標題：因吹斯汀！看深度學習如何將一只貓的圖像同時轉變?yōu)楣贰ⅹ{子和老虎

文章出處：【微信號：thejiangmen，微信公眾號：將門創(chuàng)投】歡迎添加關注！文章轉載請注明出處。

深度學習DeepLearning實戰(zhàn)

測試)三、主講內容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多

發(fā)表于 01-09 17:01

什么是深度學習？使用FPGA進行深度學習的好處？

什么是深度學習為了解釋深度學習，有必要了解神經網(wǎng)絡。神經網(wǎng)絡是一種模擬人腦的神經元和神經網(wǎng)絡的計算模型。作為具體示例，讓我們考慮

發(fā)表于 02-17 16:56

專欄 | 深度學習在NLP中的運用？從分詞、詞性到機器翻譯、對話系統(tǒng)

從分詞、詞性等基礎模塊，到機器翻譯、知識問答等領域，本文列舉并分析一些深度學習在 NLP 領域的具體運用，希望對大家研究深度

發(fā)表于 08-18 17:06 ?7559次閱讀

專欄 | <b class='flag-5'>深度</b><b class='flag-5'>學習</b>在NLP中的運用？從分詞、詞性到機器<b class='flag-5'>翻譯</b>、對話系統(tǒng)

深度學習在圖像超清化的應用

深度學習的出現(xiàn)使得算法對圖像的語義級操作成為可能。本文即是介紹深度學習技術在圖像超清化問題上的最

發(fā)表于 09-30 11:15 ?1次下載

<b class='flag-5'>深度</b><b class='flag-5'>學習</b>在<b class='flag-5'>圖像</b>超清化的應用

基于深度學習的多尺幅深度網(wǎng)絡監(jiān)督模型

針對場景標注中如何產生良好的內部視覺信息表達和有效利用上下文語義信息兩個至關重要的問題，提出一種基于深度學習的多尺度深度網(wǎng)絡監(jiān)督模型。與傳統(tǒng)

發(fā)表于 11-28 14:22 ?0次下載

基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>多</b>尺幅<b class='flag-5'>深度</b>網(wǎng)絡監(jiān)督模型

當機器翻譯遇見深度學習

據(jù)VentureBeat報道，谷歌利用被稱為深度學習的人工智能改進了多項產品，例如谷歌地圖、谷歌照片和Gmail。下一個可能利用這種技術的服務將是谷歌翻譯。

發(fā)表于 05-18 22:15 ?2720次閱讀

圖像識別中的深度學習

現(xiàn)階段比較受歡迎的圖像識別基礎算法為深度學習法，深度學習模型屬于神經網(wǎng)絡，而神經網(wǎng)絡的歷史可追溯

發(fā)表于 05-25 15:59 ?5002次閱讀

深度學習怎么實現(xiàn)圖像到圖像的翻譯

圖像到圖像的翻譯是一類視覺和圖形問題，其目標是學習輸入圖像和輸出

發(fā)表于 05-04 18:12 ?4188次閱讀

深度學習中圖像分割的方法和應用

介紹使圖像分割的方法，包括傳統(tǒng)方法和深度學習方法，以及應用場景。基于人工智能和深度學習方法的現(xiàn)代計算機視覺技術在過去10年里取得了顯著進展

發(fā)表于 11-27 10:29 ?3179次閱讀

基于深度學習的圖像修復模型及實驗對比

圖像修復是計算機視覺領域中極具挑戰(zhàn)性的硏究課題。近年來，深度學習技術的發(fā)展推動了圖像修復性能的顯著提升，使得圖像修復這

發(fā)表于 04-08 09:38 ?20次下載

基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>圖像</b>修復模型及實驗對比

簡述文本與圖像領域的多模態(tài)學習有關問題

模型中的幾個分支角度，簡述文本與圖像領域的多模態(tài)學習有關問題。 1. 引言近年來，計算機視覺和自然語言處理方向均取得了很大進展。而融合二者的多

發(fā)表于 08-26 16:29 ?6865次閱讀

什么是深度學習（Deep Learning）？深度學習的工作原理詳解

? 本文將帶您了解深度學習的工作原理與相關案例。什么是深度學習？深度學習是機器

發(fā)表于 04-01 10:34 ?1.1w次閱讀

深度學習中的圖像分割

深度學習可以學習視覺輸入的模式，以預測組成圖像的對象類。用于圖像處理的主要

發(fā)表于 05-05 11:35 ?1260次閱讀

深度學習框架tensorflow介紹

。TensorFlow可以用于各種不同的任務，包括圖像和語音識別、自然語言處理和推薦系統(tǒng)等。 TensorFlow提供了一個靈活和強大的平臺，可以用于構建和訓練各種

發(fā)表于 08-17 16:11 ?2522次閱讀

GPU深度學習應用案例

能力，可以顯著提高圖像識別模型的訓練速度和準確性。例如，在人臉識別、自動駕駛等領域，GPU被廣泛應用于加速深度學習模型的訓練和推理過程。二、自然語言處理自然語言處理（NLP）是

發(fā)表于 10-27 11:13 ?398次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

深度學習術可以由一而多的圖像翻譯

評論