隨著科技飛速發(fā)展,CES(國(guó)際消費(fèi)電子展)已然成為全球科技產(chǎn)業(yè)的風(fēng)向標(biāo),每年的CES大會(huì)都是業(yè)界矚目的盛事。回顧2024年CES大會(huì),不難發(fā)現(xiàn)其亮點(diǎn)紛呈,其中以人工智能的深度賦能為最引人注目之處。AI技術(shù)的深入應(yīng)用成為CES大會(huì)上的一大亮點(diǎn),各大廠商紛紛展示了在AI領(lǐng)域的最新成果。
關(guān)鍵詞:CES;AI;VR;消費(fèi)電子;生成式AI;NVIDIA;Copilot;Rabbit R1;Vision Pro;Micro LED;GeForce RTX 40 SUPER
AI深度賦能
產(chǎn)業(yè)創(chuàng)新紛呈
各大芯片公司圍繞生成式AI展開(kāi)激烈競(jìng)爭(zhēng)。英偉達(dá)RTX 40 SUPER系列表現(xiàn)優(yōu)秀,不僅提高性能還節(jié)約成本;AMD銳龍8000G系列突出AI能力;英特爾已經(jīng)開(kāi)始與OEM企業(yè)合作,率先構(gòu)建AI PC生態(tài)系統(tǒng)。這些的芯片制造商通過(guò)不懈努力,有望加速AI及AI PC在不同行業(yè)中的應(yīng)用,并推動(dòng)AI技術(shù)為各行各業(yè)注入新活力。
一、英偉達(dá)
1、芯片
在本屆CES大會(huì)上,英偉達(dá)發(fā)布基于Ada Lovelace架構(gòu)的GeForce RTX 40 SUPER系列顯卡,型號(hào)涵蓋RTX 4080 SUPER、RTX 4070 Ti SUPER和 RTX 4070 SUPER三款產(chǎn)品(均可應(yīng)用于筆記本電腦)。RTX 4080 SUPER憑借AD103芯片和強(qiáng)大的CUDA核心數(shù),736 GB/s的內(nèi)存帶寬,可輕松應(yīng)對(duì)4K全景光線追蹤游戲。在游戲圖形高性能需求情況下,RTX 4080 SUPER速度是RTX 3080 Ti的1.4倍。此外,借助836 TOPSAI算力和DLSS幀生成功能,RTX 4080 SUPER的性能可達(dá)到RTX 3080 Ti的2倍。
英偉達(dá) RTX 4080 SUPER 性能對(duì)比
英偉達(dá)RTX 4070 Ti SUPER在核心數(shù)量和顯存容量上優(yōu)于RTX 4070 Ti,顯存容量提升至16GB,顯存位寬為256 bit,帶寬增加至672 GB/s。相較于上代RTX 3070 Ti,其性能提升1.6倍,在開(kāi)啟DLSS 3技術(shù)后,性能可提升至RTX 3070 Ti的2.5倍。
英偉達(dá) RTX 4070 Ti SUPER 性能對(duì)比
RTX 4070 SUPER的核心數(shù)量比RTX 4070高出20%,并且僅用RTX 3090部分功耗情況下,就已經(jīng)超越RTX 3090性能表現(xiàn)。當(dāng)使用DLSS 3時(shí),其性能優(yōu)勢(shì)可擴(kuò)大到1.5倍。
英偉達(dá) RTX 4070 SUPER 性能對(duì)比
2、AI軟件服務(wù)
英偉達(dá)首次將AI應(yīng)用到游戲虛擬人物生成上,該服務(wù)包括NVIDIA Audio2 Face(A2F)和NVIDIA Riva 自動(dòng)語(yǔ)音識(shí)別(ASR)。前者依據(jù)聲音來(lái)源制作富有表情的面部動(dòng)畫(huà),后者能為虛擬數(shù)字人物開(kāi)發(fā)多語(yǔ)言語(yǔ)音和翻譯應(yīng)用。
3、智能駕駛領(lǐng)域
在CES2024展會(huì)上,梅賽德斯-奔馳發(fā)布一系列軟件驅(qū)動(dòng)功能以及基于NVIDIA DRIVE Orin芯片的CLA級(jí)智能駕駛輔助系統(tǒng)。
英偉達(dá)近日宣布,理想汽車(chē)等一系列廠商選擇使用NVIDIA DRIVE Thor集中式車(chē)載計(jì)算平臺(tái)。此外,電動(dòng)汽車(chē)制造商如長(zhǎng)城汽車(chē)、極氪和小米汽車(chē)已決定在其新一代自動(dòng)駕駛系統(tǒng)中采用NVIDIA DRIVE Orin平臺(tái)。
二、AMD
AMD引入基于Zen 3架構(gòu)的四款新品,包括銳龍7 5700X3D、銳龍7 5700、銳龍5 5600GT和銳龍5 5500GT:
- 銳龍7 5700X3D具有8核16線程設(shè)計(jì),最大加速頻率為4.1GHz,并支持3D V-CACHE技術(shù),游戲性能十分突出;
- 銳龍7 5700是8核16線程,最大加速頻率4.6GHz,無(wú)核顯;
- 銳龍5 5600GT和銳龍5 5500GT都是6核12線程,最大加速頻率分別為4.6GHz和4.4GHz,并帶有Radeon核顯。
銳龍 7 5700X3D 游戲性能優(yōu)秀
AMD發(fā)布新顯卡Radeon RX 7600 XT,配備RDNA 3圖形核心和16GB內(nèi)存,專門(mén)優(yōu)化1080p高畫(huà)質(zhì)游戲,并可以處理一些1440p游戲。該顯卡支持HYPR-RX、Ray Tracing、AV1、FSR3等軟件,提供更順暢的游戲體驗(yàn)。此外,16GB內(nèi)存使Radeon RX 7600 XT能夠支持AI大語(yǔ)言模型,顯著提高處理和創(chuàng)作速度。
Radeon RX 7600 XT 16GB 顯卡的游戲性能得到較大提升
三、英特爾
英特爾推出14代酷睿移動(dòng)和臺(tái)式機(jī)處理器系列,包括升級(jí)版的HX系列移動(dòng)處理器,以及適用于移動(dòng)平臺(tái)的低壓酷睿移動(dòng)處理器系列。14代酷睿HX系列提升游戲和多任務(wù)創(chuàng)作性能,支持最高192GB DDR5-5600內(nèi)存和Thunderbolt 5,并配備超頻功能以及增強(qiáng)的聯(lián)網(wǎng)能力。酷睿i9-14900HX是14代移動(dòng)處理器家族的頂級(jí)產(chǎn)品,擁有24核心32線程,最高頻率為5.8 GHz。
英特爾 14 代酷睿 HX 系列移動(dòng)處理器
四、群聯(lián)
群聯(lián)電子推出全球首款7納米制程的PCIe 5.0 DRAM-Less 4CH client SSD控制芯片E31T,標(biāo)志著其在PC OEM和主流SSD市場(chǎng)開(kāi)展業(yè)務(wù)。這顆新芯片在現(xiàn)有的3600MT/s NAND時(shí)代下,SSD效能可達(dá)到10.8GB/s,最高容量可達(dá)8TB。未來(lái)4800MT/s NAND發(fā)布后,其速度可能提升至14GB/s。此外,群聯(lián)還展示其他新產(chǎn)品,如PCIe 5.0 SSD PS5026-E26、PCIe 4.0 DRAM-Less SSD PS5027-E27T和USB 4.0 PS2251-21 (U21)。
CES 2024大會(huì)亮點(diǎn)
CES作為頗具影響力的科技展覽,展示芯片硬件到終端應(yīng)用的全方位科技成果,涉及AI、VR、消費(fèi)電子、汽車(chē)電子和智能家居等領(lǐng)域,標(biāo)志著未來(lái)科技的方向。
一、AI PC
AI PC作為本次盛會(huì)主角,集結(jié)全鏈條科技力量,包括芯片、系統(tǒng)和終端,預(yù)示著AI PC元年來(lái)臨。戴爾、惠普、華碩、三星等知名廠商的AI PC產(chǎn)品勢(shì)如破竹,在硬件提升、AI助手整合和性能優(yōu)化方面展示出其領(lǐng)先地位。特別是大多數(shù)AI PC都增加AI專用啟動(dòng)鍵。英偉達(dá)、AMD、英特爾等核心元件制造商的最新AI PC芯片部署,使整體計(jì)算能力有了顯著的提升。在CES 2024引領(lǐng)下,全球PC產(chǎn)業(yè)正在以更快的速度進(jìn)入AI時(shí)代。
二、生成式AI與筆記本電腦完美結(jié)合:開(kāi)啟智能辦公新時(shí)代
2023年,生成式AI成為科技領(lǐng)域的大熱話題。因此在CES展上,生成式AI大放光彩。
戴爾Windows 11筆記本將配備微軟自然語(yǔ)言AI助手,即通過(guò)Windows for Copilot按鈕實(shí)現(xiàn)更智能操作。NVIDIA首次推出Chat with RTX展示應(yīng)用程序,可以在Windows RTX個(gè)人電腦或工作站上搜索包括聊天、文檔和視頻在內(nèi)的各種內(nèi)容。
在零售商業(yè)領(lǐng)域,生成型AI也在2024年的CES展上大放異彩。如沃爾瑪首次亮相Shop With Friends社交商務(wù)平臺(tái)。大眾汽車(chē)正在嘗試將ChatGPT技術(shù)融入到汽車(chē)產(chǎn)品中。目前不能確定這些功能是否會(huì)像語(yǔ)言AI助手一樣受歡迎,從長(zhǎng)遠(yuǎn)角度來(lái)看,都是值得密切關(guān)注的重要發(fā)展趨勢(shì)。
三、生產(chǎn)力小工具強(qiáng)調(diào)速度和易用性
在2024年CES展覽會(huì)上Rabbit R1是另外一個(gè)令人矚目的焦點(diǎn),這是一款基于生成式AI的手持設(shè)備。其可以改變?nèi)藗兣c應(yīng)用程序的互動(dòng)方式,甚至可以取代智能手機(jī)。例如,通過(guò)用戶簡(jiǎn)單口頭指令,Rabbit R1能完成如“預(yù)訂航班”等任務(wù)。
?
此外,屏幕顯示技術(shù)也取得重大突破。如聯(lián)想ThinkVision 27 3D顯示器能快速將2D圖像轉(zhuǎn)換為3D內(nèi)容,滿足用戶多樣化的需求。
值得一提的是,Wi-Fi 7認(rèn)證推出意味著更多設(shè)備將具備更高的數(shù)據(jù)處理能力,為虛擬現(xiàn)實(shí)等應(yīng)用領(lǐng)域帶來(lái)無(wú)限可能。在展會(huì)上,眾多制造商如TP-Link、UniFi、MSI和Acer都發(fā)布適配Wi-Fi 7的路由器產(chǎn)品。
四、多合一筆記本電腦為專業(yè)人士提供選擇
在CES 2024上,能夠輕松轉(zhuǎn)換為平板電腦的筆記本成為焦點(diǎn),其中惠普Spectre x360和戴爾新款XPS系列備受矚目。華碩的Zenbook DUO(2024)UX8406更是獨(dú)樹(shù)一幟,憑借其獨(dú)特的雙屏設(shè)計(jì)和靈活的變形模式,為用戶提供豐富的功能。
五、高通、汽車(chē)制造商和其他公司推廣虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)產(chǎn)品
預(yù)計(jì)一月底,三星將推出一款搭載高通驍龍XR2+ Gen 2芯片的虛擬混合現(xiàn)實(shí)耳機(jī),與蘋(píng)果的Vision Pro展開(kāi)競(jìng)爭(zhēng)。在CES展覽會(huì)上,除三星和寶馬之外,混合現(xiàn)實(shí)和虛擬現(xiàn)實(shí)還在其他領(lǐng)域得到展示。
六、曲面透明的電視屏幕引人注目
在家庭辦公環(huán)境中,透明電視屏幕已從單純的電視設(shè)備轉(zhuǎn)變?yōu)榱钊梭@嘆的藝術(shù)品。三星透明Micro LED和LG Signature OLED T就是杰出代表。此外,許多大型曲面顯示器也在展現(xiàn)游戲市場(chǎng)的吸引力。不僅提升電視的觀感體驗(yàn),也進(jìn)一步拓寬顯示技術(shù)的應(yīng)用領(lǐng)域。
?
DALL-E、Stable Diffusion
等 20+ 圖像生成模型綜述
近兩年圖像生成模型如Stable Diffusion和DALL-E系列模型的不斷發(fā)展引起廣大關(guān)注。為深入理解 Stable Diffusion 和 DALL-E 3 等最新圖像生成模型,從頭開(kāi)始探索這些模型的演變過(guò)程就顯得至關(guān)重要。下面主要通過(guò)任務(wù)場(chǎng)景、評(píng)估指標(biāo)、模型類型、效率優(yōu)化、局限性等11個(gè)方面為大家進(jìn)行講解。
一、任務(wù)場(chǎng)景
1、無(wú)條件生成
無(wú)條件生成是一種生成模型不受任何額外條件影響,只根據(jù)訓(xùn)練數(shù)據(jù)分布生成圖像。其適用于不需要額外信息或上下文的場(chǎng)景,如根據(jù)隨機(jī)噪聲生成逼真的人臉圖像。舉列來(lái)說(shuō):CelebA-HQ和FFHQ是高質(zhì)量的人臉數(shù)據(jù)集,分別包含30,000和70,000張1024x1024分辨率的人臉圖像。而LSUN是一款場(chǎng)景類別數(shù)據(jù)集,包括臥室、廚房、教堂等類別,每個(gè)圖像的大小為256x256分辨率,每個(gè)類別包含12萬(wàn)到300萬(wàn)張圖像。這些都是常用的無(wú)條件評(píng)估任務(wù)。
2、有條件生成
有條件生成是一種生成模型,在形成圖像時(shí)會(huì)受到額外條件或上下文的影響,如類別標(biāo)簽、文本描述或特定屬性等。廣泛應(yīng)用于需要按特定條件生成結(jié)果的任務(wù)。如根據(jù)給定的文本描述生成相應(yīng)的圖像或在生成特定類別圖像時(shí)提供相應(yīng)類別標(biāo)簽。
1)類別條件生成
類別條件生成常用于圖像生成領(lǐng)域,ImageNet 是其常見(jiàn)的實(shí)例,主要用于圖像分類任務(wù),擁有1000個(gè)類別標(biāo)簽。在生成圖像時(shí),可以指定對(duì)應(yīng)的類別標(biāo)簽,讓模型按照類別進(jìn)行圖像生成。
2)文本條件生成
文本條件生成是目前最流行的圖像生成方法,其模型可根據(jù)輸入的自然語(yǔ)言描述來(lái)生成相應(yīng)的圖像。
3)位置條件
當(dāng)對(duì)圖像的物體布局或主體位置有特定需求時(shí),可以結(jié)合使用類別條件和文本條件指導(dǎo)模型生成過(guò)程。
4)圖像擴(kuò)充
圖像條件經(jīng)常被用于按需處理圖像,如圖像擴(kuò)充(Outpainting)。
5)圖像內(nèi)編輯
圖像內(nèi)編輯(Inpainting)是另一個(gè)以圖像為條件的常見(jiàn)生成方式,結(jié)合文本輸入進(jìn)行操作。
6)圖像內(nèi)文字生成
需要圖片中包含特定文本內(nèi)容,也可以條件形式輸入。
7)多種條件生成
有些場(chǎng)景會(huì)包含多種條件,如給定圖像、文本等,模型要綜合考量這些條件才能生成滿足要求的圖像。
三、評(píng)估指標(biāo)
1、IS
IS(Inception Score)一個(gè)評(píng)估生成圖像質(zhì)量和多樣性的標(biāo)準(zhǔn),主要考慮生成圖像的真實(shí)性與多樣性。其計(jì)算過(guò)程通過(guò)分類模型確定各類別的概率分布,再計(jì)算概率分布的KL散度,最后以指數(shù)平均值形式表達(dá)。
2、FID
FID(Frechet Inception Distance)即衡量生成圖片與真實(shí)圖片距離指標(biāo),其值越小代表越優(yōu)秀。計(jì)算方法包括提取真實(shí)圖像和生成圖像的特征向量,并計(jì)算二者的Frechet距離。在實(shí)踐中通常利用IS評(píng)估真實(shí)性,而FID則用來(lái)評(píng)估多樣性。
3、CLIP Score
OpenAI發(fā)布的CLIP模型包含圖像和文本編碼器,主要目的是實(shí)現(xiàn)圖文特征的匹配。其工作方式是分別提取文本和圖片的嵌入值計(jì)算相似性,距離大則說(shuō)明相似性低,圖片和文本不相關(guān)。
4、DrawBench
在 Imagen 中,Google 提出 DrawBench,是一個(gè)全面且具有挑戰(zhàn)性的文本生成圖片模型評(píng)測(cè)基準(zhǔn)。
DrawBench 基準(zhǔn)包含 11 個(gè)類別的 200 個(gè)文本提示
針對(duì)各類別進(jìn)行獨(dú)立人工評(píng)估,評(píng)估員對(duì)兩組模型A和B生成的圖像進(jìn)行評(píng)分。每組有8個(gè)隨機(jī)生成結(jié)果。評(píng)分員需要回答:哪組圖像質(zhì)量更高,以及哪組圖像與文本描述更匹配。每個(gè)問(wèn)題都有三個(gè)選項(xiàng):更喜歡A,無(wú)法確定,更喜歡B。
四、常用模型
1、模型結(jié)構(gòu)
圖像生成任務(wù)通常由多個(gè)子模型組成,包括常見(jiàn)的 CNN、AutoEncoder、U-Net、Transformer等。其中,AutoEncoder 和 U-Net等模型相似,都是各種模型的主要組成部分。主要的差別在于AutoEncoder由編碼器和解碼器組成,可以單獨(dú)使用,編碼器壓縮輸入,比如把圖像映射到隱空間,解碼器用編碼重構(gòu)輸入,即從隱空間恢復(fù)圖像。而U-Net模型在編碼器和解碼器之間添加Skip Connection,使得解碼器不僅依賴隱空間編碼,還依賴輸入,因此不能單獨(dú)使用。
2、預(yù)訓(xùn)練模型
1)CLIP 模型
OpenAI的CLIP是一個(gè)強(qiáng)大的圖文對(duì)齊模型,利用對(duì)比學(xué)習(xí)在海量圖文數(shù)據(jù)對(duì)(4億)上進(jìn)行預(yù)訓(xùn)練。在訓(xùn)練過(guò)程中,將配對(duì)的圖文特征視為正面,將圖片特征與其他文本特征視為負(fù)面。由于其強(qiáng)大的表征能力,CLIP的文本和圖像編碼器常常被其他模型用于圖像或文本編碼。
2)CoCa 模型
CoCa模型在CLIP模型基礎(chǔ)上,增加多模態(tài)文本解碼器。訓(xùn)練過(guò)程中,除使用原來(lái)CLIP模型對(duì)比損失,增加描述損失。
五、模型類型
1、VAE 系列
VAE系列模型發(fā)展從最初自編碼器(AE)發(fā)展到變分自編碼器(VAE),然后出現(xiàn)向量量化VAE(VQ-VAE)、VQ-VAE-2以及VQ-GAN、ViT-VQGAN和MaskGIT等。但這些通常只用于無(wú)條件生成或簡(jiǎn)單類別和圖像條件,對(duì)文本輸入支持能力不足。
1)AE
自編碼器(AE)是一種人工神經(jīng)網(wǎng)絡(luò)技術(shù),用于實(shí)現(xiàn)無(wú)標(biāo)簽數(shù)據(jù)的有效編碼學(xué)習(xí)。該過(guò)程涉及將高維度數(shù)據(jù)做低維度表示,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)壓縮,因此主要應(yīng)用于降維任務(wù)。AE主要由兩部分組成:編碼器(負(fù)責(zé)將輸入數(shù)據(jù)編碼,即壓縮)和解碼器(負(fù)責(zé)使用這些編碼重構(gòu)輸入,即解壓)。
2)VAE
變分自編碼器(VAE)在自編碼器(AE)的基礎(chǔ)上,引入概率生成模型思想,通過(guò)設(shè)置隱空間概率分布,生成多樣樣本,同時(shí)更好地理解數(shù)據(jù)的分布性質(zhì)。
3)VQ-VAE
向量量化變分自編碼器(VQ-VAE)在變分自編碼器(VAE)基礎(chǔ)上加入離散、可度量的隱空間表示形式,有利于模型理解數(shù)據(jù)中的離散結(jié)構(gòu)和語(yǔ)義信息,同時(shí)可以避免過(guò)擬合。VQ-VAE與VAE的工作原理相通,只是在中間步驟中,沒(méi)有學(xué)習(xí)概率分布,而是利用向量量化(VQ)學(xué)習(xí)代碼書(shū)(Codebook)。
4)VQ-GAN
向量量化生成對(duì)抗網(wǎng)絡(luò)(VQ-GAN)的主要改進(jìn)是使用生成對(duì)抗網(wǎng)絡(luò)(GAN)策略,將變分自編碼器(VAE)作為生成器,并配合一個(gè)判別器對(duì)生成圖像進(jìn)行質(zhì)量評(píng)估。該模型引入感知重建損失方案,不僅關(guān)注像素差異,同時(shí)也關(guān)注特征圖差異,以此來(lái)生成更高保真度的圖片,從而使學(xué)習(xí)的代碼書(shū)更加豐富。
5)ViT-VQGAN
圖像轉(zhuǎn)換器 VQ-GAN (ViT-VQGAN)的模型結(jié)構(gòu)保持VQGAN的基礎(chǔ)結(jié)構(gòu),關(guān)鍵差異在于將編解碼器的CNN框架切換為ViT模型。首先,編碼器對(duì)每8x8像素塊進(jìn)行獨(dú)立編碼,從而產(chǎn)生1024個(gè) token 序列。再者通過(guò)量化過(guò)程,這1024個(gè)token序列被映射到大小為8192的codebook空間。然后,解碼器從1024個(gè)離散的潛在編碼中復(fù)原原始圖像。最后,自回歸轉(zhuǎn)換器被應(yīng)用于生成離散潛在編碼。訓(xùn)練期間,可以直接使用由編碼器生成的離線潛在編碼作為目標(biāo),計(jì)算交叉熵?fù)p失。
6)Parti
相較于VQ-GAN或ViT-VQGAN僅使用解碼器(Decoder Only)形式的Transformer來(lái)生成離散的潛在編碼,Parti的作者采取編碼器+解碼器(Encoder + Decoder)的模式。這樣做的好處就在于可以使用編碼器對(duì)文本進(jìn)行編碼,生成文本嵌入(Text Embedding),再將這個(gè)文本嵌入作為條件引入解碼器中,通過(guò)交叉注意力機(jī)制(Cross Attention)與視覺(jué)Token產(chǎn)生交互。
7)MaskGIT
MaskGIT模型采用VQGAN范式,但在實(shí)現(xiàn)上有所不同。VQGAN中的Transformer通過(guò)序列生成方式預(yù)測(cè)圖像Token,一次只預(yù)測(cè)一個(gè),效率不高。相比之下,MaskGIT采用蒙面視覺(jué)Token建模法(Masked Visual Token Modeling)進(jìn)行訓(xùn)練,這種方法使用類似BERT的雙向Transformer模型,訓(xùn)練時(shí)會(huì)隨機(jī)遮擋部分圖像Token,目標(biāo)就是預(yù)測(cè)這些被遮擋的Token。
8)DALL-E
DALL-E訓(xùn)練過(guò)程和VQ-GAN相似,但DALL-E并未使用VQ-VAE,而是選擇Discrete VAE(dVAE),其的總體概念相似。dVAE的主要不同之處在于引入Gumbel Softmax進(jìn)行訓(xùn)練,有效避免VQ-VAE訓(xùn)練中由于ArgMin操作不能求導(dǎo)而產(chǎn)生的問(wèn)題。
9)DALL-E mini
DALL-E mini是社區(qū)對(duì)DALL-E的開(kāi)源復(fù)現(xiàn)。其使用VQ-GAN替代dVAE,用具有編碼器和解碼器的BART替代DALL-E中僅解碼器的Transformer。此外,會(huì)用VQ-GAN的解碼器生成多張候選圖像,利用CLIP提取這些圖像和文本嵌入,進(jìn)行比較排序,以挑選出最匹配的生成結(jié)果。
10)VQGAN-CLIP
VQGAN-CLIP的實(shí)現(xiàn)思路直接明了,通過(guò)VQ-GAN將初始圖像轉(zhuǎn)化成一幅新圖像,然后使用CLIP對(duì)這個(gè)生成圖像以及目標(biāo)文本提取embedding,計(jì)算它們之間的相似性,并將誤差反饋到隱空間的Z-vector上進(jìn)行迭代更新。
2、Diffusion 系列
Diffusion模型雖在2015年首次被提出,但因效果不佳未受到廣泛關(guān)注。直到2020年06月OpenAI發(fā)布DDPM后,該模型才逐漸為人所知。Diffusion模型的發(fā)展路徑主要包括OpenAI系列模型,Stable Diffusion系列模型,以及Google的Imagen和Imagen 2。
1)DDPM
在擴(kuò)散模型中存在兩個(gè)關(guān)鍵步驟:前向過(guò)程(或稱為擴(kuò)散過(guò)程)以及逆向過(guò)程。簡(jiǎn)單來(lái)說(shuō)前向過(guò)程的要點(diǎn)在于不斷向圖片添加高斯噪聲,而逆向過(guò)程的主旨則在于通過(guò)逐步去除高斯噪聲以重建圖像。
2)Diffusion Model Beat GANs
主要有兩個(gè)亮點(diǎn):首先對(duì)無(wú)條件圖像生成中不同模型結(jié)構(gòu)對(duì)生成效果的影響進(jìn)行大量的消融實(shí)驗(yàn)驗(yàn)證。其次引入分類器引導(dǎo)以提升生成質(zhì)量。
模型結(jié)構(gòu)主要變動(dòng)包括在保持模型大小不變的前提下增加深度、減小寬度,以及增加Attention頭的數(shù)量,并擴(kuò)大Attention的應(yīng)用范圍至16x16、32x32和8x8的分辨率上。結(jié)果表明,更多和更廣泛的Attention應(yīng)用范圍以及采用BigGAN的residual block都可以幫助提升模型表現(xiàn)。這些工作不僅創(chuàng)建了一種新的模型--ADM(Ablate Diffusion Model), 為OpenAI后續(xù)的生成模型打下堅(jiān)實(shí)基礎(chǔ),同時(shí)也為Stable Diffusion的模型開(kāi)發(fā)提供參考。
3)GLIDE
在GLIDE模型中,將Diffusion模型應(yīng)用于文本條件圖像生成,主要包含兩個(gè)子模型:
- 文本條件的擴(kuò)散模型
由一個(gè)文本編碼的變壓器(1.2B,24個(gè)殘差塊,寬度2048)以及一個(gè)在Diffusion Model Beat GANs中的ADM(Ablated Diffusion Model)的擴(kuò)散模型組成,后者的分辨率為64x64,參數(shù)為2.3B,寬度擴(kuò)展至512通道,并在該基礎(chǔ)上擴(kuò)展文本條件信息。
- 文本條件+上采樣模型
包括類似于前述文本變壓器模型,但是寬度減少到1024,還有一種同樣源自ADM-U的上采樣模型,分辨率從64x64擴(kuò)展到256x256,通道數(shù)從192擴(kuò)展到384。
4)DALL-E 2
GLIDE模型對(duì)文本引導(dǎo)圖像生成進(jìn)行全新的嘗試,并取得優(yōu)秀成果。在這項(xiàng)工作中,利用強(qiáng)大的CLIP模型,構(gòu)建一個(gè)兩階段圖像生成模型,該模型主要由四個(gè)部分構(gòu)成。
- 一個(gè)對(duì)應(yīng)CLIP模型的圖像編碼器,其生成的圖像嵌入在訓(xùn)練階段被用做prior目標(biāo),要求prior生成嵌入盡可能與其相似。
- 一個(gè)在訓(xùn)練和生成階段對(duì)文本編碼的文本編碼器,生成的嵌入作為prior的輸入。
- prior根據(jù)這個(gè)嵌入生成圖像嵌入。
- 根據(jù)圖像嵌入生成最終圖像解碼器,其可以選擇是否考慮文本條件。
在訓(xùn)練階段,圖像編碼器和文本編碼器保持不變,而在生成階段則不再需要圖像編碼器。
5)DALL-E 3
OpenAI的DALL-E 3是一款先進(jìn)的文生圖模型,針對(duì)傳統(tǒng)模型在遵循詳細(xì)圖像描述方面的不足進(jìn)行優(yōu)化。由于傳統(tǒng)模型常常會(huì)忽略或混淆語(yǔ)義提示,為解決該問(wèn)題,需要先訓(xùn)練一個(gè)圖像描述器,并生成一組高度描述性的圖像描述,用于訓(xùn)練文生圖模型,從而顯著提高模型的指令跟隨能力。
DALL-E 3的圖像解碼器借鑒穩(wěn)定擴(kuò)散的實(shí)現(xiàn),采用一個(gè)三階段的隱擴(kuò)散模型。其VAE和穩(wěn)定擴(kuò)散相同,都采用8倍的下采樣,訓(xùn)練的圖像分辨率為256x256,并生成32x32的隱向量。為處理時(shí)間步長(zhǎng)條件,模型采用GroupNorm并學(xué)規(guī)模和偏差。對(duì)文本條件的處理,則是使用T5 XXL作為文本編碼器,然后將輸出的embedding和xfnet進(jìn)行交叉注意。
6)Stable Diffusion(LDM)
LDM模型與其他擴(kuò)散生成模型類似,主要由三個(gè)部分組成:
-自動(dòng)編碼器
包括編碼器和解碼器兩部分。編碼器主要用于生成目標(biāo)z,而解碼器則用于從潛在編碼中恢復(fù)圖像。
-調(diào)節(jié)部分
用于對(duì)各種條件信息進(jìn)行編碼,其生成的嵌入將在擴(kuò)散模型U-Net中使用。不同的條件需利用不同的編碼器模型以及使用方法。
-去噪U(xiǎn)-Net
該部分主要用于從隨機(jī)噪聲zT生成潛在編碼,然后利用解碼器恢復(fù)圖像。各種條件信息會(huì)通過(guò)交叉注意機(jī)制進(jìn)行融合。
7)SDXL
SDXL模型針對(duì)SD模型作出一些關(guān)鍵的改進(jìn)(總參數(shù)量為26億,其中文本編碼器有8.17億的參數(shù)):
- 增加一個(gè)Refiner模型,用于進(jìn)一步精細(xì)化圖像。
- 使用兩個(gè)文本編碼器,即CLIP ViT-L和OpenCLIP ViT-bigG。
- 基于OpenCLIP的文本嵌入中添加一個(gè)匯集文本嵌入。
8)SDXL-Turbo
SDXL-Turbo模型的主要改進(jìn)在于引入蒸餾技術(shù)減少生成步數(shù)并提升生成速度。其主要流程包括:
- 從Tstudent模型中選擇步長(zhǎng)s進(jìn)行前向擴(kuò)散,生成加噪圖像。
- 使用學(xué)生模型對(duì)加噪圖像進(jìn)行去噪,得到去噪后的圖像。
- 基于原始圖像和去噪后的圖像計(jì)算對(duì)抗損失。
- 從Tteacher模型中選擇步長(zhǎng)t對(duì)去噪后的圖像進(jìn)行前向擴(kuò)散,生成新圖像。
- 使用教師模型對(duì)新生成的圖像進(jìn)行去噪,得到新的去噪圖像。
- 基于學(xué)生模型和教師模型的去噪圖像計(jì)算蒸餾損失。
- 根據(jù)損失進(jìn)行反向傳播,注意教師模型不會(huì)進(jìn)行更新。
9)Imagen
Google推出的Imagen模型是一個(gè)復(fù)雜且強(qiáng)大的基于擴(kuò)散模型的文生圖模型,能生成極其逼真的圖像并深度理解語(yǔ)言。該模型主要由四個(gè)部分組成:
- Frozen Text Encoder
將文本進(jìn)行編碼得到嵌入,經(jīng)過(guò)比較后,選擇T5-XXL模型。
- Text-to-Image Diffusion Model
該模塊使用U-Net結(jié)構(gòu)的擴(kuò)散模型,把步數(shù)t和前一步的文本嵌入作為條件,總共有20億參數(shù)。
- 第一Super-Resolution Diffusion Model
采用優(yōu)化過(guò)的高效U-Net,把64x64的圖像超分為256x256的圖像,用文本嵌入作為條件,總共有6億參數(shù)。
- 第二Super-Resolution Diffusion Model
利用優(yōu)化過(guò)的高效U-Net,將256x256的圖像超分為1024x1024的圖像,以文本嵌入作為條件,總共有4億參數(shù)。
六、Guidance
1、Class Guidance
在Diffusion Model Beat GANs中,采用額外訓(xùn)練分類器的Classifier Guidance方式會(huì)增加復(fù)雜性和成本。這種方法有以下幾個(gè)主要問(wèn)題:
- 需要增訓(xùn)一個(gè)分類器,使生成模型訓(xùn)練流程變得更復(fù)雜。
- 必須在噪聲數(shù)據(jù)上進(jìn)行分類器的訓(xùn)練,無(wú)法使用已經(jīng)預(yù)訓(xùn)練好的分類器。
- 在采樣過(guò)程中,需要進(jìn)行分?jǐn)?shù)估計(jì)值和分類器梯度的混合,虛假地提高了基于分類器的指標(biāo),如FID和IS。
2、Class Free Guidance
Classifier Free Guidance的主要理念是不再采用圖像分類器的梯度方向進(jìn)行采樣,而是同時(shí)訓(xùn)練有條件和無(wú)條件的擴(kuò)散模型,并將他們的分?jǐn)?shù)估計(jì)混合。通過(guò)調(diào)整混合權(quán)重,實(shí)現(xiàn)Classifier Guidance類似的FID和IS平衡。
在生成過(guò)程中,模型同時(shí)使用有條件和無(wú)條件生成,并通過(guò)權(quán)重w來(lái)調(diào)節(jié)二者的影響:
- 如果w值較大,那么有條件生成的作用就更大,因此生成的圖像看起來(lái)更為逼真(IS分?jǐn)?shù)更高)。
- 如果w值較小,那么無(wú)條件生成的作用就更為明顯,從而生成的圖像具有更好的多樣性(FID分?jǐn)?shù)更低)。
七、VQ-VAE 不可導(dǎo)
1、梯度拷貝
VQ-VAE和VAE結(jié)構(gòu)相似,只是VQ-VAE在中間部分使用VQ(矢量量化)來(lái)學(xué)習(xí)碼本,而非學(xué)習(xí)概率分布。然而,在VQ中為獲取距離最小值,使用非微分的Argmin操作,就造成無(wú)法聯(lián)合訓(xùn)練解碼器和編碼器的問(wèn)題。為解決這個(gè)問(wèn)題,可以采取直接將量化后的表示梯度復(fù)制到量化前表示,使其可以持續(xù)進(jìn)行微分。
2、Gumbel Softmax
Gumbel Softmax是一種將離散采樣問(wèn)題轉(zhuǎn)化為可微分操作的技巧,廣泛應(yīng)用于深度學(xué)習(xí)中的生成模型,如VAE和GAN等。Gumbel Softmax運(yùn)用Gumbel分布來(lái)模擬離散分布的采樣,具體來(lái)說(shuō),它生成一組噪聲樣本,然后用Softmax函數(shù)將這些樣本映射為類別分布。
表現(xiàn)在圖像中,一個(gè)圖像經(jīng)過(guò)編碼器編碼后會(huì)生成32x32個(gè)嵌入向量,與碼本(8192個(gè))進(jìn)行內(nèi)積,再經(jīng)過(guò)Softmax函數(shù)處理,就落實(shí)每個(gè)碼本向量的概率。
通過(guò)應(yīng)用Gumbel Softmax采樣,得到新的概率分布。再以此作為權(quán)重,累加對(duì)應(yīng)的碼本向量,獲得潛在向量。然后,解碼器基于潛在向量來(lái)重建輸出圖像。
上述過(guò)程中,使用Gumbel噪聲實(shí)現(xiàn)離散采樣,能夠近似選擇概率最大的類別,為處理離散采樣問(wèn)題提供一種可微分的解決方案。其中,gi是從Gumbel(0, 1)分布中得到的噪聲,τ是溫度系數(shù)。τ小的時(shí)候,Softmax函數(shù)更接近ArgMax,而τ大時(shí),更接近于均勻分布。
八、擴(kuò)大分辨率
1、圖像超分
圖像超分是提高圖像分辨率的有效手段,被很多熱門(mén)的圖像生成模型,像Imagen、Parti、Stable Diffusion、DALL-E等所采用。就像圖Figure A.4所展示,Imagen使用兩個(gè)圖像超分模型,將分辨率從64x64提升到256x256,然后再進(jìn)一步提升到1024x1024。
2、多級(jí) Latent code
在VQ-VAE-2模型中,采用多級(jí)潛在編碼方案。以256x256的圖像為例,在訓(xùn)練階段,圖像首先被編碼壓縮到64x64大小的底層,然后進(jìn)一步壓縮到32x32大小的頂層。重建階段,32x32的表征通過(guò)VQ量化轉(zhuǎn)換為潛在編碼,然后通過(guò)解碼器重建為64x64的壓縮圖像,再進(jìn)一步通過(guò)VQ和解碼器重建為256x256大小的圖像。而在推理階段,首先使用PixelCNN生成頂層的離散潛在編碼,然后作為輸入條件生成更高分辨率的底層離散潛在編碼。
3、多級(jí) Latent code + 圖像超分
在Muse模型中,直接預(yù)測(cè)512x512分辨率的圖像可能會(huì)過(guò)度關(guān)注低級(jí)細(xì)節(jié),而采用級(jí)聯(lián)模型更有效。模型首先生成16x16的潛在地圖(對(duì)應(yīng)256x256分辨率的圖像),然后基于這個(gè)潛在地圖使用超分模型采樣到64x64的潛在地圖(對(duì)應(yīng)512x512分辨率的圖像)。
訓(xùn)練分為兩階段,首先訓(xùn)練Base模型生成16x16的潛在地圖;然后基于此訓(xùn)練超分模型,用于生成64x64的潛在地圖和最終的512x512圖像。
九、指令遵循
1、更大的 Text Encoder
在Imagen模型中,擴(kuò)大語(yǔ)言模型的規(guī)模比增大圖像擴(kuò)散模型的規(guī)模更能提高生成樣本的逼真度和圖像-文本的對(duì)齊效果。
2、多個(gè) Text Encoder
在SDXL模型中,為增強(qiáng)文本編碼能力,采用兩個(gè)文本編碼器,具體來(lái)說(shuō),同時(shí)使用CLIP ViT-L和OpenCLIP ViT-bigG中的文本編碼器。
3、數(shù)據(jù)增強(qiáng)
OpenAI的新模型DALL-E 3是一款文本生成圖像模型,解決傳統(tǒng)模型不能精準(zhǔn)遵循圖像描述和忽視或混淆語(yǔ)義提示的問(wèn)題。
十、效率優(yōu)化
1、滑動(dòng)窗口 Attention
在VQ-GAN模型中,自回歸Transformer模型用于預(yù)測(cè)離散的latent code,然后通過(guò)解碼器使用latent code恢復(fù)圖像。通常離散latent code相比原始圖像有16x16或8x8的壓縮率。例如要生成一個(gè)分辨率為1024x1024的圖像,相應(yīng)的離散latent code為64x64。但是,由于Transformer模型的推理計(jì)算量與序列長(zhǎng)度成二次方關(guān)系,計(jì)算量較大。具體來(lái)說(shuō),預(yù)測(cè)每個(gè)位置的code時(shí)只考慮局部code,而不是全局code,例如使用16x16的窗口,計(jì)算量將降低到原來(lái)的1/16。對(duì)于邊界區(qū)域,將窗口向圖像中心偏移,以保持窗口大小。
2、Sparse Transformer
在DALL-E中,采用參數(shù)量達(dá)到12B的Sparse Transformer,利用三種不同的注意力遮罩來(lái)加速推理過(guò)程。這些注意力遮罩保證所有的圖像令牌都可以觀察到所有的文本令牌,但只能觀察到部分圖像令牌。具體來(lái)說(shuō),行注意力用于(i-2)%4不等于0的層,如第2層和第6層,列注意力用于(i-2)%4等于0的層,如第1層和第3層,而卷積性注意力則僅在最后一層使用。
3、Efficient U-Net
在Imagen中,在兩個(gè)超分辨模型中使用高效的U-Net。具體調(diào)整包括:在低分辨率添加更多殘差塊,將高分辨率的模型參數(shù)轉(zhuǎn)移到低分辨率,從而增加模型容量,但無(wú)需更多計(jì)算和內(nèi)存;使用大量低分辨率殘差塊時(shí),將Skip connection縮放到1/sqrt(2),以提升收斂速度;將下采樣和上采樣塊的順序交換,以提高前向傳播速度,且不降低性能。同時(shí),在256x256至1024x1024的超分模型中,刪除自注意力模塊,僅保留交叉注意力模塊。
4、并行解碼-推理效率
Google在圖像生成模型MaskGIT和Muse中采用并行解碼的策略,與VQGAN中使用的序列解碼方式不同,該并行解碼方案只需要8個(gè)解碼步驟就能生成16x16=256個(gè)圖像token,相比之下,VQGAN需要256次解碼才能生成同樣數(shù)量的token。
并行解碼過(guò)程主要包括四個(gè)步驟:
- Predict
給定一個(gè)遮罩的token序列(已確定的token未被遮罩,待生成的token被遮罩)的情況下,預(yù)測(cè)每個(gè)token位置可能的token概率。
- Sample
在每個(gè)遮罩的token位置執(zhí)行采樣,采樣后的概率直接作為token的置信度,而已生成的token的置信度則為1。
- Mask Schedule
根據(jù)遮罩調(diào)度函數(shù)、當(dāng)前步數(shù)、總步數(shù)以及總token數(shù),計(jì)算當(dāng)前需要采納的token數(shù)。
- Mask
根據(jù)Sample步驟獲得的置信度以及Mask Schedule步驟得到的待采納的token數(shù),對(duì)置信度進(jìn)行排序,并采納置信度最高的token。
5、子圖訓(xùn)練-訓(xùn)練效率
當(dāng)前圖像生成模型處理的圖像越來(lái)越大,計(jì)算量因此呈指數(shù)級(jí)增長(zhǎng),同時(shí)需要在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,進(jìn)一步增大成本。因此一些優(yōu)化方案應(yīng)運(yùn)而生。例如,在LDM中利用全卷積網(wǎng)絡(luò)支持可變分辨率的特性,選擇在較小分辨率上訓(xùn)練,但在推理時(shí)應(yīng)用在較大分辨率。此外,如Imagen和DALL-E 2等后續(xù)工作也采用相似策略,主要應(yīng)用在超分辨模型。以Imagen為例,在訓(xùn)練超分辨模型時(shí),移除自注意力功能,僅在文本嵌入融合時(shí)使用交叉注意力;同時(shí),從高分辨率圖像中裁剪出低分辨率的子圖進(jìn)行訓(xùn)練,從而大大提高效率。
6、Denoising蒸餾-推理效率
由于擴(kuò)散模型需要大量迭代來(lái)生成滿意結(jié)果,對(duì)資源消耗極大,因此有研究者試圖減少生成步驟以提高生成速度。例如,DPM Solver通過(guò)大幅降低迭代步數(shù),實(shí)現(xiàn)4到16倍的加速。OpenAI的Consistency Models進(jìn)一步將迭代步數(shù)降至1到4步,其后的LCM和LCM-LoRA(Latent Consistency Models)也沿用這一策略。在SDXL-Turbo中,將迭代步數(shù)進(jìn)一步減至1到4步甚至只需要1步,也可以得到優(yōu)秀的生成結(jié)果。在與各種蒸餾方案的比較中,作者的方法在只需一步的情況下就能獲得最優(yōu)的FID和CLIP得分。
十一、局限性
1、場(chǎng)景內(nèi)文本
DALL-E 2的作者發(fā)現(xiàn)模型在圖像生成正確文本方面存在問(wèn)題,可能是由于BPE文本編碼的問(wèn)題。然而,Google的Parti和Imagen 2已經(jīng)比較有效地解決了這個(gè)問(wèn)題。
2、細(xì)節(jié)、空間位置、屬性關(guān)聯(lián)
模型在處理物體的細(xì)節(jié)和空間關(guān)系時(shí),往往出現(xiàn)錯(cuò)誤且容易混淆不同物體。例如,處理手指細(xì)節(jié)時(shí)常有錯(cuò)誤;在設(shè)計(jì)lion和giraffe在電視里的任務(wù)時(shí),位置未能準(zhǔn)確控制;在請(qǐng)求將長(zhǎng)凳設(shè)置為白色時(shí),鋼琴也被誤設(shè)為白色;要求車(chē)門(mén)為白色時(shí),錯(cuò)誤地在引擎蓋等位置生成白色。
在DALL-E 2中,如圖Figure 15所示,模型可能會(huì)混淆不同物體的顏色,如在“創(chuàng)建一個(gè)紅色的方塊在藍(lán)色的方塊之上”的任務(wù)上,無(wú)法完成顏色屬性的準(zhǔn)確賦予。另外,模型可能在重建對(duì)象的相對(duì)大小關(guān)系上存在問(wèn)題,這可能是由于使用CLIP模型的影響。
十二、其他
1、BSR 退化
許多模型在超分模型訓(xùn)練中采用BSR退化技術(shù),如Stable Diffusion和DALL-E 2等模型。BSR退化流程包括JPEG壓縮噪聲、相機(jī)傳感器噪聲,下采樣的不同圖像插值方法,以及高斯模糊核和高斯噪聲,這些處理按隨即順序?qū)D像進(jìn)行應(yīng)用。具體的退化方式和順序可以在提供的代碼鏈接中找到。
2、采樣+排序
模型在生成圖像的過(guò)程中都有一定隨機(jī)性,因此每次采樣生成的圖像可能不一樣,因此就有工作嘗試每次多生成幾個(gè)圖像,然后挑選和文本最匹配的輸出,比如 DALL-E mini,每次都生成多個(gè)圖像,然后通過(guò) CLIP Score 獲得最匹配的一個(gè)。
在 DALL-E 2 中,為提升采樣階段的生成質(zhì)量,會(huì)同時(shí)生成兩個(gè)圖像 embedding zi,然后選擇一個(gè)與文本 embedding zt 內(nèi)積更大的(相似性更高)使用。
3、多分辨率訓(xùn)練
在SDXL中,對(duì)模型進(jìn)行微調(diào),以適應(yīng)不同的長(zhǎng)寬比,應(yīng)對(duì)真實(shí)世界圖像的多樣性。首先將數(shù)據(jù)劃分為不同長(zhǎng)寬比的桶,保證總像素接近1024x1024,同時(shí)高寬需是64的整數(shù)倍。在訓(xùn)練時(shí),每次從相同類型的桶里選擇一個(gè)批次,并在不同的桶中輪流進(jìn)行。還將桶的高度和寬度(h, w)作為條件,通過(guò)傅立葉編碼后,添加到時(shí)間步驟嵌入中。
藍(lán)海大腦集成StableDiffusion
PC集群解決方案
AIGC和ChatGPT4技術(shù)的爆燃和狂飆,讓文字生成、音頻生成、圖像生成、視頻生成、策略生成、GAMEAI、虛擬人等生成領(lǐng)域得到了極大的提升。不僅可以提高創(chuàng)作質(zhì)量,還能降低成本,增加效率。同時(shí),對(duì)GPU和算力的需求也越來(lái)越高,因此GPU服務(wù)器廠商開(kāi)始涌向該賽道,為這一領(lǐng)域提供更好的支持。在許多領(lǐng)域,如科學(xué)計(jì)算、金融分析、天氣預(yù)報(bào)、深度學(xué)習(xí)、高性能計(jì)算、大模型構(gòu)建等領(lǐng)域,需要大量的計(jì)算資源來(lái)支持。為了滿足這些需求,藍(lán)海大腦PC集群解決方案應(yīng)運(yùn)而生。
PC集群是一種由多臺(tái)計(jì)算機(jī)組成的系統(tǒng),這些計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)連接在一起,共同完成計(jì)算任務(wù)。PC集群解決方案是指在PC集群上運(yùn)行的軟件和硬件系統(tǒng),用于管理和優(yōu)化計(jì)算資源,提高計(jì)算效率和可靠性。
藍(lán)海大腦PC集群解決方案提供高密度部署的服務(wù)器和PC節(jié)點(diǎn),采用機(jī)架式設(shè)計(jì),融合PC高主頻和高性價(jià)比以及服務(wù)器穩(wěn)定性的設(shè)計(jì),實(shí)現(xiàn)遠(yuǎn)程集中化部署和便捷運(yùn)維管理。采用模塊化可插拔設(shè)計(jì),簡(jiǎn)化維護(hù)和升級(jí)的流程。有效降低網(wǎng)絡(luò)延遲,提高游戲的流暢性。GPU圖像渲染加速,減少畫(huà)面卡頓和延遲。同時(shí)動(dòng)態(tài)調(diào)度算法,實(shí)現(xiàn)負(fù)載均衡;大幅降低運(yùn)營(yíng)成本。高品質(zhì)的游戲體驗(yàn)增加用戶的粘度,大大提升游戲運(yùn)營(yíng)商收益。
同時(shí),集成Stable Diffusion AI模型,可以輕松地安裝和使用,無(wú)需進(jìn)行任何額外的配置或設(shè)置。與傳統(tǒng)的人工創(chuàng)作方式相比,Stable Diffusion Al模型可以更快地生成高品質(zhì)的創(chuàng)作內(nèi)容。通過(guò)集成這個(gè)模型,可以使創(chuàng)作者利用人工智能技術(shù)來(lái)優(yōu)化創(chuàng)作流程。另外,藍(lán)海大腦PC集群解決方案還具有開(kāi)箱即用的特點(diǎn),不僅易于安裝和使用,而且能夠快速適應(yīng)各種創(chuàng)作工作流程。這意味著用戶可以在短時(shí)間內(nèi)開(kāi)始創(chuàng)作,并且在整個(gè)創(chuàng)作過(guò)程中得到更好的體驗(yàn)。
一、客戶收益
Stable Diffusion技術(shù)對(duì)游戲產(chǎn)業(yè)帶來(lái)了極大的影響和改變。它提升了游戲圖像的質(zhì)量和真實(shí)感、增強(qiáng)了游戲體驗(yàn)和沉浸感、優(yōu)化了游戲制作流程、擴(kuò)展了游戲應(yīng)用領(lǐng)域,并推動(dòng)了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。這些都表明,Stable Diffusion技術(shù)在游戲產(chǎn)業(yè)中的應(yīng)用前景十分廣闊,有助于進(jìn)一步推動(dòng)游戲行業(yè)的發(fā)展,提高用戶體驗(yàn)和娛樂(lè)價(jià)值。
1、提升游戲圖像質(zhì)量和真實(shí)感
Stable Diffusion可以在保證渲染速度的前提下,提高游戲圖像的細(xì)節(jié)和真實(shí)感。傳統(tǒng)的光線追蹤方法需要檢查和模擬每條光線,這樣會(huì)消耗大量計(jì)算資源,并放緩渲染速度。而Stable Diffusion則利用深度學(xué)習(xí)技術(shù)對(duì)光線的擴(kuò)散過(guò)程進(jìn)行建模,使得處理數(shù)百萬(wàn)條光線所需的計(jì)算時(shí)間更短,同時(shí)還能夠生成更為精準(zhǔn)的光線路徑。這意味著,Stable Diffusion可以讓計(jì)算機(jī)產(chǎn)生更加逼真的景觀、人物、物品等元素,在視覺(jué)效果上得到質(zhì)的飛躍。
2、增強(qiáng)游戲體驗(yàn)和沉浸感
游戲是一個(gè)交互式體驗(yàn),它的目標(biāo)是盡可能地讓玩家沉浸到虛構(gòu)的世界中。Stable Diffusion可以使游戲環(huán)境變得更加真實(shí),并增添一些更具有交互性和觀賞性的場(chǎng)景。例如,利用Stable Diffusion技術(shù),游戲可以在水面上添加波紋、落葉,或者使搖曳的草叢更逼真。這些改善能夠讓玩家更好地感受游戲中所處的環(huán)境,增強(qiáng)沉浸感。
3、優(yōu)化游戲制作流程
Stable Diffusion的應(yīng)用可以提高游戲開(kāi)發(fā)的效率和質(zhì)量,減少手動(dòng)制作和修改的工作量。渲染過(guò)程的快速執(zhí)行還可以加速開(kāi)發(fā)周期,甚至使一些在過(guò)去被看做是計(jì)算機(jī)圖形學(xué)難題的事情變得可能。例如,在模擬復(fù)雜的自然現(xiàn)象或在大范圍內(nèi)生成游戲元素時(shí),使用Stable Diffusion可有效降低游戲開(kāi)發(fā)的成本和時(shí)間,讓開(kāi)發(fā)者有更多的精力關(guān)注其他方面的設(shè)計(jì)和創(chuàng)意。
4、擴(kuò)展游戲的應(yīng)用領(lǐng)域
Stable Diffusion的應(yīng)用使得游戲在更多的領(lǐng)域得到應(yīng)用。例如,在心理治療、教育、文化傳播等領(lǐng)域中,人工智能游戲可以根據(jù)用戶的情緒和行為變化來(lái)調(diào)整游戲內(nèi)容和策略,為用戶提供更符合需求和娛樂(lè)性的游戲體驗(yàn)。此外,利用Stable Diffusion技術(shù),游戲可以生成不同類型的場(chǎng)景,包括虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等體驗(yàn),開(kāi)發(fā)出更豐富更多變的游戲內(nèi)容。
5、推動(dòng)游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新
Stable Diffusion作為先進(jìn)的計(jì)算機(jī)圖形學(xué)技術(shù)之一,進(jìn)一步推動(dòng)了游戲產(chǎn)業(yè)的發(fā)展和創(chuàng)新。利用人工智能技術(shù)渲染的游戲?qū)?huì)產(chǎn)生更高品質(zhì)、更廣泛的游戲類別,從而吸引更多領(lǐng)域的玩家參與,并且會(huì)推動(dòng)相關(guān)行業(yè)的發(fā)展,如文化傳媒行業(yè)、數(shù)字娛樂(lè)業(yè)等。同時(shí),穩(wěn)定性更好、性能更高的Stable Diffusion技術(shù)還具有在未來(lái)制造更復(fù)雜的虛擬世界的潛力,例如更多樣化、更逼真、更具交互性的虛擬現(xiàn)實(shí)環(huán)境和游戲。
二、PC集群解決方案的優(yōu)勢(shì)
1、高性能
PC集群解決方案可將多臺(tái)計(jì)算機(jī)的計(jì)算能力整合起來(lái),形成一個(gè)高性能的計(jì)算系統(tǒng)。可支持在短時(shí)間內(nèi)完成大量的計(jì)算任務(wù),提高計(jì)算效率。
2、可擴(kuò)展性
可以根據(jù)需要進(jìn)行擴(kuò)展,增加計(jì)算節(jié)點(diǎn),提高計(jì)算能力。這種擴(kuò)展可以是硬件的,也可以是軟件的,非常靈活。
3、可靠性
PC集群可以通過(guò)冗余設(shè)計(jì)和備份策略來(lái)提高系統(tǒng)的可靠性。當(dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),其他節(jié)點(diǎn)可以接管其任務(wù),保證計(jì)算任務(wù)的順利進(jìn)行。
4、低成本
相比于傳統(tǒng)的超級(jí)計(jì)算機(jī),PC集群的成本更低。這是因?yàn)镻C集群采用的是普通的PC硬件,而不是專門(mén)的高性能計(jì)算硬件。
三、PC集群解決方案的應(yīng)用領(lǐng)域有哪些?
PC集群是指將多臺(tái)個(gè)人電腦連接在一起,通過(guò)網(wǎng)絡(luò)協(xié)同工作,實(shí)現(xiàn)高性能計(jì)算的一種方式。它的應(yīng)用領(lǐng)域非常廣泛,以下是一些常見(jiàn)的應(yīng)用領(lǐng)域:
1、科學(xué)計(jì)算
PC集群可以用于各種科學(xué)計(jì)算,如天文學(xué)、生物學(xué)、物理學(xué)、化學(xué)等領(lǐng)域的計(jì)算模擬和數(shù)據(jù)分析。
2、工程計(jì)算
PC集群可以用于工程領(lǐng)域的計(jì)算,如飛機(jī)設(shè)計(jì)、汽車(chē)設(shè)計(jì)、建筑結(jié)構(gòu)分析等。
3、金融計(jì)算
PC集群可以用于金融領(lǐng)域的計(jì)算,如股票交易、風(fēng)險(xiǎn)評(píng)估、投資組合優(yōu)化等。
4、大數(shù)據(jù)處理
PC集群可以用于大數(shù)據(jù)處理,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域的數(shù)據(jù)處理和分析。
5、圖像處理
PC集群可以用于圖像處理,如視頻編碼、圖像識(shí)別、虛擬現(xiàn)實(shí)等領(lǐng)域的圖像處理和渲染。
四、常用配置推薦
1、處理器CPU:
i9-13900 24C/32T/2.00GHz/32MB/65W
i7-13700 16C/24T/2.10GHz/30MB/65W
i5 13400 10C/16T/1.80GHz/20MB/65W
i3 13100 4C/8T/3.40GHz/12MB/60W
G6900 2C/2T/3.40GHz/4MB/46W
G7400 2C/4T/3.70GHz/6MB/46W
i3 12100 4C/8T/3.30GHz/12MB/60W
i5 12400 6C/12T/2.50GHz/18MB/65W
i7 12700 12C/20T/2.10GHz/25MB/65W
i9 12900 16C/24T/2.40GHz/30MB/65W
2、顯卡GPU:
NVIDIA RTX GeForce 3070 8GB
NVIDIA RTX GeForce 3080 10GB
NVIDIA RTX GeForce 4070 12GB
NVIDIA RTX GeForce 4060Ti 8GB or 16GB
3、內(nèi)存:
32GB×2
4、系統(tǒng)盤(pán):
M.2 500GB
5、數(shù)據(jù)盤(pán):
500GB 7200K
審核編輯 黃宇
-
芯片
+關(guān)注
關(guān)注
455文章
50816瀏覽量
423627 -
顯示器
+關(guān)注
關(guān)注
21文章
4979瀏覽量
139986 -
CES
+關(guān)注
關(guān)注
4文章
1034瀏覽量
70777 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269087 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3776瀏覽量
91104
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論