在視覺圖像設計中,用戶的需求與最終的設計成品往往是“想象很美好,現實很骨感”。這通常是因為用戶在與設計師溝通時,雙方理解不一致,導致最終設計結果不盡如人意。但是,如果能夠“自給自足”,借助人工智能技術為每個人賦予設計能力,是否會更容易讓自己腦海中的畫面變為現實?智能化設計工具 Microsoft Designer 就是一個能輔助用戶成為設計師的好幫手。
2022年10月,微軟在 Ignite 大會上發布了 Microsoft Designer 內測版,為 Microsoft 365 家族再添一個視覺生產力工具。2023年4月27日,經過半年的迭代和改進,微軟宣布推出 Microsoft Designer 公開預覽版。利用人工智能技術“猜想”用戶的想法,智能輔助生成文字提示和視覺圖像,Microsoft Designer 大大降低了設計難度,讓人人都能成為視覺設計師。
如今,市場上充斥著各種各樣視覺的設計工具,然而這些專業軟件有很高的技術門檻且操作復雜,非專業人員難以熟練使用。也有一些工具提供了海量的模板庫,用戶可以基于模板進行修改,雖然這簡化了部分操作,但其呈現效果與用戶的設想仍有不小的差距。Microsoft Designer 則能夠智能理解用戶的需求,自動生成文字表述,實現從文字到視覺圖像的自動化創造,并將這些素材用于設計項目。
作為智能化的設計工具,Microsoft Designer 將先進的科研成果快速吸納并轉化為生產力,其中包括來自微軟亞洲研究院視覺計算組的 Provence、Swin Transformer 模型,自然語言計算組與微軟圖靈團隊合作的圖靈通用語言表示模型,系統研究組的SPANN(存儲器-磁盤混合索引和搜索系統)算法等眾多前沿技術。
厚積薄發:Provence多模態內容推薦模型助力實現“一鍵式”設計配圖
微軟亞洲研究院很早就開始研究通過自然語言生成圖像或視頻的技術。2018年,正值短視頻發展的上升時期,研究員們意識到視頻化的傳播形態將成為未來互聯網主要的溝通交流方式。然而視頻內容的制作流程繁雜,高質量視頻的拍攝更需要專業人員的參與,那么是否可以通過技術創新創造出一個簡化視頻制作和生成的工具?在這一目標的驅動下,視覺計算組開始了文字到圖像和視覺的生成技術的研究。
經過一年多的潛心鉆研,2020年視覺計算組推出了第一代基于檢索的文字到視頻的生成模型 Provence(Retrieval-based text-to-video generation)。Provence 模型能夠根據文本描述搜索相匹配的視頻或圖像,同時確保跨模態對應具有較高的準確率,達到了“一鍵式(即檢索到的第一個圖像推薦就是用戶所需)”的水平。
Provence 模型的潛力很快就被微軟 Microsoft 365 產品部門發現,并將其引入到了 PowerPoint Design Ideas(PowerPoint 設計器)功能中。為了更好地滿足產品端的工程化需求,微軟多個研究組的研究員們將 Provence 與 Swin Transformer、圖靈通用語言表示模型和 SPANN 算法結合,在 Design Ideas 功能的底層構建了零樣本多模態的內容檢索引擎,讓用戶在幾秒鐘內就能通過文字自動檢索出最適合于當前幻燈片的配圖,并給出布局設計建議,良好的使用體驗讓 Design Ideas 功能的用戶使用率提升了20%以上。
圖1:Provence 模型分別應用于 PowerPoint Design Ideas,Microsoft Designer 及其生態系統中
2021年3月,在微軟內部的駭客松(Hackathon)活動期間,Microsoft 365 產品團隊通過與研究員們的思想碰撞,更加深入地了解了機器學習領域的前沿技術趨勢,不僅看到了走向成熟的 Provence 檢索技術,也看到了更多創新的機器學習算法的應用潛力。由此,雙方共同發起了 Designer in Edge 的 Hackathon 項目,此后這一項目進入產品化迭代過程,也形成了如今的 Microsoft Designer 和 Designer Platform 這兩款由人工智能驅動的產品。
微軟 Microsoft 365 產品部副總裁張大川表示,“在與微軟亞洲研究院多個研究組的交流中,我們看到了 Provence、Swin Transformer、圖靈通用語言表示模型等諸多超前的 AI 技術理念,這些前沿技術完全滿足 Microsoft Designer 及其生態系統的需求。雙方的緊密合作,不僅大大加速了產品的創新周期,而且還革新了傳統設計的流程。下一步,我們將共同致力于創新技術的落地應用,為全球用戶提供更加便捷易用的視覺設計工具,更好地激發人們的創造力和創新力。”
“很高興看到微軟亞洲研究院越來越多的創新研究成果走向了實際應用,成為支持產品開發的核心技術。以 Microsoft Designer 為例,它的關鍵技術始于研究院五年前的創新突破,正是因為微軟亞洲研究院持續致力于探索計算機領域前瞻性的基礎研究,才使得這種拿來即用的技術轉化成為可能。未來,微軟亞洲研究院將一如既往地著眼于下一代革命性技術的研究,并將科研成果快速轉化到微軟的產品中,賦能更多用戶。”微軟亞洲研究院常務副院長郭百寧表示。
Microsoft Designer:
從多模態推薦走向具有“創作”能力的AI
生成式視覺設計的一個關鍵環節是用語言或者文字將用戶腦海中想象的畫面清晰地表達出來。因此,微軟亞洲研究院視覺計算組的研究員們進一步對 Provence 模型進行了升級,讓 Microsoft Designer 在從文字描述中精準檢索出用戶所需圖像的基礎上,又實現了根據用戶意圖智能輸出文字提示的功能。
其核心思想是基于學習到的自動模板為不同的輸入文本創建不同的提示,具體包括三個步驟:
-
首先,將用戶原始輸入的文本與一組字符(token)結合,這些字符是對用戶所需要的設計圖像的視角、樣式、氛圍、用途等的描述。
-
然后,根據美術設計的評分,使用學習到的自動模板找到與不同字符匹配的最佳組合。
-
最后,將輸入文本和自動模板提示的組合返回給用戶,并使用評分指標對結果進行排序,再從中檢索出最佳的圖像。
智能輸出提示文字,為用戶原始的輸入文本添加了更多的描述和細節,從而激勵視覺模型“創作”出更符合用戶需求的結果。如圖2所示:用戶輸入“a cat hacker wearing a VR headset”后,Microsoft Designer 自動輸出了相關的提示與圖像。
圖2:智能輸出提示文字的流程
另外,研究員們還提出了一種檢索增強提示的推薦方法,通過使用提示數據庫來增強自動提示的結果。隨著用戶對 Microsoft Designer 的頻繁使用,模型會學習到更多的提示,而這些數據將能進一步提高提示質量。如圖3所示,對于用戶輸入,Microsoft Designer 會先使用語言模型從提示數據庫中檢索最相似的提示文本,然后通過評估分數對檢索結果排序,再將自動提示與排序檢索提示結合,以獲得更好的結果。由于模型具有持續學習的特性,最終將有越來越多的用戶數據納入到提示數據庫中來增強提示。
圖3:檢索增強提示
借助智能輸出文字提示和智能圖像生成的雙重加持,用戶可以更好地用文字描述出腦海中的畫面,讓 Microsoft Designer “創作”更符合需求的視覺圖像,并從推薦的圖像中選擇出最匹配需求的用于后續的定制化設計。
由人工智能技術驅動的 Microsoft Designer 極大地降低了設計工作的專業門檻,讓設計更加大眾化,人人都能成為設計師。未來,Microsoft Designer 還將引入更多的人工智能算法,比如個性化的智能修圖、借助大模型實現平面布局等等,以此豐富 Microsoft Designer 的功能,為更多用戶帶來更高水平的創意和創造力生產工具。
點擊“閱讀原文”即可試用 Microsoft Designer,開啟屬于你的 AI 設計之旅吧!
隨著人工智能技術的快速發展,確保相關技術能被人們信賴是一個需要攻堅的問題。微軟主動采取了一系列措施來預判和降低人工智能技術所帶來的風險。微軟致力于依照以人為本的倫理原則推進人工智能的發展,早在2018年就發布了“公平、包容、可靠與安全、透明、隱私與保障、負責”六個負責任的人工智能原則(Responsible AI Principles),隨后又發布了負責任的人工智能標準(Responsible AI Standards)將各項原則實施落地,并設置了治理架構確保各團隊把各項原則和標準落實到日常工作中。微軟也持續與全球的研究人員和學術機構合作,不斷推進負責任的人工智能的實踐和技術。
相關論文鏈接:
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
https://arxiv.org/abs/2103.14030
SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search
https://arxiv.org/abs/2111.08566
BEiT: BERT Pre-Training of Image Transformers
https://openreview.net/forum?id=p-BhZSz59o4
關注微軟科技視頻號
了解更多科技前沿資訊
-
微軟
+關注
關注
4文章
6600瀏覽量
104132
原文標題:隱藏在Microsoft Designer背后的新科技,讓人人都是設計師
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論