如今人工智能越來越強大,比如可以實現生成音樂、改變圖片藝術風格等等。最近,人工智能非營利組織OpenAI發布了一個名為DALL-E的神經網絡,可以將文本轉換成與內容相關的圖像。
比如生成下面這些穿著芭蕾舞裙揮舞著光劍的熊貓寶寶:
OpenAI在一篇博文中表示,該系統是具有里程碑意義的GPT-3語言模型的120億參數版本。
DALL-E模型具有多種功能,包括創建動物和物體的擬物化版本,以合理的方式展示相關的概念,渲染文本,以及對現有圖像進行轉換。
比如在該模型中選定“與貓有關的文本關鍵詞”,同時選擇給定的其中一種貓類型,最終系統會自動生成一系列與貓主題有關的圖像,并且風格呈現多樣化。
訓練該模型的數據集主要基于互聯網大量文本-圖像。這使得它能夠通過探索提示的結構來創造出全新的圖片。比如生成一些令人印象深刻的地標、位置、雜交動物和不同年代設計的圖像。但是OpenAI承認并不是所有的結果都是成功的。
不過,OpenAI承認并不是所有生成的結果都是成功的。該公司表示,DALL-E系統有時無法繪制出某些特定的項目,混淆了對象與其特定屬性之間的關系。
通常,提示DALL-E寫的字符串越長,成功率越低。測試中發現,重復部分文本內容,準確率有所提高。
當回答有關地理方面的問題時,比如旗幟、菜肴和當地野生動物,DALL-E也經常反映出膚淺的刻板印象。考慮到人們越來越關注人工智能算法偏見的問題,這個缺點尤為明顯。
OpenAI表示,它計劃分析DALL-E等模特的社會影響,但該公司認為,該系統表明“通過語言操縱視覺概念現在已經觸手可及。”
感興趣的小伙伴可以在OpenAI網站上查看更多DALL-E模型生成的圖像。
責編AJX
-
圖像處理
+關注
關注
27文章
1292瀏覽量
56747 -
AI
+關注
關注
87文章
30897瀏覽量
269111 -
模型
+關注
關注
1文章
3244瀏覽量
48844
發布評論請先 登錄
相關推薦
評論