騰訊于5月14日宣布將混元文生圖大模型升級并公之于眾,已發布至Hugging Face以及Github之上,包括模型權重、推理代碼、模型算法等全方位數據,均向企業與個人開發者提供免費商業使用權限。
升級版混元文生圖大模型采取了與Sora相同的DiT架構設計。騰訊強調,這是全球首個中英雙語DiT架構。
基于Diffusion Transformer的混元DiT是一種文本到圖像生成模塊,具備中英細粒度理解能力,能與用戶進行多輪對話,根據上下文生成并完善圖像。
此外,它還是業界首個中文原生DiT架構文生圖開源模型,支持中英文雙語輸入及理解,參數規模高達15億。
運行該模型需配備支持CUDA的NVIDIA GPU,單次運行混元DiT所需最低顯存為11GB;若要同時運行DialogGen(騰訊推出的文本轉圖像多模態交互式對話系統)和混元DiT,則至少需32GB顯存。騰訊表示,他們已在Linux環境下對NVIDIA的V100和A100 GPU進行過測試。
國內首次官方“大模型標準符合性評測”結果出爐,騰訊混元大模型成功入選首批通過評測的國產大模型行列,其他通過評測的大模型還包括阿里通義千問、360智腦和百度文心一言。
-
算法
+關注
關注
23文章
4612瀏覽量
92891 -
圖像
+關注
關注
2文章
1084瀏覽量
40463 -
大模型
+關注
關注
2文章
2450瀏覽量
2706
發布評論請先 登錄
相關推薦
評論