【Gemini 大模型主打多模態,性能對標GPT-4】
當地時間12月6日, 谷歌公司宣布推出其規模最大、功能最強的多模態大模型 Gemini, 其最強大的 TPU (張量處理單元)系統 “Cloud TPU v5p”, 以及來自谷歌云的人工智能超級計算機。
本次谷歌推出的多模態大模型Gemini 依然采用Transformer 架構,采用高效Attention 機制,支持32k 的上下文長度。Gemini 主打在多模態領域的突出能力,在輸入端,Gemin 可以適應文本與音視頻交叉的輸入序列,比如自然圖像、圖表、截圖、pdf 和視頻等。在輸出端, Gemini 兼具文本和圖像兩種輸出形式。與市面上大模型不同的地方在于, Gemini 從設計之初開始就是多模態的,并不像 OpenAI 構建 DALL·E 和 Whisper 單獨訓練圖像和語音模型。
Gemini 1.0 家族涵蓋三類模型,各有定位:
1)Gemini Ultra: 用于高度復雜的任務,為規模最大、功能最強的類別,定位為 GPT-4的競爭對手;
2)Gemini Pro: 是一款中端型號,用于增強性能和大規模部署能力,根據谷歌技術報告, 其性能優于GPT-3.5;
3)Gemini Nano: 主要用于特定任務和移動設備。
模型能力方面, Gemini 系列在文本、多模態、模態組合等領域均實現了較大進展,在絕大多數基準測試中性能領先于GPT-4。
1、文本領域: Gemini Ultra 在多項基準測試中領先于GPT-4, 并成為現有 第一個在大規模多任務語言理解(MMLU) 方面超越人類專家的模型。在谷歌技術報告中,公司將Gemini 與 GPT-4以及此前谷歌最強的語言大模型 PaLM2 等等進行了比較,在大型語言模型 (LLM) 研發中使用的32個廣泛使用的學術基準中,GeminiUltra 的性能有30個超過了當前最先進的結果(SOTA,State Of The Art),全面領先于GPT-4。
2、多模態領域, Gemini Ultra 在圖像、視頻、音頻多項基準測試中同樣實現超越GPT-4V。圖像理解方面,無論是回答自然圖像問題,進行掃描文檔的文本識別,還是理解信息圖表、圖表和科學圖解, Gemini Ultra 在多個任務上都取得了顯著改進。視頻理解方面,Gemini Ultra 彰顯了強大的時態推理能力,在各種少鏡頭 (Few-shot)視頻字幕任務和零鏡頭視頻問答任務上取得了SOTA。 音頻理解方面,Gemini Pro 模型在英語和多語言測試集的所有自動語音識別(ASR) 和自動語音翻譯(AST) 任務中都明顯優于 USM 和 Whisper 模型,Gemini Nano-1 模型在除 FLEURS 以外的所有數據集上也優于USM 和 Whisper。
3、除此之外,模態組合領域, Gemini 彰顯了處理多模態輸入、跨模態推理 的強大能力。谷歌通過煎雞蛋的烹飪場景示例,展示了Gemini 處理文本、視覺和音頻交叉序列的能力以及跨模態推理能力。
【算力優勢穩固,發布新一代云端 AI 芯片 TPUv5p】
本次谷歌在發布 Gemini 的同時推出了全新的面向云端AI 加速的 TPU v5p,這也是谷歌迄今為止功能最強大、效率最高且可擴展性最強的 TPU 系統。
谷歌于2016年起開始推出第一代 TPU,TPU是為神經網絡設計的專用芯片、 谷歌人工智能產品的核心,為谷歌搜索、YouTube 、Gmail、谷歌地圖、Google Play和 Android 等數十億用戶提供服務。
谷歌表示, Gemini 1.0 采用TPU v4和 v5e 芯片上進行大規模訓練,在 TPU 上Gemini 的運行速度明顯快于早期規模更小、性能更弱的模型,未來TPU v5p也會應用于加速Gemini 開發。
TPU v5p 性能較 TPU v4 全面提升。谷歌 TPU v5p 在 bfloat16 精度下,可 以實現459 teraFLOPS; 在 Int8精度下,可以實現918 teraOPS。谷歌 TPU v5p 配備95GB 的 HBM3 內存,內存帶寬為2.76TB/sec, 每個Pod 最多有8960 個加速核心,并自研搭載600GB/sec 芯片互聯主控,可以更快、更準確地訓練 AI模型。與 TPU v4相比, TPU v5p 的浮點運算性能大幅提升,在高帶寬內存方面是 TPU v4的近3倍。
【背靠谷歌生態帝國,Gemini 商業化想象空間廣闊】
從大模型應用端來看,相較OpenAI, 谷歌的商業版圖更為廣闊, Gemini 系列規模和功能強大,預計將快速融入谷歌生態,未來商業模式擁有極大的想象空間。
內部生態融合計劃來看,谷歌表示,從發布日起,Gemini 可開始應用 Bard 和 Pixel8Pro 智能手機,并將很快與谷歌服務中的其他產品集成,包括Chrome、搜索和廣告等。
應用于Bard 聊天機器人: 從發布會當天開始,谷歌聊天機器人Bard 將使用 Gemini Pro 的微調版本來實現高級推理、規劃、理解和其他功能。明年初,谷 歌將推出 Bard Advanced, 其將使用 Gemini Ultra, 這代表 Bard 發布以來的最大更新。
應用于Pixel8Pro 手機: 從發布會當天開始,Pixel8 Pro 手機的兩項功 能將由 Gemini Nano 提供支持:錄音機應用(Recorder)中的Summarize 等功能、WhatsApp Gboard 中的 Smart Reply。由于模型在手機中運行,因此兩者都可以離線工作,因此應該能擁有快速且原生的體驗。谷歌表示,Nano 的目標是 創建一個盡可能強大的 Gemini 版本,但同時不會占用手機的存儲空間或使處理器過熱。
在接下來的幾個月中,Gemini 將出現在谷歌更多的產品和服務中,例如搜 索、廣告、Chrome 和DuetAI。
外部用戶開放情況來看,谷歌計劃通過谷歌云將 Gemini 授權給客戶,供他們在自己的應用程序中使用。
12 月 13 日開始,開發者和企業客戶可以通過谷歌 AIStudio 或谷歌Cloud VertexAI 中的GeminiAPI(應用程序編程接口)訪GeminiPro,安卓開發 人員可以使用 GeminiNano 完成構建。
【全球巨頭角逐激烈,AI 算力需求增長和應用場景或拓寬】
谷歌作為全球人工智能龍頭之一,無論在算力、算法還是商業化各個方面都 積蓄了優勢,Gemini 系列大模型的如期推出,打破此前市場關于延期發布的傳 聞,同時 Gemini 系列在傳統文本領域以及多模態領域能力均對標 GPT-4,總體超出市場預期。
隨著人工智能巨頭在大模型領域的競爭依然白熱化,在此背景下繼續看好 AI 算力需求的增長,同時當下對于多模態 AI 的激烈角逐也將持續拔升大模型的 整體能力水平,有助于不斷拓展大模型的應用場景和邊界,想象空間廣闊。
當前,我國通用人工智能產業政策逐步完善,國產大模型能力持續升級。美國對華半導體出口管制升級,將倒逼我國國產 AI 芯片產業鏈加快成熟。隨著國產大模型廠商和 AI 芯片廠商的持續發力,我國 AIGC 產業未來發展前景廣闊。
算力方面:海光信息、中科曙光、紫光股份、浪潮信息、龍芯中科、神州數碼、寒武紀、景嘉微
算法方面:科大訊飛、海天瑞聲、拓爾思、零點有數、匯納科技、中科創達
應用場景方面:金山辦公、萬興科技、拓爾思
網絡安全方面:啟明星辰、電科網安、銳捷網絡
我們篩選出以下潛力標的
海光信息(688041) 海光 DCU 協處理器主要部署在服務器集群或數據中心,為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數據處理任務,應用于大數據處理、人工智能、商業計算等計算密集類應用領域。
零點有數(301169) 公司應用人工智能技術,開發數據智能應用軟件,在智能政 務、智能警務、智能稅務和供應鏈智能化管理領域已有持續擴展的研發積累和客戶合作。其中在人工智能技術的算法技術產業化方面,公司目前是積極的引領者之一。
萬興科技(300624) 公司致力于通過軟件技術創新和產品能力提升助力新生代創作者高效、便捷創作。目前公司已布局虛擬數字人、虛擬場景、虛擬直播等創新 業務,并與近日在2022全球元宇宙大會論壇上宣布布局AIGC賽道,公司旗下首款AI繪畫軟件“萬興AI繪畫”正式開啟公測。
參考資料: 平安證券-計算機行業動態跟蹤報告:多模態能力表現亮眼,谷歌攜Gemini 王者歸來-231208.pdf
免責聲明:
本文由投資顧問:馮利勇(執業證書編碼: A1280620060001)、 何軍(執業證書編碼: A1280621060001)、 羅力川(登記編號: A1280622110002) 等編 輯整理,僅代表團隊觀點,任何投資建議不作為您投資的依據,您須獨立作出投 資決策,風險自擔。請您確認自己具有相應的權利能力、行為能力、風險識別 能力及風險承受能力,能夠獨立承擔法律責任。所涉及個股僅作投資參考和學習交流,不作為買賣依據。投資有風險,入市需謹慎!
審核編輯 黃宇
-
谷歌
+關注
關注
27文章
6168瀏覽量
105393 -
AI
+關注
關注
87文章
30896瀏覽量
269111 -
算力
+關注
關注
1文章
977瀏覽量
14822
發布評論請先 登錄
相關推薦
評論