前言:
每一次技術的變革都是推進科學發現、加快人類進步和改善人們生活的機會。我相信我們此時正在見證的 AI 轉變將是我們一生中影響最為深遠的轉變,其影響力遠超過移動技術或互聯網的轉變。AI 有著為世界各地的人們創造機會的潛力,無論是在日常生活中還是在鑄就非凡成就方面。它將帶來新一輪的創新和經濟進步,并以前所未有的規模推動知識、學習、創造力和生產力的發展。
讓我感到興奮的是:有機會讓 AI 助力全世界的每個人。
作為一家“AI 為先”的公司,我們已經走過了近八年的旅程,并且一直在不斷加速進步:現在,數百萬用戶通過我們的產品使用生成式 AI,去完成一年前不可能做到的事情,例如獲得更復雜問題的答案,或使用新的工具進行協作和創造。與此同時,開發者正在使用我們的模型和基礎架構來構建新的生成式 AI 應用,世界各地的初創公司和企業也在借助我們的 AI 工具不斷發展壯大。
這是令人難以置信的發展勢頭,然而,我們才剛剛開始觸及這些可能性的表面。
我們正以大膽而負責任的方式開展這項工作。這意味著我們在研究中保持雄心勃勃,追求為人類和社會帶來巨大福利的能力,同時建立安全保障措施,并與政府和專家合作,應對隨著 AI 能力不斷增強而帶來的風險。我們還持續投資于最優秀的工具、基礎模型和基礎設施,在遵循我們 AI 原則的基礎上,將它們引入我們的產品和其他領域。
現在,我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今為止最強大、最通用的模型,它在許多領先的基準測試中都展現出了最先進的性能。我們的第一個版本 Gemini 1.0 針對不同尺寸進行了優化,分別是:Ultra、Pro 和 Nano。這些是進入 Gemini 時代的第一個模型,也是我們今年早些時候成立 Google DeepMind 時的愿景的首次實現。這一新時代的模型代表了我們作為一家公司在科學和工程方面所做的最大努力之一。我對未來以及 Gemini 將為全世界的人們帶來的機遇感到由衷的興奮。
—— Sundar
Google 和 Alphabet CEO
介紹 Gemini
作者:Demis Hassabis
Google DeepMind CEO 和聯合創始人,
代表 Gemini 團隊
與許多從事研究的同事一樣,我一直把 AI 當作畢生工作的重點。從少年時為電腦游戲編寫 AI 程序,到多年來作為神經科學研究員試圖了解大腦的工作原理以來,我始終堅信,如果能制造出更智能的機器,我們就能利用這些機器以不可思議的方式造福人類。
以負責任的方式用 AI 賦能世界,這一承諾將繼續推動我們在 Google DeepMind 的工作。長期以來,我們一直希望從人們理解世界和與世界互動的方式中汲取靈感,建立新一代 AI 模型。AI 給人的感覺將不再僅僅是一款智能軟件,它將更加有用且直觀,就像是一個專業的幫手或助理。
今天,當我們推出 Gemini 時,我們離這一愿景又近了一步,這是我們迄今為止構建的最強大、最通用的模型。
Gemini 是包括 Google Research 在內的 Google 各團隊間進行廣泛合作的成果。它從一開始就被創建為多模態的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
Gemini 也是我們迄今為止最靈活的模型,從數據中心到移動設備,它能夠在所有設備上高效運行。其先進的功能將顯著改善開發者和企業客戶通過 AI 構建和擴展的方式。
我們針對三種不同的尺寸對第一代 Gemini 1.0 進行了優化:
Gemini Ultra—我們規模最大且功能最強大的模型,適用于高度復雜的任務。
Gemini Pro — 我們適用于各種任務的最佳模型。
Gemini Nano — 我們端側設備上最高效的模型。
先進的性能
我們一直在對 Gemini 模型進行嚴格的測試并評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。
Gemini Ultra 的得分率為 90.0%,是第一個在 MMLU(大規模多任務語言理解)測試中超過人類專家的模型,MMLU 綜合使用了數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試世界知識和解決問題的能力。
針對 MMLU,我們新的基準測試方法讓 Gemini 能夠利用其推理能力在回答困難問題之前更加仔細地思考,從而比僅憑第一印象就直接回答問題有顯著的改善。
在包括文本和編碼在內的一系列基準測試中,
Gemini 的性能都超過了當前最先進的水平。
在新的 MMMU 基準測試中,Gemini Ultra 也取得了得分率為 59.4% 的優異成績,該基準測試由橫跨不同領域、需要仔細推理的多模態任務組成。
在我們的圖像基準測試中,Gemini Ultra 在不使用對象字符識別 (OCR) 系統來提取圖像中的文本進行下一步處理的情況下,表現優于以前最好的模型。這些基準測試凸顯了 Gemini 的原生多模態性,并顯示出了 Gemini 具有更復雜推理能力的潛力。
在一系列多模態基準測試中,
Gemini 的性能超越了當前最先進的水平。
下一代的能力
到目前為止,創建多模態模型的標準方法是分別訓練不同模態的組件,然后將它們拼接在一起,以粗略模擬某些功能。這些模型有時可以很好地完成描述圖像等特定任務,但在概念性更強、更復雜的推理方面卻顯得力不從心。
我們將 Gemini 設計為原生多模態,從一開始就在不同模態上進行預訓練。然后,我們利用額外的多模態數據對其進行微調,以進一步提高其有效性。這有助于 Gemini 從最初階段就能對輸入的各種內容順暢地進行理解和推理,遠遠優于現有的多模態模型,其能力幾乎各個領域都是最先進的。
復雜的推理
Gemini 1.0 具有復雜的多模態推理能力,可幫助理解復雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。
它擁有通過閱讀、過濾以及理解信息,從數十萬份文件中提取見解的卓越能力,將有助于在從科學到金融等多個領域以數字化速度實現新的突破。
理解文本、圖像、音頻及更多
Gemini 1.0 經過訓練,可以同時識別并理解文本、圖像、音頻等,因此它能更好地理解具有細微差別的信息,回答與復雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等復雜科目中的推理。
高級編碼能力
我們的第一代 Gemini 可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼。它能夠跨語言工作并對復雜信息進行推理,這些能力使其成為世界領先的編碼基礎模型之一。
Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用于評估編碼任務性能的重要行業標準)和 Natural2Code(我們內部的留出數據集),該數據集使用作者生成的信息作為來源,而不是基于網絡的信息。
Gemini 還可用作更高級編碼系統的引擎。兩年前,我們展示了 AlphaCode,它是第一個在編程競賽中性能達到競賽水平的 AI 代碼生成系統。
我們利用一個專門版本的 Gemini,創建了更先進的代碼生成系統 AlphaCode 2,該系統擅長解決那些不僅需要編碼能力而且也需要復雜數學和理論計算機科學知識的競賽性編程問題。
在與最初的 AlphaCode 在同一個平臺上進行評估時,AlphaCode 2 表現出了巨大的改進。它解決的問題數量幾乎是 AlphaCode 的兩倍,我們預計它的性能超過 85% 的參賽者,比 AlphaCode 高出將近 50%。當程序員與 AlphaCode 2 合作,為示例代碼定義某些屬性時,它的表現甚至更好。
我們很高興程序員能越來越多地使用功能強大的 AI 模型作為協作工具,幫助他們推理問題、提出代碼設計方案并協助實施,這樣他們就能更快地發布應用程序并設計出更好的服務。
更加可靠、可擴展和高效
我們使用由 Google 設計的 TPUs v4 和 v5e 在通過 AI 優化過的基礎設施上對 Gemini 1.0 進行了大規模訓練。我們將其設計為最可靠、可擴展性最強且推理最高效的模型來進行訓練。
在 TPUs 上,Gemini 的運行速度明顯快于早期規模更小、性能更弱的模型。這些定制設計的 AI 加速器一直是 Google 服務數十億用戶的 AI 賦能產品的核心,如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android。它們還使得世界各地的公司能夠經濟高效地訓練大規模的 AI 模型。
今天,我們還發布了迄今為止功能最強大、效率最高且可擴展性最強的 TPU 系統 Cloud TPU v5p,旨在為訓練前沿 AI 模型提供支持。新一代 TPU 將加速 Gemini 的開發,幫助開發者和企業客戶更快地訓練大規模生成式 AI 模型,從而更快推出新產品和新功能。
Google 數據中心內一排 Cloud TPU v5p AI 加速器超級計算機。
以責任和安全為核心
在 Google,我們致力于在所有工作中以大膽而負責任的方式推進 AI。在 Google AI 原則和我們所有產品的強大的安全政策的基礎上,我們正在增加新的保護措施,以滿足 Gemini 的多模態能力。在開發的每一個階段,我們都會考慮潛在的風險,并努力進行測試和降低這些風險。
Gemini 擁有迄今為止 Google 所有 AI 模型中最全面的安全評估,包括偏見和毒性評估。我們對網絡攻擊、說服力和自主性等潛在風險領域進行了創新性的研究,并應用了 Google Research 一流的對抗性測試技術,幫助我們在部署 Gemini 之前檢測關鍵的安全問題。
為了找出我們內部評估方法中存在的盲點,我們正與多個外部專家和合作伙伴合作,通過涵蓋多個問題的壓力測試來對我們的模型進行測試。
為了在 Gemini 的訓練階段診斷內容安全問題,并確保其輸出符合我們的政策,我們使用了一些基準測試,例如真實毒性提示(Real Toxicity Prompts),這是一套由 Allen Institute of AI 的專家開發的基準測試,包含了從網絡上提取的 10 萬條具有不同程度毒性的提示。我們將在未來介紹關于該項工作的更多細節。
為了減少傷害,我們構建了專門的安全分類器來識別、標記和篩選涉及暴力或負面刻板印象等方面的內容。結合強大的過濾器,這種分層方法旨在讓 Gemini 對每個人都更加安全和包容。此外,我們正繼續解決模型面臨的已知挑戰,例如事實性、基礎、歸因性以及協作性。
責任和安全始終是我們開發和部署模型的核心。這是一個需要多方協作的長期承諾,因此我們正在通過 MLCommons、Frontier Model Forum 及其 AI Safety Fund ,以及我們的安全人工智能框架(SAIF)(該框架旨在幫助減少公共和私營部門的AI系統的安全風險)等組織與業界和更廣泛的生態系統合作,設定最佳實踐以及設定安全標準。在開發 Gemini 的過程中,我們將繼續與世界各地的研究人員、政府和社會團體合作。
讓 Gemini 普及全球
Gemini 1.0 現已在多種產品和平臺上推出:
Google 產品中的 Gemini Pro
我們通過 Google 的產品將 Gemini 帶給數十億人。
從今天開始,Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、規劃和理解等。這是 Bard 自推出以來最大的升級。
它將在 170 多個國家和地區提供英語服務,并且我們計劃在未來幾個月內擴展不同的模態,并支持新的語言和地區。
我們還在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭載 Gemini Nano 的智能手機,它可以支持錄音應用中的“總結”等新功能,并在 Gboard 中推出“智能回復”功能,從 WhatsApp 開始,明年還將推出更多信息應用。
未來幾個月,Gemini 將應用于我們更多的產品和服務,如 Search、Ads、Chrome 和 Duet AI。
我們已經開始在 Search 中試驗 Gemini,它能夠為用戶提供更快的搜索生成體驗(SGE),用戶在美國的英語搜索延遲降低了 40%,同時在質量方面也有所提高。
用 Gemini 打造您的產品
從 12 月 13 日開始,開發者和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。
Google AI Studio 是一款基于網絡的免費開發者工具,可使用 API 密鑰快速創建原型并啟動應用程序。當需要一個完全托管的 AI 平臺時,Vertex AI 允許對 Gemini 進行定制,提供全面的數據控制,并受益于 Google Cloud 功能,實現企業安全性、保密性、隱私性以及數據治理和合規性。
Android 開發者還可以通過 AICore 使用我們端側任務最高效的模型 Gemini Nano。AICore 是 Android 14 中的一項新的系統功能,從 Pixel 8 Pro 設備開始支持。注冊獲得 AICore 預覽。
敬請期待 Gemini Ultra
就 Gemini Ultra 而言,我們目前正在完成大規模的信任和安全檢查,包括由可信賴的外部團隊進行紅隊測試,并在其被廣泛使用前通過微調和人類反饋強化學習(RLHF)進一步完善模型。
在模型的完善過程中,我們將向部分客戶、開發者、合作伙伴以及安全和責任專家提供 Gemini Ultra,以供其進行早期試驗和提供反饋。隨后,在明年初我們將向開發者和企業客戶提供該模型。
明年年初,我們還將推出 Bard Advanced,這是一種全新的、前沿的 AI 體驗,讓您可以從 Gemini Ultra 開始使用我們最佳的模型和功能。
Gemini 時代:推動創新未來
這是 AI 發展過程中的一座重要里程碑,也標志著 Google 邁進新紀元的開始,我們將繼續快速創新,并以負責任的方式不斷提升我們模型的能力。
迄今為止,我們已經在 Gemini 上取得了巨大進展。我們正在努力進一步擴展其未來版本的各種功能,包括在規劃和記憶方面取得進展,以及通過增加上下文窗口來處理更多信息并提供更好的響應。
我們對負責任的 AI 為世界帶來的無限可能感到興奮,我們的創新未來將提高創造力、擴展知識、推動科學發展,并將改變全球數十億人的生活和工作方式。
-
谷歌
+關注
關注
27文章
6179瀏覽量
105743 -
AI
+關注
關注
87文章
31359瀏覽量
269762
發布評論請先 登錄
相關推薦
評論