這一年,大模型熱潮迭起,1000天以后,5000天以后我們將面對什么,大模型會將人類帶向何處?
對話嘉賓:
蔣濤,CSDN 創始人&董事長,中國開源軟件推進聯盟副主席。曾領導開發了巨人手寫電腦、金山詞霸和超級解霸。1999 年創辦 CSDN。CSDN 是中國專業開發者社區平臺,全球開發者社區網站排名第二,目前注冊會員超過 4700 萬,覆蓋全球 95 %中文開發者群體。在開源開放的新時代,CSDN 致力于打造開發者工具生產力入口,共建中國十萬億技術大生態。
顏水成,現任昆侖萬維天工智能聯席 CEO 和 2050 全球研究院院長,是一位在計算機視覺和機器學習領域享有國際聲譽的專家,曾任 360 集團人工智能研究院院長、首席科學家,依圖科技首席技術官,并曾在 Sea 集團擔任首席科學家;他是新加坡工程院院士、AAAI Fellow、ACM Fellow、IEEE Fellow、IAPR Fellow 等多個國際學術組織的成員。顏水成的研究領域包括計算機視覺、機器學習、深度學習等,在頂級國際學術期刊和會議上發表的論文引用量超過 90,000 次, H-index 超過 140,八次被評為年度全球“高被引科學家”。
計算機視覺、機器學習領域國際頂級專家顏水成在學術界鉆研 8 年、工業界實踐 8 年,今年 9 月正式宣布加入昆侖萬維,出任天工智能聯席 CEO,并兼任昆侖萬維 2050 全球研究院院長。 長期以來,業界的目光聚集于他,為什么是昆侖萬維?對人工智能領域而言意味著什么?在大模型火熱發展的當下,他試圖以 Foundation Models(基座大模型)為基準點,探尋通往通用人工智能領域的道路。 自昆侖萬維的天工大模型在今年 4 月正式發布并啟動邀請測試以來,一直以較快的節奏發布更新,也始終在百模大戰中保持著一定的競爭力。11 月,「天工」大模型通過《生成式人工智能服務管理暫行辦法》備案,面向全社會開放服務。緊接著,昆侖萬維正式開源了「天工 Skywork-13B 系列」。
13B,在顏水成看來是最適合商用的尺寸,未來將迸發出多大能量?他一直追求學術界和工業界的 Double Satisfactions,產學研的有機結合能否在 Foundation Models 領域結出碩果?令人期待~ 本期《濤滔不絕》,CSDN 創始人&董事長、中國開源軟件推進聯盟副主席蔣濤與天工智能聯席 CEO、兼任昆侖萬維 2050 全球研究院院長顏水成,從 AGI 的本質談到基座大模型的重要性,從基座大模型到“更高一層”的 Agent 智能體,帶領我們探尋 AI 發展更高維度的世界。
AGI 未來會是所有數字系統的底座 蔣濤:當前國內外有各種開源大模型扎堆涌現,中國也面臨著百模大戰,昆侖萬維在今年 11 月正式開源「天工 Skywork-13B 系列」,為什么那么多企業要做基座大模型?
顏水成:業界探索基座大模型的核心可能認為它是未來 AGI 的核心。未來 AI 的能力都會由基座大模型產生。AGI 是人工智能領域的一個最重要的方向,它的目標是實現通用的人工智能。而基座大模型正是這個目標的關鍵所在。通過構建一個通用的知識平臺,我們可以將人工智能的能力擴展到更多的領域,實現更廣泛的應用。當然你也可以圍繞大模型去做周邊應用,或者垂直的場景,但如果真的打算擁抱 AGI,就必須真正觸及基座大模型。另一方面,無論是大、小公司,也都希望在 AGI 最核心的部分展現自己的實力。
蔣濤:AGI 未來會是所有數字系統的底座,或者是新一代操作系統嗎?
顏水成:可以這樣理解。AGI 很有可能成為新一代的操作系統,但這個過程需要時間。AGI 的目標是實現通用的人工智能,它需要整合各種技術和資源,包括計算機視覺、自然語言處理、語音識別等領域。只有當 AGI 能夠實現這些技術的無縫集成和協同工作時,它才能成為新一代的操作系統。 在深度學習那一代通常涉及一個垂直領域,我們可以利用垂直領域的數據進行分析。現在趨勢不同了,我們可能首先要構建一個基座大模型。在文本領域和其他領域,基礎模型已經包含了通用知識。這樣在前往另一個領域時,不再僅依賴該領域的知識,而是將基座模型的能力遷移到垂直領域即可。
蔣濤:想要加入 AGI 領域的年輕人需要具備哪些能力?
顏水成:首先要具備扎實的計算機科學和數學基礎。此外,他們還需要具備創新思維和敏銳的洞察力,以便在 AGI 領域的研究和應用中取得突破。同時,他們還需要具備勇于探索和挑戰的精神,積極面對新技術和新領域帶來的挑戰和機遇。
“我們仍未到達基座大模型的臨界點”
蔣濤:能詳細談談什么是基座大模型嗎?為什么它在中國如此重要?
顏水成:基座大模型是構建在通用知識上的大型語言模型。它的核心理念是利用人類的通識知識,通過不斷地學習和訓練,實現更廣泛的應用。在中國百模大戰的局面下,建立基座大模型的重要性就顯而易見了。
蔣濤:你認為我們需要多少個基座大模型?
顏水成:早期,大家可能認為一個基座大模型就可以應用于不同場景,但實際上仍存在一些問題。你會發現,如果將所有場景和知識都用一個基座大模型來操作,推理成本會非常高,用戶需要支付的費用也會很高。在當前場景下,相對現實的情況是,讓基座大模型體量偏向中型或小型。在一個垂直領域里,利用數據進行 fine tuning,然后獲取垂域里的數據,訓練得到一個相對較小的模型。可以在保證模型效果不錯的情況下,大幅降低推理成本,商業應用也做得更好。4B、5B 屬于中型,70B 和 100B 算是中大型了,在 13B 的模型很多場景下,推理成本會更容易接受。
蔣濤:不同參數量的模型能力存在差距,千億參數的模型明顯出現了質變,涌現能力出現了。國內外都在努力拼數據量,參數不斷提升的同時,能力一定隨之提升嗎?
顏水成:在中國,我們還沒有達到數據和模型大小的穩態,在數據不斷增加、算力和資源不斷提升以及模型大小不斷提升的情況下,模型最終展現的綜合能力仍在不斷提升,也就是說中國還沒有達到臨界點。到達臨界點以后意味著,即便再增加資源進去,模型的能力也不會再增加。也許一兩年內我們都無法達到這個臨界點。
蔣濤:大模型下一步的發展方向是?
顏水成:從大模型向多模態模型遷移是一大趨勢。在遷移時,通常會將圖像或聲音 Token 化,之后將其串聯起來形成一個長序列,它代表了原始圖像或聲音的數字化表示。業界期待大部分問題未來可以通過 Token generation 的形式解決,文本是一個起點,多模態模型可能是大模型的最終結局。
國內企業與 OpenAI 的差距,不止是 500 塊 GPU 蔣濤:你有很多跨國經歷,可以談談當前國內大模型與 LLaMA 2 等開源模型相比,差距在哪里嗎?
顏水成:在幾個月前,你可能會感覺到還有較大差距。但近幾個月,你會發現國內陸續發布的模型在能力維度上已經有所提升,展現出可以與之抗衡的實力。我認為到年底,可能會有好幾個公司推出新的模型,其性能將與之持平。 OpenAI 的首席科學家曾表示,大模型的性能都是由各種小的 trick 逐步堆積起來的,數據量、數據質量和數據配比是非常重要的。另一個方面是訓練系統,效率非常重要,包括硬件和軟件兩個維度。硬件可能有性能天花板,而軟件如果配置和操作優化都比較好,是能夠發揮出硬件的極限能力的。還有很多各具特色的優化器可以結合起來,提升性能。
蔣濤:所以對國內來說,追平只是時間和迭代的問題嗎?
顏水成:當前業界的共識,要追趕到 GPT-3.5 水平,中國還是有很大可能性的,剩下的只是時間問題,需要不斷趟坑、做實驗,逐漸了解通往 GPT-3.5 的路線。但要實現這個目標的周期可能會比 OpenAI 用時更長。畢竟在中國,無論是哪家公司,在人才密度上與 OpenAI 相比差距都非常大。同時,OpenAI 的算力資源也要高出一個量級,據說平均每個人有 500 塊 GPU 資源可以進行各種實驗。在中國,當前大部分公司可能幾個人共有 500 塊 GPU 資源。
蔣濤:這里的人才密度是指 AI 研究工程師還是 infrastructure 工程師?如果人才數量固定,那么配套的資源和方向更為關鍵嗎?
顏水成:要想把人“練出來”必須要投入。就像訓練飛行員一樣,需要投入足量資源。一方面,由于資金和設備有限,我們訓練出真正強的人才數量非常少。另一方面,我們現在面臨的是外部競爭,團隊過多且分散。如果卡能集中,說不定效果會更好一點。
蔣濤:國內有可能在多模態階段與美國同步嗎?
顏水成:我個人認為在多模態的方法論上,亞洲不算落后,但從單模態向多模態發展時,最大的問題還在數據方面。要想獲取多模態數據,中國目前在質量上會落后不少。另外,當單模態向多模態轉變,處理視頻時實際所需的算力資源會成倍增加。本來我們在算力資源方面還存在距離。中文語料的質量與英文預料還是有差距。一方面是因為在互聯網上發布文本或信息的特點,中國與美國有所不同,我們需要對這些數據進行清洗。另一方面,在視頻領域,優質的視頻生產量、用戶和交互量都與美國有差距。這也導致我們面臨較大挑戰。
關于昆侖萬維:邁過人工智能的奇點
蔣濤:昆侖萬維從 2020 年開始布局 AIGC 和大模型領域,其創始人周亞輝是如何看待大模型問題?你為何在今年選擇加入其中?
顏水成:在學術界鉆研 8 年,工業界實踐了 8 年后,我選擇來到昆侖萬維展開通用人工智能的研究,同時建立 2050 全球研究院,在新加坡、英國劍橋以及硅谷建立相應分院。原因有幾個方面。我認為昆侖萬維創始人的前瞻性非常好。昆侖萬維在最初探索大模型時,大約在 2020 年,即 GPT-3 剛出爐時,其驚人的效果讓幾位創始人感受到 AI 新時代即將到來,應該向此前進。這也導致昆侖萬維一大優勢在許多重要方向剛剛萌芽時,創始人已經提前布局。 它的另一個特點是現有業務中 80%多的收入來自海外,包括 Opera、游戲以及一些娛樂類產品,在全球范圍內,如東南亞、非洲地區也發展得非常好。我決定加入還有一個重要原因,在中國香港、美國和新加坡等地方都待過的我,很喜歡具有全球化背景的企業,帶來很多新機會的同時,也能讓 AGI 技術在不同國家發揮其優勢。
蔣濤:創立 2050 全球研究院的目的是什么?
顏水成:昆侖萬維創始人周亞輝曾提到,有一本書中預測,人工智能的奇點可能是 2049 年。我們將研究院命名為 2050,意味著期待團隊走在通往通用人工智能的正確道路上,并且能夠邁過那個奇點。我們要跨過通用人工智能到來的那一天。
蔣濤:今年被稱為 AGI 元年,你怎么看?昆侖萬維是如何布局的?
顏水成:在我看來,AGI 的真正表現形式是 Agent, 是一個智能體。智能體可以利用大模型、真實的人、其他智能體以及從虛擬世界中獲取的各種工具,完成人類下達的任何一個任務。現在的大模型實際上是大腦知識庫的壓縮,而 Agent 相當于一個與人對等的實體。在我看來,Agent 比基座大模型要更高一層。非常重要的一點是:Agent 需要具備自我演化能力,這意味著,Agent 可以借助與所處環境的交互進一步提升自己的智能。 2050 研究院的創始人希望公司堅持長期主義。在新加坡、英國倫敦以及美國硅谷三個不同的地方設立了研究院,倫敦實行完全的長期主義,主要做前沿研究,對當前業務沒有直接作用,但有助于投資和未來布局。在新加坡和硅谷,更偏向于 AGI 研究。關注兩個維度,一個維度是基座大模型 2.0,另一個維度是 Agent。
基座大模型 2.0 也分為三個方向:下一代的基座大模型的結構及其應用;推理和訓練效率提升;大模型理論問題,針對可解釋性等相關方向進行研究。 而 Agent 我們將其分為兩個部分:一個是虛擬世界的 Agent,即將業務或場景數字化后,在數字世界中的存在的 Agent。另一個是物理世界的 Agent,它需要與移動設備打通,利用移動設備上的多模態信息如視覺、聽覺和觸覺等,然后根據指令調用特定模型,決定下一步應該做什么事情。這兩條線會同時向前推進。我們希望研究、研發和產品三者能夠實現一致性。
蔣濤:昆侖萬維有哪些地方應用了 AIGC? 顏水成:我們的 AI 業務線分為六條線,天工大模型、AI 搜索、AI 游戲、AI 音樂、AI 動漫、AI 社交。這六條線都是以新的產品向前推進,大部分產品都處于可以內測的狀態。 我非常興奮的一點是,昆侖萬維不僅專注于做模型,還推出新產品來牽引研發和研究向前發展,現在的問題是產研是否能打通。
追求學術界與工業界的雙重滿足
蔣濤:在 AI 領域,尤其需要學者的共同努力。在學術研究與實際工程化之間,如何實現有機結合?
顏水成:我一直追求在學術界和工業界的雙重滿足,盡管客觀上較難,但在我的學生中,確實有很多人做得非常好。 我認為學者與工程師還是有一些分工比較好,讓學者集中于“從 0 到 1”的工作,而工程師專注于“1 到 100”的工作。因為學者傾向于長期探索,創造一種可能性,工程師則更希望短期內能快速落地,需要將工匠精神發揮到極致。一個團隊里這兩種人都不可或缺,聚集在一起才能確保研究進度和完備性。
蔣濤:在大模型團隊里怎樣的配比更好? 顏水成:在大模型團隊里,工程能力可能更重要,學者與工程師的配比至少是 1:3。業界認為大模型已經逐漸成為一種工程問題,想實現 GPT-3.5,我也認為工程問題非常關鍵。
技術的發展正在超越想象力的邊界
蔣濤:在多模態取得突破后,Agent 是否會有較大進展?
顏水成:進展會非常大,在接下來的三年里,Virtual Agent 可能會占主流,主要原因是需要的多模態數據是有基礎的。如果是研究 physical Agent,就需要與物理世界相互作用,但是出于安全性顧慮,獲取大量數據的可能性會相對小很多。盡管 Simulation to Real 可以解決將模擬環境中的算法遷移到真實世界中的問題,但這需要更長的時間。距離 Physical Agent 真正大規模到來應該還需 10 年,才能初見端倪。 Agent 在技術路線上并非遙不可及。我經常舉個例子,大約在 7 年前,有個學生告訴我,他想做一個項目:輸入文本直接產生圖像。當時我訓了他一頓,認為這是 impossible mission。但現在,文生圖的問題基本上已經解決了。從未來的 7 年來看,我們有足夠長的時間來產生一代技術的變革。
顏水成:如果全面考慮生活的各個維度,未來你最想要讓 AGI 為你提供哪些功能?
蔣濤:我需要一個機器人擴展自己的能力邊界。可以通過 Agent 辦很多事,所有事情變得越來越智能。從前看科幻小說,經常會想象有個小精靈在旁邊隨時幫助我,那是我最想要的。
蔣濤:未來的 1000 天會如何?以及 5000 天后會如何?顏水成:如果是 1000 天,可能 Virtual Agent 已經開始大行其道,而 5000 天,可能是 Physical Agent 已經開始步入我們的視野了。未來,在電腦和手機上,它們能幫你非常智能地完成各種任務。帶上蘋果公司的 vision PRO,迅速完成各種事情,在 1000 天的時間尺度上,我認為值得期待。如果是 5000 天, Physical Agent 可能已經到了一個相對可用的時代,即已經有一些可以服務人的成熟產品。
審核編輯:黃飛
評論
查看更多