ChatGPT 的爆火掀起了 AI 大模型熱潮,也進一步拉動了算力需求的爆發,面對呈指數級增長的算力需求,如何用得起、用得上、用得好算力成為大家普遍關心的問題。那么,在大規模 AI 模型訓練中,如何保證算力的高效利用?有哪些技術或方法可以提升訓練的效率和穩定性?AIGC 應用如何下沉到終端?近日,InfoQ《極客有約》邀請到了英特爾中國技術部總經理高宇,為大家分享《AIGC 時代,如何提升端側算力利用效率?》。
以下為訪談實錄,完整視頻參看:https://www.infoq.cn/video/w4UPiNImmKac6OSgpEiP
姜雨生:歡迎大家來到 InfoQ 極客有約,我是今天的特邀主持人,微軟軟件工程師姜雨生。本期直播,我們邀請到了英特爾中國技術部總經理高宇老師來給我們做分享。今天的直播主題是《AIGC 時代,如何提升端側算力利用效率?》。先請高宇老師給大家做一個簡單的介紹。
高宇:InfoQ 的朋友們,大家晚上好。我是高宇(Gary Gao),來自英特爾中國,負責英特爾中國技術支持團隊的工作。今天,我非常榮幸與大家分享關于在端側實現 AIGC 的熱門話題。
生成式 AI 技術的發展與挑戰
姜雨生:去年推出的 ChatGPT 引起了廣泛關注,掀起了大型 AI 模型的熱潮,企業和個人對算力的需求呈現出爆發性增長。這輪 AI 算力需求的爆發給您帶來最大的感受是什么?行業發生了哪些變化?
高宇:這一輪生成式 AI 熱潮確實代表了技術上的一個重大突破,無論是給消費者、商業客戶還是數據科學家,都帶來了巨大的潛力和影響。從去年 ChatGPT 3.5 正式發布以來,它展示出的智能和生成文本的能力讓整個學術界、消費市場和最終用戶都感到震驚。在短時間內,ChatGPT 3.5 已成為全球最受歡迎的應用之一,這一成就令人印象深刻。我認為,它對整個行業的影響可以從正面和挑戰兩個維度來分析。
從正面來看,首先,生成式 AI 極大地改善了用戶體驗。以前的搜索引擎和智能問答系統在知識方面相對固定,而生成式 AI 具有強大的學習和涌現能力,這是以前所沒有的。因此,用戶體驗得到了顯著改善。
其次,它激發了學術界和企業界對這項技術的研究興趣。在過去的半年里,全球企業和知名的學術機構都大量投入到生成式 AI 的研究中。這種巨大的資金和智力投入使我們相信未來幾年生成式 AI 的發展將非常迅猛,因為許多人都在進行相關研究和突破。
第三,我們看到生成式 AI 目前主要應用于人機對話,但我們更看好它在各種行業中,尤其是垂直行業中的應用潛力。例如,目前人們正在探討用于醫療領域的大型模型,專為銀行系統設計的大型模型,甚至為金融等垂直行業開發的模型。因此,我們對它在這些領域的應用前景非常期待。
當然,大型模型的出現和生成式 AI 的發展確實帶來了一些重要挑戰。在這方面,我們可以總結為以下幾點。
首先,幾乎所有大型科技公司都加入到了這個浪潮中。因此,這個領域的應用進展非常迅速,有時候可能會出現一些重復性工作,甚至資源浪費。
第二,數據隱私和可靠性是一個重大問題。個人數據的保護以及互聯網上的開源內容如何得到保護都是重要考慮因素。此外,還涉及到更深層次的問題,例如對問題的解釋、價值觀的取向和正確判斷等,這些都是全新的挑戰。
英特爾倡導的 AI 不僅關注性能和能力,還強調負責任的 AI。這也是領先廠商共同的理念,即人工智能的發展應該以對社會負責任的態度為基礎。總之,生成式 AI 對我們行業帶來了重要沖擊,后續我們可以深入探討這些挑戰的細節。
算力成本居高不下,如何找到破解之法?
姜雨生:無論是模型訓練還是模型調用,計算資源的需求都在不斷增加。這背后伴隨著高昂的成本,對許多企業而言,這成為了業務擴展的一道巨大障礙。您怎么看算力貴這一現象?隨著技術的發展,算力貴的現狀會有所改善嗎?
高宇:目前,大家都不得不承認算力成本有待解決。因此,大家都對這個行業的情況非常關注。我們可以分析一下導致算力成本上升的原因。
首先,運行生成實驗,特別是訓練模型所需的 GPU 性能相對較高,因此整個 GPU 以及 GPU 卡的成本較高,它需要更大的 GPU 芯片來提供更高的算力。此外,它還需要更快的內存,通常采用 HBM(High Bandwidth Memory,高帶寬內存)內存架構,這也增加了成本。再加上需要用 8 卡互聯的訓練機,整機的物料成本非常昂貴,這是導致成本高昂的原因之一。
第二,與之前提到的問題相關,現在幾乎所有人都涌入了這個行業,導致了短期內供大于求的情況。一度出現了 GPU 卡供不應求的情況,這已經從去年年底開始,需求量大但供應相對不足。
第三,整個大型 GPU 服務器或智算中心的運營成本極高,包括場地和能源消耗。一個標準的 GPU 服務器機柜功耗至少為 30 千瓦,而大多數數據中心機柜通常只能達到 10 千瓦到 20 千瓦之間,無法滿足 30 千瓦的要求,這也增加了成本因素。
當然,我們還需要考慮一點,因為生成式 AI 仍處于早期階段,所以在許多算法優化和資源利用方面還有改進的空間。因此,有望在未來降低算力成本。
姜雨生:在目前算力貴這個方向,英特爾目前有哪些相關的解決方案,這面方便給我們大概介紹一下嗎?
高宇:我們需要思考一個根本性問題,即如何應對昂貴的算力這一行業性的難題。我們有幾個想法,雖然稍后我們還會談及產品方面的問題,但現在我們首先想從行業角度提出一些大的思路。
首先,我們認為當前的推理部分應該更加分布式和層次化,充分利用云、邊緣和終端的不同層次來部署推理算力,以充分發揮算力性能。具體來說,我們的建議是在云端進行大規模的訓練,這是云側的任務。此外,云側適合大集群訓練,部署超大型模型,例如 ChatGPT 等超過 100 億的模型。第三,云側適合部署高并發的場景,即當用戶數量龐大時,需要同時滿足所有客戶的需求,這也需要云端來實現。
對于不屬于以上幾種情況的 AI 推理算力,我們建議將其下沉到邊緣側。如今,運營商和企業都擁有許多邊緣側數據中心,雖然這些數據中心規模較小,機器配置的算力相對較低,但足以支持多種類型的大型模型的推理。根據我們的判斷,大約在 10 億到 30 億之間的模型可以考慮部署在邊緣側,因為邊緣側可以使用性能稍微較低端的 GPU 卡或 CPU 進行推理,性能足夠。此外,在邊緣側部署可以提供更好的低延遲體驗,成本也較低。
下沉的第二步就是把它部署在端側。我們認為一些規模較小的模型,比如小于 10 億參數的模型,經過一定的優化和量化,以及低精度的比特量化后,完全可以部署到個人計算機(PC)或虛擬私有云(VPC)等設備上。將其部署到端側帶來兩個明顯的好處。首先,它的性能延遲是最低的,因為不需要經過網絡傳輸,減少了任何網絡延遲。此外,邊緣側部署還有一個重要的優勢,即對個人隱私的最大程度保護,因此數據泄露的風險幾乎不存在。因此,從大的原則上講,我們希望將大型模型轉化為云、邊緣和終端三層協同的架構,這應該是未來發展的趨勢之一。
姜雨生:有觀眾提問,在算力優化方面,我們業界還有沒有一些通用的方案?
高宇:我們了解到,在當前的研究領域中,一個備受關注的通用方案是針對低比特量化的優化。目前,大多數部署在云端的模型采用的是 FP16(16 位浮點數)的精度。然而,如果要將模型部署在邊緣側或終端側,通常的做法是首先將其量化為 INT8(8 位整數),然后可以進一步將其量化為更低比特位,如 INT5、INT4 或 INT3,這都是可能的,而且我們看到在這方面行業已經取得了一些顯著的進展。
AIGC 應用如何下沉到終端?
姜雨生:我認為開發者會積極采用 AIGC 的大型模型,因為這是未來的趨勢。在過去,我們主要在云服務器上運行 AIGC 應用,包括我自己目前使用的一些 Azure 云上的產品。但云端 AI 也存在延遲和各種限制等方面的一些短板。那么,AIGC 應用有下沉到終端的可行性嗎?
高宇:根據我們目前的研究成果,我可以告訴大家,針對英特爾的最新平臺,也就是第 13 代(以及后續推出的第 14 代,采訪時第 14 代酷睿尚未發布)酷睿處理器家族,我們已經取得了非常不錯的優化結果。這個平臺不僅適用于筆記本電腦,還包括臺式機。我相信許多開發者和用戶在購買電腦時都會選擇最新的酷睿平臺。
以第 13 代酷睿平臺為例,我們的優化結果可以使模型從 7 億參數到 18 億參數都能夠流暢運行。特別是在 7 億到 13 億參數范圍內,性能效果非常出色,即使超過 13 億參數,模型也可以運行,盡管速度稍慢,但我們認為基本上也可以滿足用戶的需求。當然,我們目前的優化主要是在 CPU 上進行的,但下一步我們將充分發揮平臺內的集成顯卡(IGPU)能力,以進一步提升速度。
此外,對于未來,我想提到最近引起廣泛關注的一項重要消息,那就是我們披露了英特爾即將發布的下一代平臺,內部代號為 Meteor Lake,正式品牌叫做 Core Ultra。這個平臺不僅具有強大的 CPU 算力,還將 GPU 算力提高了一倍,因此 GPU 算力非常強大。另外,它還內置了專用的 AI 加速器(NPU),可以提供超過 11 tops 的峰值算力。因此,在下一代平臺上,我們將能夠充分利用三種計算資源,包括 CPU、GPU 和 NPU 的算力,以實現更出色的性能。這是我們下一代平臺的亮點,敬請期待。
姜雨生:英特爾之前提出在 PC 端側跑 AIGC 應用,具體是如何實現的?在軟硬件層面是如何提升算力利用效率,實現算力優化的?
高宇:我來簡要介紹一下我們目前正在發布的開源框架,它叫做 BigDL,是專門為英特爾的處理器和 GPU 開發的一個低比特量化框架。感興趣的觀眾可以進入在 GitHub(https://github.com/intel-analytics/BigDL) 上查看,下載我們的 BigDL 開源代碼,進行實驗。
BigDL 有一些顯著特點。首先,它支持低比特量化,從 INT8 到 INT5、INT4、INT3 等各種低比特的數據精度,從而提供更好的性能,并減少內存占用。這一點尤其重要,因為在邊緣計算領域,除了性能挑戰之外,內存也相對較低,所以低比特量化是解決這個問題的一種方法。
此外,BigDL 支持多種平臺,包括英特爾的各種 CPU 系列,從 Xeon 處理器到酷睿處理器等。它還支持英特爾的各種 GPU 系列,包括英特爾 Flex 系列用于數據中心的專用顯卡以及英特爾銳炫( Arc) 系列面向消費者的顯卡。
姜雨生:我也確實感受到了在個人電腦上運行大型模型以及進行內容生成的可能性,特別是在我的個人電腦上裝備了這些硬件的情況下。實際上,我也想了解一下一些相關的技術,如果要大規模普及,關鍵的主要指標可能是顛覆,即用戶在他們的實際工作和生活中所體驗到的變革。那么 AI 能夠在端側帶給用戶哪些具體的體驗提升?
高宇:從我們現在的觀察來看,大型模型在端側用戶領域可能有幾個可能的應用場景。首先,大型模型可以成為每個用戶的個人超級助手。這種大型模型可以在云端運行,同時也可以通過我們剛剛提到的低比特量化技術在個人電腦上運行,從而提供更好的用戶體驗。這是第一個應用場景。
第二,它可以用于文檔處理,包括提取文檔的核心思想和糾正文檔中的語法錯誤等任務。對于這種應用場景,更適合將模型部署在端側,因為許多文檔包含一些個人屬性,用戶可能不愿意將其上傳到云端。
第三,我們觀察到大型模型,特別是 Diffusion 模型,在圖像生成方面具有出色的能力,這對于許多設計師來說是一個強大的工具。許多圖形、圖像和三維設計公司積極采用 Stable Diffusion 以及相關衍生模型,以幫助設計師生成各種圖片和畫面,從而實現事半功倍的效果。
姜雨生:將 AIGC 相關應用以預裝軟件的方式適配到未來的電腦中,是否是 PC 創新的一個新方向?它對于 PC 應用效率的提升是否有著大幅超越以往的預期?
高宇:當然,答案是肯定的。在未來的個人電腦上,無論是筆記本還是臺式機,它們的算力已經足以支持像 7 到 13 億級別的大型語言模型在本地運行。這種潛力已經存在,接下來我們可以期待不同的商業模式的出現。
首先,我們可能會看到一些商業軟件集成了中小型大語言模型,將其變成了生成式人工智能的專業商業軟件。這些軟件還有可能集成了 Stable Diffusion 等功能,從而成為一種可用于文本生成和其他工作流程的商業軟件。因此,可以期待在桌面平臺上出現集成生成式人工智能能力的商業軟件,這是一個可能的落地方式。
另外一種方式是鼓勵更多的 OEM 制造商,也就是個人電腦的品牌制造商,為自己的產品開發專門針對硬件優化的生成式人工智能軟件,并將其預裝在他們的電腦上,以提高最終用戶的體驗,使電腦更易于使用和更具趣味性。這種輔助性軟件可以提升用戶的使用體驗,增加趣味性,我認為這也是一個非常有潛力的方向。
端側運行大模型存在哪些挑戰?
姜雨生:有觀眾提問,端側跑這些大模型有沒有一些難點我也比較關注這個問題,端側跑大模型有沒有一些相對不適用的場景或內容?
高宇:端側與云側相比,目前存在兩大限制。首先,端側的計算能力明顯不如云端強大。這是顯而易見的。第二,端側的內存相對有限。當前,筆記本電腦和 PC 的主流配置通常為 16GB 內存。明年我們可能會看到更多配置為 32GB 內存的 PC,但即使是 32GB 內存,相對于云端來說,內存仍然有限。因此,端側需要應對以下兩個主要挑戰。
首先,模型的參數量需要受限,通常在 130 億以下。其次,必須進行低比特量化,這是一種必不可少的手段。經常有人問一個常見的問題,即將一個 FP16 模型量化為 INT4 后,精度損失似乎很大,這對大型模型的性能會產生什么影響?我們目前的基本結論是,在大型語言模型的情況下,從 FP16 到 INT4 后,回答問題的質量會略微下降,但下降幅度并不是很大。如果我們使用評分機制,原來的模型可能是 85 分的模型,經過量化后,可能會下降到 82 分左右,所以大致是一個個位數的質量下降。但是在內存方面,收益是非常大的,這是一個權衡。
然而,對于 Stable Diffusion 模型而言,如果將 FP16 量化為 INT8,整個圖像生成的質量下降會比較大。因此,對于運行穩定擴散模型的端側,我們仍然堅持使用 FP16。幸運的是, Stable Diffusion 模型的參數量不是很大,因此即使在端側,FP16 的性能也完全可以勝任。
姜雨生:在端側執行一些生成式內容和場景時,精確度并不是特別重要,尤其是對于一些模型復雜度不太高的情況來說,這種方式會更加合適。下一步,英特爾有哪些技術探索和產品規劃呢?有哪些技術難題是我們在未來需要解決的?
高宇:對于英特爾未來的產品規劃,目前英特爾在生成式 AI 領域有幾個主要的產品家族,可以從云端、邊緣和端側三個維度來介紹。
在云端,英特爾的關鍵產品是 Gaudi2,這是 英特爾 Habana 最新推出的產品。Gaudi2 具有非常高的算力性能,它還具有大容量的顯存,目前 Gaudi2 的配置為 96GB 的 HBM2 顯存,因此可以容納更多的模型。此外,英特爾還推出了專門針對中國市場定制的 Gaudi2 中國版本。云端英特爾還有一款產品叫做 Xeon HBM,它是一款針對大模型推理而設計的 CPU,內置了 64GB 的 HBM2 高速內存,這對于大型語言模型的推理性能提升非常有幫助。
邊緣側,英特爾推出了兩款顯卡產品,一款是英特爾 Flex 系列,另一款是銳炫( Arc) 系列。Flex 系列是為數據中心和服務器設計的無風扇 GPU 產品,而 Arc 系列則是面向消費者市場的顯卡,在算力方面也非常強大,可以滿足邊緣側推理的要求。這些產品將為邊緣側大模型推理和 Stable Diffusion 提供強大的支持。
總的來說,英特爾在生成式 A I 領域有一系列強大的產品,覆蓋了云端、邊緣和端側,為不同應用場景提供了多樣化的解決方案。
姜雨生:有觀眾提問,端側模型跟云端模型有可以配合的方式嗎?
高宇:端側模型和云端模型可以進行協同配合,一種可能流行的做法是由端側模型進行問題的初步預判斷。這個端側模型可以是相對輕量級的,用于判斷用戶問題的導向方向。如果這個初步判斷結果顯示性能足以在端側大模型上運行,那么模型可以在端側執行。但如果判斷需要更強大的計算能力,那么就可以將任務傳遞到云端進行更大型的模型推理。這種方式可能比較容易實現,因為它避免了對同一個模型進行拆分,盡管拆分模型也是一種可能的方式,但會更加復雜。
姜雨生:如果希望在個人電腦上運行之前所描述模型相關的內容,最低配置要求如何?
高宇:關于個人電腦的配置,主要取決于您的耐心和使用場景,當然這是個半開玩笑,但基本上,為了達到基本的用戶體驗要求,我們建議以下配置:
處理器(CPU):最好選擇第 13/14 代酷睿處理器,尤其是選擇 I7 或更高級別的型號。如果有預算,并且想要更出色的性能,選擇 I9 處理器會更好,正如我在之前的演示視頻中展示的那樣。
內存(RAM):至少 16GB RAM 是起點,但更好的選擇是 32GB RAM。此外,要注意內存的速度,因為現在的內存,尤其是 DDR5 內存,速度范圍從入門級的 5677 MHz,一直提升到高達 7233 MHz。內存速度越快,性能表現通常越好。再次強調,大型模型通常對內存帶寬要求較高,因此提高內存帶寬會帶來更大的性能收益。
散熱設計:除了硬件配置,還要考慮系統的散熱設計。良好的散熱設計可以讓 CPU 在 Turbo 模式下更長時間地運行,從而提高性能表現。
選擇適合需求的個人電腦配置是一個綜合考慮的過程。明年新發布的電腦新品通常會公布其運行大型模型的性能指標,用戶可以根據廠商提供的指標來選擇適合自己需求的配置,這應該會更準確地滿足你的期望。
當然了,我認為目前大模型仍然存在一些挑戰,尤其是在處理模型的一些幻覺問題方面,這個問題在整個行業中仍然是一個難點,需要不斷攻克。
-
cpu
+關注
關注
68文章
10873瀏覽量
212093 -
算力
+關注
關注
1文章
987瀏覽量
14854 -
大模型
+關注
關注
2文章
2477瀏覽量
2833
原文標題:當大模型被塞進PC:如何提升算力利用效率?
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論