大語言模型推理的改進(jìn)
LLM 的發(fā)展仍保持著驚人的速度。盡管現(xiàn)有的 LLM 已經(jīng)具備強大的功能,但通過 OpenVINO 的優(yōu)化和推理加速,可以對這些復(fù)雜模型的執(zhí)行進(jìn)行精煉,實現(xiàn)更快、更高效的處理,減少計算開銷并最大限度發(fā)揮硬件潛力,這將直接導(dǎo)致 LLM 實現(xiàn)更高的吞吐量和更低的延遲。
通過采用壓縮嵌入實現(xiàn)額外優(yōu)化,有效地縮減了 LLM 的編譯耗時與內(nèi)存占用。與此同時,基于英特爾銳炫GPU,以及英特爾高級矩陣擴展(Intel AMX)的第4代和第5代英特爾至強平臺之上,LLM 的第一個 token 處理性能得到了顯著提升。
通過 oneDNN 可實現(xiàn)更好的 LLM 壓縮與性能提升。如今,經(jīng)過量化或壓縮后的 INT4 和 INT8 精度的 LLM 可在英特爾銳炫GPU 上得到支持。在搭載集成 GPU 的英特爾酷睿Ultra 處理器上,針對部分小型 GenAI 模型顯著減少了內(nèi)存消耗。
此外,現(xiàn)在可以在 PyTorch 模型進(jìn)行訓(xùn)練后量化之后,對其進(jìn)行微調(diào),以提高模型精度并簡化從訓(xùn)練后量化過渡到訓(xùn)練感知量化的過程。
已添加演示示例:https://github.com/openvinotoolkit/nncf/blob/develop/examples/quantization_aware_training/torch/resnet18/README.md
更多生成式 AI 覆蓋范圍和框架集成
進(jìn)一步深入了解搭載 OpenVINO 的生成式 AI,該新版本拓寬了生成式AI的邊界,使其能夠覆蓋更廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)與應(yīng)用場景。
針對最新發(fā)布的最先進(jìn)的 Llama 3 和 Phi3 模型, OpenVINO 對其實現(xiàn)了支持和優(yōu)化。
具備混合專家(MoE)架構(gòu)的 LLM 模型 Mixtral 以及 URLNet 模型,均針對英特爾至強處理器進(jìn)行了性能提升優(yōu)化。
而文生圖模型 Stable Diffusion 1.5,以及 LLMs 模型 ChatGLM3-6b和Qwen-7B,則專為搭載了集成 GPU 的英特爾酷睿Ultra 處理器進(jìn)行了推理速度的改進(jìn)和優(yōu)化。
現(xiàn)在,OpenVINO 已支持 Falcon-7B-Instruct,這是一款即用型、具備優(yōu)秀性能指標(biāo)的生成式AI大語言模型,適用于聊天與指令場景。
新版本支持的其他模型包括:
Yolo V9、Yolo V8 Oriented Bounding Box Detection (OOB)、Stable Diffusion in Keras、MoblieCLIP、RMBG-v1.4 Background Removal、Magika、TripoSR、AnimateAnyone、LLaVA-Next 以及帶有 OpenVINO 和 LangChain 的 RAG 系統(tǒng)。
我們還在 OpenVINO Notebooks 存儲庫中提供了 Jupyter Notebook 示例。
新平臺的更改和現(xiàn)有平臺的增強
除了 PyPI 上的主 OpenVINO 軟件包外,英特爾酷睿Ultra 處理器的預(yù)覽 NPU 插件現(xiàn)在在 OpenVINO 開源 GitHub 存儲庫中可用。
現(xiàn)在,可以通過 npm 存儲庫更輕松地訪問 JavaScript API,使 JavaScript 開發(fā)人員能夠無縫訪問 OpenVINO API。我們擴展了文檔,可幫助開發(fā)人員將他們的 JavaScript 應(yīng)用程序與 OpenVINO 集成。
現(xiàn)在,默認(rèn)情況下已在 ARM 處理器上為卷積神經(jīng)網(wǎng)絡(luò)(CNN)啟用 FP16 推理。在多種 ARM 設(shè)備上,已顯著提升了眾多模型的性能。已實現(xiàn)與 CPU 架構(gòu)無關(guān)的構(gòu)建,旨在為不同 ARM 設(shè)備提供統(tǒng)一的二進(jìn)制分發(fā)。
新增和更新的 Notebook
OpenVINO Notebooks 仍然是非常有價值的資源,用于展示如何利用 OpenVINO 在人工智能領(lǐng)域?qū)崿F(xiàn)重要進(jìn)展。最近,我們對 OpenVINO notebooks 存儲庫做了一些改動,包括將默認(rèn)分支從 'main' 更改為 'latest',以及對 "notebooks" 文件夾內(nèi) notebook 的命名結(jié)構(gòu)進(jìn)行了改進(jìn)。
審核編輯:劉清
-
GPU芯片
+關(guān)注
關(guān)注
1文章
303瀏覽量
5812 -
生成式AI
+關(guān)注
關(guān)注
0文章
504瀏覽量
474 -
OpenVINO
+關(guān)注
關(guān)注
0文章
93瀏覽量
201
原文標(biāo)題:解鎖 LLM 新高度,拓寬模型新邊界 —— OpenVINO? 2024.1 賦能生成式 AI 高效運行 | 開發(fā)者實戰(zhàn)
文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論