君子以泽,灵域,完美世界国际版下载

作者：

武卓博士英特爾 OpenVINO 布道師

隨著大語言模型的廣泛應用，模型的計算需求大幅提升，帶來推理時延高、資源消耗大等挑戰。vLLM 作為高效的大模型推理框架，通過 OpenVINO 的優化，vLLM 用戶不僅能夠更高效地部署大模型，還能提升吞吐量和處理能力，從而在成本、性能和易用性上獲得最佳平衡。這種優化對于需要快速響應和節省資源的云端或邊緣推理應用尤為重要。目前，OpenVINO 最新版本 OpenVINO 2024.4 中已經支持與 vLLM 框架的集成，只需要一步安裝，一步配置，就能夠以零代碼修改的方式，將 OpenVINO 作為推理后端，在運行 vLLM 對大語言模型的推理時獲得推理加速。

01vLLM 簡介

vLLM 是由加州大學伯克利分校開發的開源框架，專門用于高效實現大語言模型（LLMs）的推理和部署。它具有以下優勢：

高性能：相比 HuggingFace Transformers 庫，vLLM 能提升多達24倍的吞吐量。

易于使用：無需對模型架構進行任何修改即可實現高性能推理。

低成本：vLLM 的出現使得大模型的部署更加經濟實惠。

02一步安裝：搭建 vLLM+OpenVINO 阿里云ECS開發環境

下面我們以在阿里云的免費云服務器 ECS 上運行通義千問 Qwen2.5 模型為例，詳細介紹如何通過簡單的兩步，輕松實現 OpenVINO 對 vLLM 大語言模型推理服務的加速。

在阿里云上申請免費的云服務器 ECS 資源，并選擇 Ubuntu22.04 作為操作系統。

接著進行遠程連接后，登錄到終端操作界面。

請按照以下步驟配置開發環境：

1. 更新系統并安裝 Python 3 及虛擬環境：

sudo apt-get update -y
sudo apt-get install python3 python3.10-venv -y

2. 建立并激活 Python 虛擬環境：

python3 -m venv vllm_env
source vllm_env/bin/activate

3. 克隆 vLLM 代碼倉庫并安裝依賴項：

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install --upgrade 
pippip install -r requirements-build.txt --extra-index-url https://download.pytorch.org/whl/cpu

4. 安裝 vLLM 的 OpenVINO 后端：

PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE=openvino python -m pip install -v .

至此，環境搭建完畢。

03魔搭社區大語言模型下載

接下來，去魔搭社區下載最新的通義千問2.5系列大語言模型，這里以 Qwen2.5-0.5B-Instruct 模型的下載為例。

模型下載地址為：

https://www.modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct

魔搭社區為開發者提供了多種模型下載的方式，這里我們以“命令行下載“方式為例。

首先用以下命令安裝 modelscope：

pip install modelscope

接著運行以下命令完成模型下載：

modelscope download --model Qwen/Qwen2.5-0.5B-Instruct

下載后的模型，默認存放在以下路徑中：

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct

本次運行的推理腳本，我們以 vllm 倉庫中 examples 文件夾中的 offline_inference.py 推理腳本為例。由于 vLLM 默認的腳本是從 Hugging Face 平臺上直接下載模型，而由于網絡連接限制無法從該平臺直接下載模型，因此我們采用上面的方式將模型從魔搭社區中下載下來，接下來使用以下命令，修改腳本中第14行，將原腳本中的模型名稱“"facebook/opt-125m"”替換為下載后存放Qwen2.5模型的文件夾路徑”

/root/.cache/modelscope/hub/Qwen/Qwen2___5-0___5B-Instruct“即可，效果如下圖所示。

04一步配置：配置并運行推理腳本

接下來，在運行推理腳本，完成 LLMs 推理之前，我們再針對 OpenVINO 作為推理后端，進行一些優化的配置。使用如下命令進行配置：

export VLLM_OPENVINO_KVCACHE_SPACE=1 
export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

VLLM_OPENVINO_KVCACHE_SPACE：用于指定鍵值緩存（KV Cache）的大小（例如，VLLM_OPENVINO_KVCACHE_SPACE=100 表示為 KV 緩存分配 100 GB 空間）。較大的設置可以讓 vLLM 支持更多并發請求。由于本文運行在阿里云的免費 ECS 上空間有限，因此本次示例中我們將該值設置為1。實際使用中，該參數應根據用戶的硬件配置和內存管理方式進行設置。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8：用于控制 KV 緩存的精度。默認情況下，會根據平臺選擇使用 FP16 或 BF16 精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS：用于啟用模型加載階段的 U8 權重壓縮。默認情況下，權重壓縮是關閉的。通過設置 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON 來開啟權重壓縮。

為了優化 TPOT（Token Processing Over Time）和 TTFT（Time To First Token）性能，可以使用 vLLM 的分塊預填充功能（--enable-chunked-prefill）。根據實驗結果，推薦的批處理大小為 256（--max-num-batched-tokens=256）。

最后，讓我們來看看 vLLM 使用 OpenVINO 后端運行大語言模型推理的效果，運行命令如下：

python offline_inference.py

除了運行以上配置，可以利用 OpenVINO 在 CPU 上輕松實現 vLLM 對大語言模型推理加速外，也可以利用如下配置在英特爾集成顯卡和獨立顯卡等 GPU 設備上獲取 vLLM 對大語言模型推理加速。

export VLLM_OPENVINO_DEVICE=GPU 
export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON

05結論

通過在 vLLM 中集成 OpenVINO 優化，用戶能夠顯著提升大語言模型的推理效率，減少延遲并提高資源利用率。簡單的配置步驟即可實現推理加速，使得在阿里云等平臺上大規模并發請求的處理變得更加高效和經濟。OpenVINO 的優化讓用戶在保持高性能的同時降低部署成本，為 AI 模型的實時應用和擴展提供了強有力的支持。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

英特爾

英特爾

+關注

關注
61

文章
9964

瀏覽量
171765
大模型

大模型

+關注

關注
2

文章
2448

瀏覽量
2702
OpenVINO

OpenVINO

+關注

關注
0

文章
93

瀏覽量
201

原文標題：開發者實戰｜一步安裝，一步配置：用 vLLM + OpenVINO? 輕松加速大語言模型推理

文章出處：【微信號：英特爾物聯網，微信公眾號：英特爾物聯網】歡迎添加關注！文章轉載請注明出處。

壓縮模型會加速推理嗎？

位壓縮和“無”配置下都運行了 115 毫秒，盡管精度有所下降。我認為將 float 網絡參數壓縮為 uint8_t 不僅可以節省內存，還可以加快推理速度。那么，壓縮模型是否應該加速推理

發表于 01-29 06:24

如何在OpenVINO工具包中使用帶推理引擎的blob？

無法確定如何在OpenVINO?工具包中使用帶推理引擎的 blob。

發表于 08-15 07:17

在AI愛克斯開發板上用OpenVINO?加速YOLOv8目標檢測模型

《在 AI 愛克斯開發板上用 OpenVINO 加速 YOLOv8 分類模型》介紹了在 AI 愛克斯開發板上使用 OpenVINO 開發套件部署并測評 YOLOv8 的分類

發表于 05-12 09:08 ?1326次閱讀

自訓練Pytorch模型使用OpenVINO?優化并部署在AI愛克斯開發板

本文章將依次介紹如何將 Pytorch 自訓練模型經過一系列變換變成 OpenVINO IR 模型形式，而后使用 OpenVINO Python API 對 IR

發表于 05-26 10:23 ?941次閱讀

AI愛克斯開發板上使用OpenVINO加速YOLOv8目標檢測模型

《在AI愛克斯開發板上用OpenVINO加速YOLOv8分類模型》介紹了在AI愛克斯開發板上使用OpenVINO 開發套件部署并測評YOLOv8的分類

發表于 05-26 11:03 ?1251次閱讀

如何將Pytorch自訓練模型變成OpenVINO IR模型形式

本文章將依次介紹如何將Pytorch自訓練模型經過一系列變換變成OpenVINO IR模型形式，而后使用OpenVINO Python API 對IR

發表于 06-07 09:31 ?2005次閱讀

用OpenVINO? C++ API編寫YOLOv8-Seg實例分割模型推理程序

本文章將介紹使用 OpenVINO 2023.0 C++ API 開發YOLOv8-Seg 實例分割（Instance Segmentation）模型的 AI 推理程序。本文 C++ 范例程序的開發環境是 Windows + V

發表于 06-25 16:09 ?1604次閱讀

在AI愛克斯開發板上用OpenVINO?加速YOLOv8-seg實例分割模型

《在 AI 愛克斯開發板上用 OpenVINO 加速 YOLOv8 目標檢測模型》介紹了在 AI 愛克斯開發板上使用 OpenVINO 開發套件部署并測評 YOLOv8 的目標檢測

發表于 06-30 10:43 ?920次閱讀

主流大模型推理框架盤點解析

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現了比HuggingFace Transformers高14-24倍

發表于 10-10 15:09 ?5293次閱讀

基于OpenVINO Python API部署RT-DETR模型

平臺實現 OpenVINO 部署 RT-DETR 模型實現深度學習推理加速，在本文中，我們將首先介紹基于 OpenVINO Python

發表于 10-20 11:15 ?973次閱讀

如何加速大語言模型推理

的主要挑戰。本文將從多個維度深入探討如何加速大語言模型的推理過程，以期為相關領域的研究者和開發者提供參考。

發表于 07-04 17:32 ?533次閱讀

LLM大模型推理加速的關鍵技術

LLM（大型語言模型）大模型推理加速是當前人工智能領域的一個研究熱點，旨在提高模型在處理復雜任務

發表于 07-24 11:38 ?891次閱讀

使用OpenVINO C++在哪吒開發板上推理Transformer模型

OpenVINO 是一個開源工具套件，用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度，且支持來自

發表于 10-12 09:55 ?340次閱讀

FPGA和ASIC在大模型推理加速中的應用

隨著現在AI的快速發展，使用FPGA和ASIC進行推理加速的研究也越來越多，從目前的市場來說，有些公司已經有了專門做推理的ASIC，像Groq的LPU，專門針對大語言

發表于 10-29 14:12 ?441次閱讀

vLLM項目加入PyTorch生態系統，引領LLM推理新紀元

。 vLLM項目概述 vLLM的成就與實際應用支持流行模型安裝與使用vLLM 總結一，vLLM項目概述

發表于 12-18 17:06 ?112次閱讀