主流大模型推理框架盤點解析

從 ChatGPT 面世以來，引領(lǐng)了大模型時代的變革，除了大模型遍地開花以外，承載大模型進(jìn)行推理的框架也是層出不窮，大有百家爭鳴的態(tài)勢。本文主要針對業(yè)界知名度較高的一些大模型推理框架進(jìn)行相應(yīng)的概述。

vLLM

GitHub: https://github.com/vllm-project/vllm

簡介

vLLM是一個開源的大模型推理加速框架，通過PagedAttention高效地管理attention中緩存的張量，實現(xiàn)了比HuggingFace Transformers高14-24倍的吞吐量。

PagedAttention 是 vLLM 的核心技術(shù)，它解決了LLM服務(wù)中內(nèi)存的瓶頸問題。傳統(tǒng)的注意力算法在自回歸解碼過程中，需要將所有輸入Token的注意力鍵和值張量存儲在GPU內(nèi)存中，以生成下一個Token。這些緩存的鍵和值張量通常被稱為KV緩存。

主要特性

通過PagedAttention對 KV Cache 的有效管理

傳入請求的continus batching，而不是static batching

支持張量并行推理

支持流式輸出

兼容 OpenAI 的接口服務(wù)

與 HuggingFace 模型無縫集成

與其他框架（HF、TGI）的性能對比

vLLM 的吞吐量比 HF 高 14 - 24 倍，比 TGI 高 2.2 - 2.5 倍。

image.png

存在的問題

同樣的模型、參數(shù)和prompt條件下，vLLM推理和Huggingface推理結(jié)果不一致。

業(yè)界案例

vLLM 已經(jīng)被用于 Chatbot Arena 和 Vicuna 大模型的服務(wù)后端。

HuggingFace TGI

GitHub: https://github.com/huggingface/text-generation-inference

簡介

Text Generation Inference（TGI）是 HuggingFace 推出的一個項目，作為支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具，旨在支持大型語言模型的優(yōu)化推理。

image.png

主要特性

支持張量并行推理

支持傳入請求 Continuous batching 以提高總吞吐量

使用 flash-attention 和 Paged Attention 在主流的模型架構(gòu)上優(yōu)化用于推理的 transformers 代碼。注意：并非所有模型都內(nèi)置了對這些優(yōu)化的支持。

使用bitsandbytes(LLM.int8())和GPT-Q進(jìn)行量化

內(nèi)置服務(wù)評估，可以監(jiān)控服務(wù)器負(fù)載并深入了解其性能

輕松運行自己的模型或使用任何 HuggingFace 倉庫的模型

自定義提示生成：通過提供自定義提示來指導(dǎo)模型的輸出，輕松生成文本

使用 Open Telemetry，Prometheus 指標(biāo)進(jìn)行分布式跟蹤

支持的模型

BLOOM

FLAN-T5

Galactica

GPT-Neox

Llama

OPT

SantaCoder

Starcoder

Falcon 7B

Falcon 40B

MPT

Llama V2

Code Llama

適用場景

依賴 HuggingFace 模型，并且不需要為核心模型增加多個adapter的場景。

FasterTransformer

GitHub: https://github.com/NVIDIA/FasterTransformer

簡介

NVIDIA FasterTransformer (FT)?是一個用于實現(xiàn)基于Transformer的神經(jīng)網(wǎng)絡(luò)推理的加速引擎。它包含Transformer塊的高度優(yōu)化版本的實現(xiàn)，其中包含編碼器和解碼器部分。使用此模塊，您可以運行編碼器-解碼器架構(gòu)模型（如：T5）、僅編碼器架構(gòu)模型（如：BERT）和僅解碼器架構(gòu)模型（如：GPT）的推理。

FT框架是用C++/CUDA編寫的，依賴于高度優(yōu)化的 cuBLAS、cuBLASLt 和 cuSPARSELt 庫，這使您可以在 GPU 上進(jìn)行快速的 Transformer 推理。

與 NVIDIA TensorRT 等其他編譯器相比，F(xiàn)T 的最大特點是它支持以分布式方式進(jìn)行 Transformer 大模型推理。

下圖顯示了如何使用張量并行 (TP) 和流水線并行 (PP) 技術(shù)將基于Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)拆分到多個 GPU 和節(jié)點上。

當(dāng)每個張量被分成多個塊時，就會發(fā)生張量并行，并且張量的每個塊都可以放置在單獨的 GPU 上。在計算過程中，每個塊在不同的 GPU 上單獨并行處理；最后，可以通過組合來自多個 GPU 的結(jié)果來計算最終張量。

當(dāng)模型被深度拆分，并將不同的完整層放置到不同的 GPU/節(jié)點上時，就會發(fā)生流水線并行。

image.png

在底層，節(jié)點間或節(jié)點內(nèi)通信依賴于 MPI 、 NVIDIA NCCL、Gloo等。因此，使用FasterTransformer，您可以在多個 GPU 上以張量并行運行大型Transformer，以減少計算延遲。同時，TP 和 PP 可以結(jié)合在一起，在多 GPU 節(jié)點環(huán)境中運行具有數(shù)十億、數(shù)萬億個參數(shù)的大型 Transformer 模型。

除了使用 C ++ 作為后端部署，F(xiàn)asterTransformer 還集成了 TensorFlow（使用 TensorFlow op）、PyTorch （使用 Pytorch op）和 Triton 作為后端框架進(jìn)行部署。當(dāng)前，TensorFlow op 僅支持單 GPU，而 PyTorch op 和 Triton 后端都支持多 GPU 和多節(jié)點。

FasterTransformer 中的優(yōu)化技術(shù)

與深度學(xué)習(xí)訓(xùn)練的通用框架相比，F(xiàn)T 使您能夠獲得更快的推理流水線以及基于 Transformer 的神經(jīng)網(wǎng)絡(luò)具有更低的延遲和更高的吞吐量。FT 對 GPT-3 和其他大型 Transformer 模型進(jìn)行的一些優(yōu)化技術(shù)包括：

層融合（Layer fusion）

這是預(yù)處理階段的一組技術(shù)，將多層神經(jīng)網(wǎng)絡(luò)組合成一個單一的神經(jīng)網(wǎng)絡(luò)，將使用一個單一的核（kernel）進(jìn)行計算。這種技術(shù)減少了數(shù)據(jù)傳輸并增加了數(shù)學(xué)密度，從而加速了推理階段的計算。例如， multi-head attention 塊中的所有操作都可以合并到一個核（kernel）中。

自回歸模型的推理優(yōu)化(激活緩存)

為了防止通過Transformer重新計算每個新 token 生成器的先前的key和value，F(xiàn)T 分配了一個緩沖區(qū)來在每一步存儲它們。

雖然需要一些額外的內(nèi)存使用，但 FT 可以節(jié)省重新計算的成本。該過程如下圖所示，相同的緩存機(jī)制用于 NN 的多個部分。

image.png

內(nèi)存優(yōu)化

與 BERT 等傳統(tǒng)模型不同，大型 Transformer 模型具有多達(dá)數(shù)萬億個參數(shù)，占用數(shù)百 GB 存儲空間。即使我們以半精度存儲模型，GPT-3 175b 也需要 350 GB。因此有必要減少其他部分的內(nèi)存使用。

例如，在 FasterTransformer 中，我們在不同的解碼器層重用了激活/輸出的內(nèi)存緩沖（buffer）。由于 GPT-3 中的層數(shù)為 96，因此我們只需要 1/96 的內(nèi)存量用于激活。

使用 MPI 和 NCCL 實現(xiàn)節(jié)點間/節(jié)點內(nèi)通信并支持模型并行

FasterTransormer 同時提供張量并行和流水線并行。對于張量并行，F(xiàn)asterTransformer 遵循了 Megatron 的思想。對于自注意力塊和前饋網(wǎng)絡(luò)塊，F(xiàn)T 按行拆分第一個矩陣的權(quán)重，并按列拆分第二個矩陣的權(quán)重。通過優(yōu)化，F(xiàn)T 可以將每個 Transformer 塊的歸約（reduction）操作減少到兩次。

對于流水線并行，F(xiàn)asterTransformer 將整批請求拆分為多個微批，隱藏了通信的空泡（bubble）。FasterTransformer 會針對不同情況自動調(diào)整微批量大小。

MatMul 核自動調(diào)整（GEMM 自動調(diào)整）

矩陣乘法是基于 Transformer 的神經(jīng)網(wǎng)絡(luò)中最主要和繁重的操作。FT 使用來自 CuBLAS 和 CuTLASS 庫的功能來執(zhí)行這些類型的操作。重要的是要知道 MatMul 操作可以在“硬件”級別使用不同的底層（low-level）算法以數(shù)十種不同的方式執(zhí)行。

GemmBatchedEx?函數(shù)實現(xiàn)了 MatMul 操作，并以cublasGemmAlgo_t作為輸入?yún)?shù)。使用此參數(shù)，您可以選擇不同的底層算法進(jìn)行操作。

FasterTransformer 庫使用此參數(shù)對所有底層算法進(jìn)行實時基準(zhǔn)測試，并為模型的參數(shù)和您的輸入數(shù)據(jù)（注意層的大小、注意頭的數(shù)量、隱藏層的大小）選擇最佳的一個。此外，F(xiàn)T 對網(wǎng)絡(luò)的某些部分使用硬件加速的底層函數(shù)，例如：__expf、__shfl_xor_sync。

低精度推理

FT 的核（kernels）支持使用 fp16 和 int8 等低精度輸入數(shù)據(jù)進(jìn)行推理。由于較少的數(shù)據(jù)傳輸量和所需的內(nèi)存，這兩種機(jī)制都會加速。同時，int8 和 fp16 計算可以在特殊硬件上執(zhí)行，例如：Tensor Core（適用于從 Volta 開始的所有 GPU 架構(gòu)）。

除此之外還有快速的 C++ BeamSearch 實現(xiàn)、當(dāng)模型的權(quán)重部分分配到八個 GPU 之間時，針對 TensorParallelism 8 模式優(yōu)化的 all-reduce。

支持的模型

目前，F(xiàn)T 支持了 Megatron-LM GPT-3、GPT-J、BERT、ViT、Swin Transformer、Longformer、T5 和 XLNet 等模型。您可以在 GitHub 上的 FasterTransformer庫中查看最新的支持矩陣。

與其他框架（PyTorch）的性能對比

FT 適用于計算能力 >= 7.0 的 GPU，例如: V100、A10、A100 等。

下圖展示了 GPT-J 6B 參數(shù)的模型推斷加速比較：

image.png

存在的問題

英偉達(dá)新推出了TensorRT-LLM，相對來說更加易用，后續(xù)FasterTransformer將不再為維護(hù)了。

DeepSpeed-MII

GitHub: https://github.com/microsoft/DeepSpeed-MII

簡介

DeepSpeed-MII 是 DeepSpeed 的一個新的開源 Python 庫，旨在使模型不僅低延遲和低成本推理，而且還易于訪問。

MII 提供了對數(shù)千種廣泛使用的深度學(xué)習(xí)模型的高度優(yōu)化實現(xiàn)。

與原始PyTorch實現(xiàn)相比，MII 支持的模型可顯著降低延遲和成本。

為了實現(xiàn)低延遲/低成本推理，MII 利用 DeepSpeed-Inference 的一系列廣泛優(yōu)化，例如：transformers 的深度融合、用于多 GPU 推理的自動張量切片、使用 ZeroQuant 進(jìn)行動態(tài)量化等。

MII 只需幾行代碼即可通過 AML 在本地和 Azure 上低成本部署這些模型。

MII 工作流程

下圖顯示了 MII 如何使用 DS-Inference 自動優(yōu)化 OSS 模型；然后，使用 GRPC 在本地部署，或使用 AML Inference 在 Microsoft Azure 上部署。

image.png

MII 的底層由 DeepSpeed-Inference 提供支持。根據(jù)模型類型、模型大小、批量大小和可用硬件資源，MII 自動應(yīng)用 DeepSpeed-Inference 中的一組適當(dāng)?shù)南到y(tǒng)優(yōu)化，以最大限度地減少延遲并最大限度地提高吞吐量。它通過使用許多預(yù)先指定的模型注入策略之一來實現(xiàn)這一點，該策略允許 MII 和 DeepSpeed-Inference 識別底層 PyTorch 模型架構(gòu)并用優(yōu)化的實現(xiàn)替換它。在此過程中，MII 使 DeepSpeed-Inference 中一系列的優(yōu)化自動可用于其支持的數(shù)千種流行模型。

支持的模型和任務(wù)

MII 目前支持超過 50,000 個模型，涵蓋文本生成、問答、文本分類等一系列任務(wù)。MII 加速的模型可通過 Hugging Face、FairSeq、EluetherAI 等多個開源模型存儲庫獲取。我們支持基于 Bert、Roberta 或 GPT 架構(gòu)的稠密模型，參數(shù)范圍從幾億參數(shù)到數(shù)百億參數(shù)。除此之外，MII將繼續(xù)擴(kuò)展該列表，支持即將推出的大規(guī)模千億級以上參數(shù)稠密和稀疏模型。

目前 MII 支持以下 HuggingFace Transformers 模型系列：

model family	size range	~model count
llama	7B - 65B	1,500
bloom	0.3B - 176B	480
stable-diffusion	1.1B	3,700
opt	0.1B - 66B	460
gpt_neox	1.3B - 20B	850
gptj	1.4B - 6B	420
gpt_neo	0.1B - 2.7B	700
gpt2	0.3B - 1.5B	11,900
xlm-roberta	0.1B - 0.3B	4,100
roberta	0.1B - 0.3B	8,700
distilbert	0.1B - 0.3B	4,700
bert	0.1B - 0.3B	23,600

與其他框架（PyTorch）的性能對比

MII 將 Big-Science Bloom 176B 模型的延遲降低了 5.7 倍，同時將成本降低了 40 倍以上。同樣,它將部署 Stable Diffusion 的延遲和成本降低了 1.9 倍。

image.png

FlexFlow Server

GitHub: https://github.com/flexflow/FlexFlow/tree/inference

簡介

FlexFlow Serve 是一個開源編譯器和分布式系統(tǒng)，用于低延遲、高性能 LLM 服務(wù)。

主要特征

投機(jī)（Speculative）推理

使 FlexFlow Serve 能夠加速 LLM 服務(wù)的一項關(guān)鍵技術(shù)是Speculative推理，它結(jié)合了各種集體boost-tuned的小型投機(jī)模型 (SSM) 來共同預(yù)測 LLM 的輸出；

預(yù)測被組織為token樹，每個節(jié)點代表一個候選 token 序列。使用一種新穎的基于樹的并行解碼機(jī)制，根據(jù) LLM 的輸出并行驗證由 token 樹表示的所有候選 token 序列的正確性。

FlexFlow Serve 使用 LLM 作為 token 樹驗證器而不是增量解碼器，這大大減少了服務(wù)生成 LLM 的端到端推理延遲和計算要求，同時，可證明保持模型質(zhì)量。

image.png

CPU Offloading

FlexFlow Serve 還提供基于Offloading的推理，用于在單個 GPU 上運行大型模型（例如：llama-7B）。

CPU Offloading是將張量保存在CPU內(nèi)存中，并且在計算時僅將張量復(fù)制到GPU。

注意：

現(xiàn)在我們有選擇地offload最大的權(quán)重張量（線性、注意力中的權(quán)重張量）。此外，由于小模型占用的空間要少得多，如果不構(gòu)成GPU內(nèi)存瓶頸，offload會帶來更多的運行空間和計算成本，因此，我們只對大模型進(jìn)行offload。可以通過啟用 -offload 和 -offload-reserve-space-size 標(biāo)志來運行offloading。

支持量化

FlexFlow Serve 支持 int4 和 int8 量化。壓縮后的張量存儲在CPU端，一旦復(fù)制到 GPU，這些張量就會進(jìn)行解壓縮并轉(zhuǎn)換回其原始精度。

支持的 LLMs 和 SSMs

FlexFlow Serve 當(dāng)前支持以下模型架構(gòu)的所有Hugingface模型：

LlamaForCausalLM / LLaMAForCausalLM (例如：LLaMA/LLaMA-2, Guanaco, Vicuna, Alpaca, ...)

OPTForCausalLM (OPT家族模型)

RWForCausalLM (Falcon家族模型)

GPTBigCodeForCausalLM (Starcoder家族模型)

以下是我們已經(jīng)測試過并且可以使用 SSM 的模型列表：

模型	在 HuggingFace 中的模型 id	Boost-tuned SSMs
LLaMA-7B	decapoda-research/llama-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-13B	decapoda-research/llama-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-30B	decapoda-research/llama-30b-hf	LLaMA-68M , LLaMA-160M
LLaMA-65B	decapoda-research/llama-65b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-7B	meta-llama/Llama-2-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-13B	meta-llama/Llama-2-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-70B	meta-llama/Llama-2-70b-hf	LLaMA-68M , LLaMA-160M
OPT-6.7B	facebook/opt-6.7b	OPT-125M
OPT-13B	facebook/opt-13b	OPT-125M
OPT-30B	facebook/opt-30b	OPT-125M
OPT-66B	facebook/opt-66b	OPT-125M
Falcon-7B	tiiuae/falcon-7b	?
Falcon-40B	tiiuae/falcon-40b	?
StarCoder-15.5B	bigcode/starcoder	?

與其他框架（vLLM、TGI、FasterTransformer）的性能對比

FlexFlow Serve 在單節(jié)點多 GPU 推理方面比現(xiàn)有系統(tǒng)高 1.3-2.0 倍，在多節(jié)點多 GPU 推理方面比現(xiàn)有系統(tǒng)高 1.4-2.4 倍。

image.png

提示數(shù)據(jù)集

FlexFlow 提供了五個用于評估 FlexFlow Serve 的提示數(shù)據(jù)集：

Chatbot 指令提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatbot.json

ChatGPT 提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatgpt.json

WebQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/webqa.json

Alpaca：https://specinfer.s3.us-east-2.amazonaws.com/prompts/alpaca.json

PIQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/piqa.json

未來的規(guī)劃

FlexFlow Serve 正在積極開發(fā)中，主要專注于以下任務(wù)：

AMD 基準(zhǔn)測試。目前正在積極致力于在 AMD GPU 上對 FlexFlow Serve 進(jìn)行基準(zhǔn)測試，并將其與 NVIDIA GPU 上的性能進(jìn)行比較。

Chatbot prompt 模板和多輪對話

支持 FastAPI

與LangChain集成進(jìn)行文檔問答

LMDeploy

GitHub: https://github.com/InternLM/lmdeploy

簡介

LMDeploy 由 MMDeploy 和 MMRazor 團(tuán)隊聯(lián)合開發(fā)，是涵蓋了 LLM 任務(wù)的全套輕量化、部署和服務(wù)解決方案。這個強(qiáng)大的工具箱提供以下核心功能：

高效推理引擎 TurboMind：基于 FasterTransformer推理引擎，實現(xiàn)了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。

交互推理方式：通過緩存多輪對話過程中 attention 的 k/v，記住對話歷史，從而避免重復(fù)處理歷史會話。

多 GPU 部署和量化：提供了全面的模型部署和量化（支持使用AWQ算法對模型權(quán)重進(jìn)行 INT4 量化，支持 KV Cache INT8 量化）支持，已在不同規(guī)模上完成驗證。

persistent batch 推理：進(jìn)一步優(yōu)化模型執(zhí)行效率。

支持張量并行推理（注意：量化部署時不支持進(jìn)行張量并行）

image.png

支持的模型

LMDeploy 支持 TurboMind 和 Pytorch 兩種推理后端。

TurboMind

注意：
W4A16 推理需要 Ampere 及以上架構(gòu)的 Nvidia GPU

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	Yes	Yes	No
Llama2	Yes	Yes	Yes	Yes	No
InternLM-7B	Yes	Yes	Yes	Yes	No
InternLM-20B	Yes	Yes	Yes	Yes	No
QWen-7B	Yes	Yes	Yes	No	No
Baichuan-7B	Yes	Yes	Yes	Yes	No
Baichuan2-7B	Yes	Yes	No	No	No
Code Llama	Yes	Yes	No	No	No

Pytorch

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	No	No	No
Llama2	Yes	Yes	No	No	No
InternLM-7B	Yes	Yes	No	No	No

與其他框架（HF、DeepSpeed、vLLM）的性能對比

場景一: 固定的輸入、輸出token數(shù)（1,2048），測試 output token throughput

場景二: 使用真實數(shù)據(jù)，測試 request throughput

測試配置：LLaMA-7B, NVIDIA A100(80G)

TurboMind 的 output token throughput 超過 2000 token/s, 整體比 DeepSpeed 提升約 5% - 15%，比 huggingface transformers 提升 2.3 倍在 request throughput 指標(biāo)上，TurboMind 的效率比 vLLM 高 30%。

image.png

結(jié)語

總而言之，大模型推理框架的核心目標(biāo)都是為了降低延遲；同時，盡可能地提升吞吐量；從上面的框架中可以看到，每個框架各有優(yōu)缺點，但是目前來看，還沒有一個LLM推理框架有一統(tǒng)天下的態(tài)勢，大家都在加速迭代。

編輯：黃飛

閱讀全文

神經(jīng)網(wǎng)絡(luò)(98386) 神經(jīng)網(wǎng)絡(luò)(98386)
gpu(126255) gpu(126255)
服務(wù)器(82172) 服務(wù)器(82172)
內(nèi)存(72586) 內(nèi)存(72586)
大模型(810) 大模型(810)

LED小芯片封裝技術(shù)難點解析

本文從關(guān)于固晶的挑戰(zhàn)、如何選用鍵合線材、瓷嘴與焊線參數(shù)等幾個方面向大家闡述在微小化的趨勢下關(guān)于LED小芯片封裝技術(shù)難點解析。

2016-03-17 14:29:33

3663

如何使用FasterTransformer進(jìn)行單機(jī)及分布式模型推理

最近幾個月，隨著ChatGPT的現(xiàn)象級表現(xiàn)，大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具體的實際業(yè)務(wù)的最后一公里。但是在這個環(huán)節(jié)中，仍然還有很多已經(jīng)是大家共識的痛點和訴求，比如：任何

2023-05-18 14:35:17

2000

8910芯片USB描述符的知識點解析，錯過后悔

8910芯片USB描述符的知識點解析，錯過后悔

2022-02-22 08:22:11

主流web前端技術(shù)框架

幫助開發(fā)重量級的javascript應(yīng)用的框架，其文件本身很小，壓縮后只有5.3KB，主要提供了models(模型)、collections(集合)、views(視圖)三種結(jié)構(gòu)，其中模型用于綁定鍵值

2018-03-28 16:56:28

主流四核移動處理器解析

2012-08-20 13:01:36

主流深度學(xué)習(xí)框架比較

DL：主流深度學(xué)習(xí)框架多個方向PK比較

2018-12-26 11:10:18

AscendCL快速入門——模型推理篇（上）

一、概述本文介紹了AscendCL模型推理相關(guān)知識，介紹了AscendCL接口加載離線模型，為離線模型準(zhǔn)備數(shù)據(jù)結(jié)構(gòu)以及調(diào)用離線模型進(jìn)行推理的過程。簡單來說，曻騰的AscendCL的推理工程可以問為

2023-08-24 11:04:14

AssetsLibrary框架詳細(xì)解析—— 基本概覽

AssetsLibrary框架詳細(xì)解析（一） —— 基本概覽

2020-04-29 15:12:25

C語言要點解析PDF下載

C語言要點解析(含便于理解的備注)C語言要點解析(含便于理解的備注).pdf 2016-10-27 17:59 上傳點擊文件名下載附件 1.08 MB, 下載次數(shù): 8

2018-07-19 09:15:26

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設(shè)備和小型設(shè)備提供深度模型的推理能力DLLite-Micro 向開發(fā)者提供清晰、易上手的北向接口

2021-08-05 11:40:11

EIQ onnx模型轉(zhuǎn)換為tf-lite失敗怎么解決？

tf-lite 框架是否支持使用npu (nnapi) 以float16 精度進(jìn)行推理嗎？（PS：原始模型是onnx）c) 是否推薦使用 NPU 對 float 16 進(jìn)行推理？ONNX runtme

2023-03-31 08:03:03

Github開源的數(shù)字手勢識別CNN模型簡析

TensorFlow遷移到RKNN3.3.1 模型的加載3.3.2. 圖像的預(yù)處理3.3.3. 模型輸入與輸出3.3.4. 模型的推理

2022-04-02 15:22:11

HDF Camera 驅(qū)動模型解析

作者：潤和-徐大為1.Camera驅(qū)動概述相機(jī)系統(tǒng)對外向用戶提供預(yù)覽、拍照以及錄像等功能。內(nèi)部簡單可分為3層：應(yīng)用層（app&service）、相機(jī)驅(qū)動框架模型（CDDM）、硬件層

2021-11-15 17:33:09

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

使用 MindSpore Lite 推理框架時，需要釋放已經(jīng)創(chuàng)建的模型。 // 釋放模型 OH_AI_ModelDestroy(&model); 調(diào)測驗證編寫 CMakeLists.txt

2023-12-14 11:41:13

Photos框架詳細(xì)解析

Photos框架詳細(xì)解析（一） —— 基本概覽

2020-05-06 12:34:59

ROC-RK3308主板CC固件編譯的知識點解析，絕對實用

ROC-RK3308主板CC固件編譯的知識點解析，絕對實用

2022-03-09 07:29:04

SPI_NSS的知識點解析，絕對實用

SPI_NSS的知識點解析，絕對實用

2022-02-17 08:08:10

UART串口與LWIP以太網(wǎng)問題解析

《LWIP以太網(wǎng)問題解析》，干貨解讀！【技術(shù)三千問】之《FAT文件系統(tǒng)問題解析》，干貨匯總！【技術(shù)三千問】之《FLASH問題難點解析》，干貨匯總【技術(shù)三千問】之《SPI問題難點解析》，干貨匯總！【技術(shù)三千問】之《USB問題難點解析》，干貨匯總！【技術(shù)三千問】之《MQTT問題難點解析》，排坑指南！【

2021-08-05 06:54:19

k210可以采集傳感器的數(shù)據(jù)進(jìn)行模型的推理嗎？

2023-09-14 08:52:56

pytorch模型轉(zhuǎn)為rknn后沒有推理結(jié)果

使用rknn的api讀取我的模型，進(jìn)行轉(zhuǎn)換api可以成功轉(zhuǎn)換出rknn模型，但遇到的問題是：我使用測試數(shù)據(jù)調(diào)用rknn.inference進(jìn)行推理，每一次的輸出結(jié)果都為[array([nan, nan

2023-01-11 18:45:48

subdev/video列表的知識點解析，絕對實用

subdev/video列表的知識點解析，絕對實用

2022-03-10 06:25:41

【直播預(yù)告】各類BGA類型芯片出線技巧與要點解析

本帖最后由鄭振宇altium 于 2021-3-30 22:05 編輯【直播預(yù)告】各類BGA類型芯片出線技巧與要點解析直播報名：http://t.elecfans.com/live

2021-03-30 22:03:56

【飛凌RK3568開發(fā)板試用體驗】RKNN模型推理測試

研的人工智能協(xié)處理器NPU，并且提供了RKNN-Toolkit。今天就介紹一下如何使用RKNN模型進(jìn)行推理應(yīng)用程序開發(fā)。一、推理應(yīng)用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平臺

2022-12-08 19:06:16

使用rk3588多npu推理模型，模型總推理時間還增加了，這怎么解釋

2023-11-05 18:22:42

關(guān)于I2C協(xié)議的知識點解析的太仔細(xì)了

關(guān)于I2C協(xié)議的知識點解析的太仔細(xì)了

2021-10-12 15:31:22

壓縮模型會加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對推理時間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡要介紹

為提升識別準(zhǔn)確率，采用改進(jìn)神經(jīng)網(wǎng)絡(luò)，通過Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過程分為兩步：圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征，將數(shù)據(jù)處理成規(guī)范的格式，而改進(jìn)神經(jīng)網(wǎng)絡(luò)推理主要用于輸出結(jié)果。整個過程分為兩個步驟：圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)推理。需要提前安裝Tengine框架，

2021-12-23 08:07:33

在 ubuntu 上安裝騰訊推理框架 ncnn 的方法記錄

本教程詳細(xì)記錄了在 ubuntu 上安裝騰訊推理框架 ncnn 的方法。

2021-12-14 07:49:57

如何在RK3399上搭建Tengine AI推理框架呢

Tengine是什么？如何在RK3399這一 Arm64 平臺上搭建 Tengine AI 推理框架，并運行圖像識別相關(guān)應(yīng)用？

2022-03-07 07:53:43

如何在RK3399這一 Arm64平臺上搭建Tengine AI推理框架呢

Tengine是什么呢？如何在RK3399這一 Arm64平臺上搭建Tengine AI推理框架呢？

2022-03-04 12:31:35

如何在一塊全新的全志D1開發(fā)板上跑個ncnn神經(jīng)網(wǎng)絡(luò)推理框架的demo？

本文是一份教程，步驟騎著步驟 (step by step) 地展示了如何在一塊全新的全志 D1「哪吒」開發(fā)板上，跑個 ncnn 神經(jīng)網(wǎng)絡(luò)推理框架的 demo。

2021-12-28 07:29:40

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。將權(quán)重轉(zhuǎn)換為 ONNX 文件，然后轉(zhuǎn)換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

對視頻圖像及其顯示的知識點解析，看完你就懂了

對視頻圖像及其顯示的知識點解析，看完你就懂了

2021-06-04 06:59:12

怎樣去解決rk1808相同模型推理速度變慢的問題呢

　　rk1808 相同模型速度變慢：　　rknn_server 0.9.4 （2078225 build： 2019-03-07 20:07:28）　　librknn_runtime version

2022-04-21 11:36:29

求助，為什么將不同的權(quán)重應(yīng)用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權(quán)重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

消防報警系統(tǒng)的防雷防浪涌的知識點解析，絕對實用

消防報警系統(tǒng)的防雷防浪涌的知識點解析，絕對實用

2022-01-14 07:33:09

深度剖析OpenHarmony AI調(diào)度管理與推理接口

：管理資源引擎的相關(guān)內(nèi)容。Engine：推理引擎，推理的主要功能都由它管理。PluginManager：管理框架調(diào)度器的配置與工具。插件：管理框架與推理模型的加載、卸載。AIInterpreter：手機(jī)

2022-03-25 11:15:36

用tflite接口調(diào)用tensorflow模型進(jìn)行推理

摘要本文為系列博客tensorflow模型部署系列的一部分，用于實現(xiàn)通用模型的部署。本文主要實現(xiàn)用tflite接口調(diào)用tensorflow模型進(jìn)行推理。相關(guān)源碼見鏈接引言本文為系列博客

2021-12-22 06:51:18

請問模型推理只用到了kpu嗎？可以cpu，kpu，fft異構(gòu)計算嗎？

2023-09-14 08:13:24

WiMAX技術(shù)的特點解析

WiMAX技術(shù)的特點解析 802．16標(biāo)準(zhǔn)是為在各種傳播環(huán)境（包括視距、近視距和非視距）中獲得最優(yōu)性能而設(shè)計的。即

2009-05-21 01:18:15

527

三大主流觸摸屏技術(shù)解析

三大主流觸摸屏技術(shù)解析中心議題：主流觸摸屏技術(shù)分析解決方案; 單點觸摸屏一點

2010-01-30 10:06:57

787

正投、背投、吊裝以及桌面安裝的優(yōu)缺點解析

正投、背投、吊裝以及桌面安裝的優(yōu)缺點解析 大家都知道，投影機(jī)一般有四種安裝方式，包括有：正投、背投、吊裝以及桌面四種，一般情況下人

2010-02-04 17:19:47

12912

LTE技術(shù)特點解析

LTE技術(shù)特點解析 　據(jù)國外媒體報道，美國電信運營商AT&T剛剛與愛立信和阿爾卡特朗訊簽訂了以長期演進(jìn)(LTE)技術(shù)架設(shè)4G移動通信網(wǎng)絡(luò)的協(xié)議，LTE還將是即將在巴塞羅

2010-02-11 10:19:09

1144

全球知名十大主流汽車懸架盤點(組圖)賞析

全球知名十大主流汽車懸架盤點(組圖)賞析一、鋼板彈簧式非獨立懸架

2010-03-11 10:02:41

3738

無線通信和有線接入的異同點解析

無線通信和有線接入的異同點解析 建設(shè)通信鏈路的方式無非是有線和無線兩種。在初期規(guī)劃時，選擇有線還是無線通信，或是有線無

2010-03-13 10:23:12

1144

聚光光伏發(fā)電系統(tǒng)的技術(shù)難點解析

聚光光伏發(fā)電系統(tǒng)的技術(shù)難點解析 　一、前言　　太陽能發(fā)電系統(tǒng)的價格

2010-04-20 09:11:04

654

大型風(fēng)力發(fā)電機(jī)轉(zhuǎn)軸加工工藝難點解析

大型風(fēng)力發(fā)電機(jī)轉(zhuǎn)軸加工工藝難點解析_王艷芳

2017-01-01 16:24:03

Android開發(fā)中難點解析及幫助

根本說講述的是Android 開發(fā)中難點解析及幫助，希望對各位工程師朋友有所幫助。

2017-09-14 20:24:06

盤點5大主流CSS框架,你知道哪些

作為開發(fā)工具，CSS框架一直處于不斷進(jìn)化和改進(jìn)的狀態(tài)，因此我們強(qiáng)烈建議您關(guān)注眼下的趨勢。這篇文章會帶您了解2017年最流行的5種CSS框架。

2017-10-29 11:21:30

10618

ofdm技術(shù)的優(yōu)缺點解析,ofdm技術(shù)原理介紹

ofdm技術(shù)是一種無線環(huán)境下的高速傳輸技術(shù)，下面我們主要來看看ofdm技術(shù)的優(yōu)缺點解析以及ofdm技術(shù)原理介紹。

2017-12-12 11:12:00

86574

基于人機(jī)協(xié)同的潛在意圖檢測模型和技術(shù)框架

潛在意圖檢測旨在通過意圖主體行為推理意圖主體的隱式意圖，從而在更高的層面理解意圖主體潛在的真實意圖．提出了一種多領(lǐng)域數(shù)據(jù)環(huán)境下人機(jī)協(xié)同的潛在意圖檢測模型和技術(shù)框架．該意圖檢測模型擴(kuò)展了動態(tài)意圖

2018-01-03 11:35:44

TI公司C2000DSP工程師培訓(xùn)要點解析

TI公司C2000DSP工程師培訓(xùn)要點解析。

2018-04-08 17:36:27

iPhoneX亮點解讀

iPhone X亮點解析 原來9688元買到了這些

2019-01-21 11:22:41

3393

盤點分布式存儲系統(tǒng)的主流框架

整個大數(shù)據(jù)處理的體系，按我的理解可以分為兩個部分，一個是分布式存儲系統(tǒng)、另一個是分布式計算框架。分布式存儲系統(tǒng)主流是HadoopDFS，其他還有Ceph和Swift。分布式計算框架主流是MapReduce，Storm和Spark。

2020-08-06 09:07:08

2402

英特爾推出了Stratix 10 NX FPGA著眼于AI模型訓(xùn)練和推理

VMware使用Xilinx Alveo U250加速卡進(jìn)行測試，通過Docker容器提供了機(jī)器學(xué)習(xí)模型，該容器與FPGA制造商的新Vitis AI開發(fā)堆棧集成在一起，用于機(jī)器學(xué)習(xí)推理。開源堆棧支持Caffe和TensorFlow框架。

2020-09-10 16:32:17

2342

一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型

數(shù)據(jù)中心網(wǎng)絡(luò)需要更加高效的推理模型提升流簇大小判斷的準(zhǔn)確性和敏感性。提岀了一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型（ Mlcoflow），利用極限學(xué)習(xí)杋（ELM）以最小訓(xùn)練誤差為求解目標(biāo)建立推理模型，并且使用不完全信息建模以提升敏感度。實驗證

2021-04-02 11:38:16

基于STM32的紅外遙控重點解析資料下載

電子發(fā)燒友網(wǎng)為你提供基于STM32的紅外遙控重點解析資料下載的電子資料下載，更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

2021-04-24 08:52:44

可滿足中企的企業(yè)數(shù)據(jù)影響力評估模型框架

針對企業(yè)數(shù)據(jù)利用率低、數(shù)據(jù)質(zhì)量評估難等問題，考慮中國企業(yè)數(shù)據(jù)治理和應(yīng)用需求，聯(lián)合美國RMDS實驗室從企業(yè)數(shù)據(jù)應(yīng)用的角度，創(chuàng)造性地加入數(shù)據(jù)科學(xué)評估維度，提岀了兼容現(xiàn)有主流評估模型且更滿足中國企業(yè)需求

2021-04-28 13:56:37

基于boosting框架的混合秩矩陣分解模型

2021-06-11 14:41:47

超大Transformer語言模型的分布式訓(xùn)練框架

NVIDIA Megatron 是一個基于 PyTorch 的框架，用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計和實踐，探索這一框架如何助力

2021-10-11 16:46:05

2226

探究超大Transformer語言模型的分布式訓(xùn)練框架

2021-10-20 09:25:43

2078

NVIDIA推理平臺和全棧方法提供最佳性能

現(xiàn)在，您和開發(fā)人員社區(qū)的其他成員都可以使用這些成果，主要是以開源軟件的形式。此外， TensorRT 和 Triton 推理服務(wù)器可從?NVIDIA NGC?免費獲得，以及預(yù)訓(xùn)練模型、深度學(xué)習(xí)框架

2022-04-08 16:31:31

931

基于COCO的預(yù)訓(xùn)練模型mAP對應(yīng)關(guān)系

最近一段時間本人已經(jīng)全部親測，都可以轉(zhuǎn)換為ONNX格式模型，都可以支持ONNXRUNTIME框架的Python版本與C++版本推理，本文以RetinaNet為例，演示了從模型下載到導(dǎo)出ONNX格式，然后基于ONNXRUNTIME推理的整個流程。

2022-10-10 11:40:55

957

基于 Boosting 框架的主流集成算法介紹（上）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:57:58

739

基于 Boosting 框架的主流集成算法介紹（中）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:58:02

448

基于 Boosting 框架的主流集成算法介紹（下）

本文是決策樹的第三篇，主要介紹基于 Boosting 框架的主流集成算法，包括 XGBoost 和 LightGBM。 XGBoost

2023-02-17 15:58:05

2251

深度拆解ChatGPT服務(wù)器的框架

AI模型對算力的需求主要體現(xiàn)在訓(xùn)練和推理兩個層面。當(dāng)前主流的人工智能算法通常可分為“訓(xùn)練”和“推理”兩個階段。

2023-03-10 15:32:35

1375

GTC 2023：多模態(tài)短視頻模型推理優(yōu)化方案解析

　　多卡推理--流水線并行：將模型和數(shù)據(jù)切分，以流水線形式計算，提高GPU利用率。模型切分策略：依照各部分的計算時間和參數(shù)量設(shè)計。

2023-03-23 18:17:33

1921

ChatGPT:AI模型框架研究

　　一、AI框架重要性日益突顯，框架技術(shù)發(fā)展進(jìn)入繁榮期，國內(nèi)AI框架技術(shù)加速發(fā)展：　　1、AI框架作為銜接數(shù)據(jù)和模型的重要橋梁，發(fā)展進(jìn)入繁榮期，國內(nèi)外框架功能及性能加速迭代；　　2、Pytorch

2023-03-29 17:06:16

飛凌嵌入式RK3588開發(fā)板推理模型轉(zhuǎn)換及測試

RKNN（Rockchip Neural Network）是一種用于嵌入式設(shè)備的深度學(xué)習(xí)推理框架，它提供了一個端到端的解決方案，用于將訓(xùn)練好的深度學(xué)習(xí)模型轉(zhuǎn)換為在嵌入式設(shè)備上運行的可執(zhí)行文件。

2023-06-05 16:11:47

736

Pytorch Hub兩行代碼搞定YOLOv5推理

Pytorch Hub是一個幫助研究者實現(xiàn)模型再現(xiàn)、快速推理驗證的預(yù)訓(xùn)練模型庫與一套相關(guān)的API框架。支持遠(yuǎn)程從github上下載指定模型、上傳與分享訓(xùn)練好的模型、支持從本地加載預(yù)訓(xùn)練模型、自定義

2023-06-09 11:36:27

669

教你如何用兩行代碼搞定YOLOv8各種模型推理

大家好，YOLOv8 框架本身提供的API函數(shù)是可以兩行代碼實現(xiàn) YOLOv8 模型推理，這次我把這段代碼封裝成了一個類，只有40行代碼左右，可以同時支持YOLOv8對象檢測、實例分割、姿態(tài)評估模型的GPU與CPU上推理演示。

2023-06-18 11:50:44

1891

測評分享 | 如何在先楫HPM6750上運行輕量級AI推理框架TinyMaix

推理框架，官方介紹如下：TinyMaix是面向單片機(jī)的超輕量級的神經(jīng)網(wǎng)絡(luò)推理庫，即TinyML推理庫，可以讓你在任意單片機(jī)上運行輕量級深度學(xué)習(xí)模型。甚至在Ardui

2022-12-12 17:57:36

867

TorchVision框架下模型導(dǎo)出并部署到ONNXRUNTIME C++全流程解析

ONNXRUNTIME是主流的深度學(xué)習(xí)部署框架之一，支持ONNX格式模型在CPU、GPU、ARM等不同硬件平臺上加速推理，支持C++、Python、Java、C#、JS等不同語言SDK。C++版本安裝包下載如下。

2023-07-13 14:46:24

684

大模型部署框架FastLLM實現(xiàn)細(xì)節(jié)解析

接著大模型部署框架 FastLLM 簡要解析這篇文章首先梳理了一下FastLLM的調(diào)用鏈和關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)，然后解析了 FastLLM 的一些實現(xiàn)細(xì)節(jié)和CPU/GPU后端實現(xiàn)采用的優(yōu)化技巧。

2023-07-27 10:48:27

734

三種主流模型部署框架YOLOv8推理演示

深度學(xué)習(xí)模型部署有OpenVINO、ONNXRUNTIME、TensorRT三個主流框架，均支持Python與C++的SDK使用。對YOLOv5~YOLOv8的系列模型，均可以通過C++推理實現(xiàn)模型

2023-08-06 11:39:17

1677

深度學(xué)習(xí)框架區(qū)分訓(xùn)練還是推理嗎

模型，以便將來能夠進(jìn)行準(zhǔn)確的預(yù)測。推理是指在訓(xùn)練完成后，使用已經(jīng)訓(xùn)練好的模型進(jìn)行新的預(yù)測。然而，深度學(xué)習(xí)框架是否區(qū)分訓(xùn)練和推理呢？大多數(shù)深度學(xué)習(xí)框架是區(qū)分訓(xùn)練和推理的。這是因為，在訓(xùn)練和推理過程中，使用的是

2023-08-17 16:03:11

906

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運行的bmodel模型。由于浮點數(shù)的計算需要消耗更多的計算資源和存儲空間，實際應(yīng)用中往往采用量化后的模型（也稱定點模型）進(jìn)行推理。相比

2023-10-10 10:17:42

484

介紹一款基于昆侖芯AI加速卡的高效模型推理部署框架

昆侖芯科技公眾號全新欄目“用芯指南”重磅推出！面向AI行業(yè)技術(shù)從業(yè)者，系列好文將提供手把手的昆侖芯產(chǎn)品使用指南。第一期圍繞昆侖芯自研效能工具——昆侖芯Anyinfer展開，這是一款基于昆侖芯AI加速卡的高效模型推理部署框架。種種行業(yè)痛點，昆侖芯Anyinfer輕松搞定。

2023-10-17 11:16:43

799

澎峰科技發(fā)布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發(fā)布chatGPT之后，基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的語言大模型（LLM）引發(fā)了全世界的注意與追捧，成為了人工智能領(lǐng)域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

谷歌模型框架是什么？有哪些功能和應(yīng)用？

谷歌模型框架（Google Model Framework）并不是一個特定的框架，而是指谷歌開發(fā)的一系列軟件框架，用于支持機(jī)器學(xué)習(xí)和人工智能的應(yīng)用。以下是一些與谷歌模型框架相關(guān)的關(guān)鍵組件和技術(shù)：

2024-02-29 18:11:50

545

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個開源的機(jī)器學(xué)習(xí)框架，由谷歌的機(jī)器學(xué)習(xí)團(tuán)隊開發(fā)，用于構(gòu)建和訓(xùn)練各種機(jī)器學(xué)習(xí)模型。

2024-03-01 16:25:27

159

AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

近日，知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。

2024-03-12 12:23:20

225

已全部加載完成

搜索歷史

主流大模型推理框架盤點解析

評論