動態形狀(Dynamic Shapes)是延遲指定部分或全部張量維度直到運行時的能力。動態形狀可以通過 C++ 和 Python 接口使用。 以下部分提供了更詳細的信息;但是,這里概述了構建具有動態形狀的引擎的步驟:
1.網絡定義不得具有隱式批次維度。
C++
IBuilder::createNetworkV2(1U << static_cast(NetworkDefinitionCreationFlag::kEXPLICIT_BATCH))
Python
通過調用創建tensorrt.INetworkDefinition
create_network(1 << int(tensorrt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
這些調用要求網絡沒有隱式批處理維度。
2.-1
作為維度的占位符來指定輸入張量的每個運行時維度。
3.指定一個或多個優化配置文件,為具有運行時維度的輸入指定允許的維度范圍,以及自動調整器將優化的維度。有關詳細信息,請參閱優化配置文件。
4.要使用引擎:
- 從引擎創建執行上下文,與沒有動態形狀的情況相同。
- 指定步驟 3 中涵蓋輸入維度的優化配置文件之一。
- 指定執行上下文的輸入維度。設置輸入維度后,您可以獲得TensorRT針對給定輸入維度計算的輸出維度。
- Enqueue work。
8.1. Specifying Runtime Dimensions
構建網絡時,使用-1
表示輸入張量的運行時維度。例如,要創建一個名為foo
的 3D 輸入張量,其中最后兩個維度在運行時指定,第一個維度在構建時固定,請發出以下命令。
C++
networkDefinition.addInput("foo", DataType::kFLOAT, Dims3(3, -1, -1))
Python
network_definition.add_input("foo", trt.float32, (3, -1, -1))
在運行時,您需要在選擇優化配置文件后設置輸入維度(請參閱優化配置文件)。設輸入foo
的bindingIndex
為0
,輸入的維度為[3,150,250]
。在為前面的示例設置優化配置文件后,您將調用:
C++
context.setBindingDimensions(0, Dims3(3, 150, 250))
Python
context.set_binding_shape(0, (3, 150, 250))
在運行時,向引擎詢問綁定維度會返回用于構建網絡的相同維度,這意味著每個運行時維度都會得到-1
。例如:
C++
engine.getBindingDimensions(0) returns a Dims with dimensions {3, -1, -1}
Python
engine.get_binding_shape(0) returns (3, -1, -1)
要獲取特定于每個執行上下文的實際維度,請查詢執行上下文:
C++
context.getBindingDimensions(0) returns a Dims with dimensions {3, 150, 250}.
Python
context.get_binding_shape(0) returns (3, 150, 250).
注意:輸入的setBindingDimensions
的返回值僅表明與為該輸入設置的優化配置文件相關的一致性。指定所有輸入綁定維度后,您可以通過查詢網絡輸出綁定的維度來檢查整個網絡在動態輸入形狀方面是否一致。
nvinfer1::Dims out_dim = context->getBindingDimensions(out_index); if (out_dim.nbDims == -1) { gLogError << "Invalid network output, this might be caused by inconsistent input shapes." << std::endl; // abort inference }
8.2. Optimization Profiles
優化配置文件描述了每個網絡輸入的維度范圍以及自動調諧器將用于優化的維度。使用運行時維度時,您必須在構建時創建至少一個優化配置文件。兩個配置文件可以指定不相交或重疊的范圍。
例如,一個配置文件可能指定最小尺寸[3,100,200]
,最大尺寸[3,200,300]
和優化尺寸[3,150,250]
而另一個配置文件可能指定最小,最大和優化尺寸[3,200,100] , [3,300,400] ,和[3,250,250]
。
要創建優化配置文件,首先構造一個IOptimizationProfile
。然后設置最小、優化和最大維度,并將其添加到網絡配置中。優化配置文件定義的形狀必須為網絡定義有效的輸入形狀。以下是前面提到的第一個配置文件對輸入foo
的調用:
C++
IOptimizationProfile* profile = builder.createOptimizationProfile(); profile->setDimensions("foo", OptProfileSelector::kMIN, Dims3(3,100,200); profile->setDimensions("foo", OptProfileSelector::kOPT, Dims3(3,150,250); profile->setDimensions("foo", OptProfileSelector::kMAX, Dims3(3,200,300); config->addOptimizationProfile(profile)
Python
profile = builder.create_optimization_profile(); profile.set_shape("foo", (3, 100, 200), (3, 150, 250), (3, 200, 300)) config.add_optimization_profile(profile)
在運行時,您需要在設置輸入維度之前設置優化配置文件。配置文件按照添加的順序編號,從0開始。請注意,每個執行上下文必須使用單獨的優化配置文件。 要選擇示例中的第一個優化配置文件,請使用:
C++調用context.setOptimizationProfileAsync(0, stream)
其中stream是在此上下文中用于后續enqueue()或enqueueV2()調用的 CUDA 流。
Python設置context.set_optimization_profile_async(0, stream)
如果關聯的 CUDA 引擎具有動態輸入,則必須使用唯一的配置文件索引至少設置一次優化配置文件,該唯一配置文件索引未被其他未銷毀的執行上下文使用。對于為引擎創建的第一個執行上下文,隱式選擇配置文件 0。
可以調用setOptimizationProfileAsync()
在配置文件之間切換。它必須在當前上下文中的任何enqueue()
或enqueueV2()
操作完成后調用。當多個執行上下文同時運行時,允許切換到以前使用但已被具有不同動態輸入維度的另一個執行上下文釋放的配置文件。
setOptimizationProfileAsync()
函數替換了現在已棄用的 APIsetOptimizationProfile()
版本。使用setOptimizationProfile()
在優化配置文件之間切換可能會導致后續enqueue()
或enqueueV2()
操作操作中的 GPU 內存復制操作。要在入隊期間避免這些調用,請改用setOptimizationProfileAsync()
API。
在由多個配置文件構建的引擎中,每個配置文件都有單獨的綁定索引。第K個配置文件的輸入/輸出張量的名稱附加了[profile K]
,其中K以十進制表示。例如,如果INetworkDefinition
的名稱為“foo
”,并且bindingIndex
指的是優化配置文件中索引為3
的張量,則engine.getBindingName ( bindingIndex )
返回“foo [profile 3]
”。
同樣,如果使用ICudaEngine::getBindingIndex(name)
獲取第一個配置文件 (K=0
) 之外的配置文件 K 的索引,請將“[profile K]
”附加到INetworkDefinition
中使用的名稱。例如,如果張量在INetworkDefinition
中被稱為“foo
” ,則engine.getBindingIndex ( “ foo [profile 3] ” )
在優化配置文件3
中返回張量“foo
”的綁定索引。
始終省略K=0的后綴。
8.2.1. Bindings For Multiple Optimization Profiles
考慮一個具有四個輸入、一個輸出、在IBuilderConfig
中具有三個優化配置文件的網絡。該引擎有15
個綁定,每個優化配置文件有5
個,在概念上組織為一個表:
每行都是一個配置文件。表中的數字表示綁定索引。第一個配置文件的綁定索引為 0..4,第二個配置文件為 5..9,第三個配置文件為 10..14。
對于綁定屬于第一個配置文件但指定了另一個配置文件的情況,接口具有“自動更正”功能。在這種情況下,TensorRT 會警告錯誤,然后從同一列中選擇正確的綁定索引。
為了向后半兼容,接口在綁定屬于第一個配置文件但指定了另一個配置文件的情況下具有“自動更正”功能。在這種情況下,TensorRT 會警告錯誤,然后從同一列中選擇正確的綁定索引。
8.3. Layer Extensions For Dynamic Shapes
一些層具有允許指定動態形狀信息的可選輸入,并且有一個新層IShapeLayer用于在運行時訪問張量的形狀。此外,一些層允許計算新的形狀。下一節將討論語義細節和限制。以下是與動態形狀結合使用時可能有用的內容的摘要。
IShapeLayer
輸出一個包含輸入張量尺寸的一維張量。例如,如果輸入張量的維度為[2,3,5,7]
,則輸出張量是包含{2,3,5,7}
的四元素一維張量。如果輸入張量是標量,則它的維度為[] ,輸出張量是包含{}的零元素一維張量。
IResizeLayer
接受包含所需輸出尺寸的可選第二個輸入。
IShuffleLayer
接受包含重塑尺寸的可選第二個輸入。例如,以下網絡將張量Y重塑為與X具有相同的維度:
C++
auto* reshape = networkDefinition.addShuffle(Y);
reshape.setInput(1, networkDefintion.addShape(X)->getOutput(0));
Python
reshape = network_definition.add_shuffle(y)
reshape.set_input(1, network_definition.add_shape(X).get_output(0))
ISliceLayer
接受可選的第二、第三和第四個輸入,其中包含開始、大小和步幅。
IConcatenationLayer, IElementWiseLayer, IGatherLayer, IIdentityLayer, and IReduceLayer
可用于對形狀進行計算并創建新的形狀張量。
8.4. Restrictions For Dynamic Shapes
由于層的權重具有固定大小,因此會出現以下層限制:
-
IConvolutionLayer
和IDeconvolutionLayer
要求通道維度是構建時常數。 -
IFullyConnectedLayer
要求最后三個維度是構建時常量。 -
Int8
要求通道維度是構建時常數。 -
接受額外形狀輸入的層(
IResizeLayer
、IShuffleLayer
、ISliceLayer
)要求額外的形狀輸入與最小和最大優化配置文件的尺寸以及運行時數據輸入的尺寸兼容;否則,它可能導致構建時或運行時錯誤。
必須是構建時常量的值不必是 API 級別的常量。 TensorRT 的形狀分析器通過進行形狀計算的層進行逐個元素的常數傳播。常量傳播發現一個值是構建時常量就足夠了。
8.5. Execution Tensors vs. Shape Tensors
使用動態形狀的引擎采用兩階段執行策略。
- 計算所有張量的形狀
- 將工作流式傳輸到 GPU。
階段 1 是隱含的,由需求驅動,例如在請求輸出維度時。第 2 階段與之前版本的TensorRT 相同。兩階段執行對動態性施加了一些限制,這些限制對于理解是很重要的。
關鍵限制是:
- 張量的等級必須在構建時確定。
- 張量是執行張量、形狀張量或兩者兼而有之。歸類為形狀張量的張量受到限制。
執行張量是傳統的TensorRT張量。形狀張量是與形狀計算相關的張量。它必須是0D
或1D
,類型為Int32
、Float
或Bool
,并且其形狀必須在構建時可確定。例如,有一個IShapeLayer
,其輸出是一維張量,其中包含輸入張量的維度。輸出是一個形狀張量。IShuffleLayer
接受一個可選的第二個輸入,可以指定重塑尺寸。第二個輸入必須是一個形狀張量。
有些層在它們處理的張量類型方面是“多態的”。例如,IElementWiseLayer
可以將兩個INT32
執行張量相加或將兩個INT32
形狀張量相加。張量的類型取決于其最終用途。如果總和用于重塑另一個張量,那么它就是一個“形狀張量”。
8.5.1. Formal Inference Rules
TensorRT 用于對張量進行分類的形式推理規則基于類型推理代數。令E表示執行張量, S表示形狀張量。
IActivationLayer具有:
IActivationLayer: E → E
因為它將執行張量作為輸入,將執行張量作為輸出。IElementWiseLayer
在這方面是多態的,有兩個特點:
IElementWiseLayer: S × S → S, E × E → E
為簡潔起見,讓我們采用約定t是表示任一類張量的變量,并且特征中的所有t都指同一類張量。然后,前面的兩個特征可以寫成一個單一的多態特征:
IElementWiseLayer: t × t → t
雙輸入IShuffleLayer
有一個形狀張量作為第二個輸入,并且相對于第一個輸入是多態的:
IShuffleLayer (two inputs): t × S → t
IConstantLayer
沒有輸入,但可以產生任何一種張量,所以它的特征是:
IConstantLayer: → t
IShapeLayer
的特征允許所有四種可能的組合E→E 、 E→S 、 S→E和S→S ,因此可以用兩個自變量編寫:
IShapeLayer: t1 → t2
這是完整的規則集,它也可以作為可以使用哪些層來操縱形狀張量的參考:
IAssertionLayer: S →
IConcatenationLayer: t × t × ...→ t
IIfConditionalInputLayer: t → t
IIfConditionalOutputLayer: t → t
IConstantLayer: → t
IActivationLayer: t → t
IElementWiseLayer: t × t → t
IFillLayer: S → t
IFillLayer: S × E × E → E
IGatherLayer: t × t → t
IIdentityLayer: t → t
IReduceLayer: t → t
IResizeLayer (one input): E → E
IResizeLayer (two inputs): E × S → E
ISelectLayer: t × t × t → t
IShapeLayer: t1 → t2
IShuffleLayer (one input): t → t
IShuffleLayer (two inputs): t × S → t
ISliceLayer (one input): t → t
ISliceLayer (two inputs): t × S → t
ISliceLayer (three inputs): t × S × S → t
ISliceLayer (four inputs): t × S × S × S → t
IUnaryLayer: t → t
all other layers: E × ... → E × ...
因為輸出可以是多個后續層的輸入,所以推斷的“類型”不是唯一的。例如,一個IConstantLayer
可能會饋入一個需要執行張量的用途和另一個需要形狀張量的用途。IConstantLayer
的輸出被歸類為兩者,可以在兩階段執行的階段 1 和階段 2 中使用。
在構建時知道形狀張量的等級的要求限制了ISliceLayer
可用于操縱形狀張量的方式。具體來說,如果指定結果大小的第三個參數不是構建時常數,則生成的形狀張量的長度在構建時將不再已知,從而打破形狀張量對構建時形狀的限制.更糟糕的是,它可能被用來重塑另一個張量,打破了在構建時必須知道張量等級的限制。
可以通過方法ITensor::isShapeTensor()
和ITensor::isExecutionTensor ()
方法檢查 TensorRT 的推理,它為形狀張量返回true
,它為執行張量返回true
。在調用這些方法之前先構建整個網絡,因為它們的答案可能會根據添加的張量用途而改變。
例如,如果一個部分構建的網絡將兩個張量T1
和T2
相加來創建張量T3
,并且還不需要任何形狀張量,則isShapeTensor()
對所有三個張量都返回false
。將IShuffleLayer
的第二個輸入設置為T3
會導致所有三個張量成為形狀張量,因為IShuffleLayer
要求其第二個可選輸入是形狀張量,如果IElementWiseLayer
的輸出是形狀張量,那么它的輸入也是形狀張量。
8.6. Shape Tensor I/O (Advanced)
有時需要使用形狀張量作為網絡 I/O 張量。例如,考慮一個僅由IshuffleLayer
組成的網絡。 TensorRT 推斷第二個輸入是一個形狀張量。ITensor::isShapeTensor
為它返回 true。因為它是一個輸入形狀張量,所以 TensorRT 需要兩件事:
- 在構建時:形狀張量的優化配置文件值。
- 在運行時:形狀張量的值。
輸入形狀張量的形狀在構建時始終是已知的。這是需要描述的值,因為它們可用于指定執行張量的維度。
可以使用IOptimizationProfile::setShapeValues
設置優化配置文件值。類似于必須為具有運行時維度的執行張量提供最小、最大和優化維度的方式,必須在構建時為形狀張量提供最小、最大和優化值。
對應的運行時方法是IExecutionContext::setInputShapeBinding
,它在運行時設置形狀張量的值。
因為“執行張量”與“形狀張量”的推斷是基于最終用途,所以 TensorRT無法推斷網絡輸出是否為形狀張量。您必須通過INetworkDefinition::markOutputForShapes
方法告訴它。
除了讓您輸出形狀信息以進行調試外,此功能對于編寫引擎也很有用。例如,考慮構建三個引擎,每個引擎用于子網絡A、B、C
,其中從A 到 B 或 B 到 C
的連接可能涉及形狀張量。逆序構建網絡:C、B、A
。構建網絡 C 后,可以使用ITensor::isShapeTensor
判斷輸入是否為形狀張量,并使用INetworkDefinition::markOutputForShapes
標記網絡中對應的輸出張量B.然后檢查B的哪些輸入是形狀張量,并在網絡A中標記對應的輸出張量。
網絡邊界處的形狀張量必須具有Int32
類型。它們不能具有Float
或Bool
類型。Bool
的一種解決方法是使用Int32
作為 I/O 張量,帶有0
和1
,并且:
-
通過
ElementWiseOperation::kGREATER
轉換為Bool ,即x > 0
。 -
通過
ISelectLayer
從Bool
轉換,即y ? 1:0
。
8.7. INT8 Calibration With Dynamic Shapes
要為具有動態形狀的網絡運行 INT8 校準,必須設置校準優化配置文件。使用配置文件的kOPT
值執行校準。校準輸入數據大小必須與此配置文件匹配。
要創建校準優化配置文件,首先,構造一個IOptimizationProfile
,其方式與創建一般優化配置文件的方式相同。然后將配置文件設置為配置:
C++
config->setCalibrationProfile(profile)
Python
config.set_calibration_profile(profile)
校準配置文件必須有效或為nullptr
。kMIN
和kMAX
值被kOPT
覆蓋。要檢查當前校準配置文件,請使用IBuilderConfig::getCalibrationProfile
。 此方法返回指向當前校準配置文件的指針,如果未設置校準配置文件,則返回nullptr
。為具有動態形狀的網絡運行校準時,getBatchSize()
校準器方法必須返回1 。
關于作者
Ken He 是 NVIDIA 企業級開發者社區經理 & 高級講師,擁有多年的 GPU 和人工智能開發經驗。自 2017 年加入 NVIDIA 開發者社區以來,完成過上百場培訓,幫助上萬個開發者了解人工智能和 GPU 編程開發。在計算機視覺,高性能計算領域完成過多個獨立項目。并且,在機器人和無人機領域,有過豐富的研發經驗。對于圖像識別,目標的檢測與跟蹤完成過多種解決方案。曾經參與 GPU 版氣象模式GRAPES,是其主要研發者。
審核編輯:郭婷
-
引擎
+關注
關注
1文章
361瀏覽量
22613 -
C++
+關注
關注
22文章
2114瀏覽量
73785
發布評論請先 登錄
相關推薦
評論