在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TVM中schedule介紹

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2022-02-08 17:36 ? 次閱讀

作者:安平博,Xilinx高級工程師;來源:AI加速微信公眾號

Schedule是和硬件體系結構相關的一些列優化,Halide在其文章中對其做了以下定義:

1 When and where should be the value at each coordinate in each function be computed?

2 Where should they be stored?

3 How long are values cached and communicated across multiple consumers, and when are they independently recomputed by each?

第一條是描述了數據計算順序對性能的影響,第二條是數據的存儲位置對性能影響,最后一條是多線程處理過程中,不同線程數據應該如何進行交互。

參考文章:https://zhuanlan.zhihu.com/p/94846767,常用的shcedule有:

1 cache_read

將數據存儲到片上緩存,減少訪問數據時間。

2 cache_write

將結果寫入片上緩存,然后再寫入片外緩存。當然這里的片上和片外并不是絕對的概念,也可以理解為不同層次的存儲結構。

3 set_scope

為數據指定存儲位置,相比于cache_read和cache_write提供了更靈活的指定數據存儲方式。本質上是相同的。

4 storage_align

在我看的文章中,storage_align是針對GPU shared memory的一個優化,目的是為了減少同一個bank的訪問沖突。在GPU中shared memory被分割成多個bank,這些bank可以被獨立線程同時訪問。Storage_align就是為了將數據和bank大小匹配,減少bank conflict的發生。AI芯片中也有類似的問題,只有盡量減少bank沖突的發生,才能最大化并行計算。

5 compute_at

不懂CUDA,所以對文章中的代碼不是很理解,但是從其解釋看,對于多次循環的計算(或者多維計算),可以通過并行計算來降維。

6 compute_inline

將獨立操作轉化為內聯函數,有點類似FPGA上的流水線計算。轉化成內聯函數從上層層面減少了stage。在FPGA中也有類似問題,可以將具有相同迭代的多條指令放在一起執行。

7 compute_root

Compute_at的反操作。

8 fuse

將多個循環iter融合為一個iter。

9 split

Fuse的反操作,將一次循環迭代拆分為多次。

10 reorder

調整循環計算迭代順序。

11 tile

Tile也是將循環迭代進行拆分,拆分多次計算。是split+reorder。

12 unroll

將循環展開,增加并發執行。

13 vectorize

將循環迭代替換成ramp,可以通過SIMD指令實現數據批量計算,也就是單指令多數據計算。這在AI加速中會很常用,每條指令都是多數據計算的。

14 bind

CUDA中使用的優化方法,將iter綁定到不同線程,實現并發計算。

15 parallel

實現多設備并行.

16 pragma

可以在代碼中人為添加編譯注釋,人為干預編譯優化。HLS中就是通過這樣的方式來實現c的硬件編程的。

17 prefetch

將數據計算和load后者store數據重疊起來,在FPGA中是很常見優化方法。

18 tensorize

將tensor作為一個整體匹配硬件的計算核心,比如一個卷積運算就可以實現在FPGA上的一個匹配。

文章https://zhuanlan.zhihu.com/p/166551011 是通過官網的一個例子來介紹schedule的。在這個例子中,首先利用te的節點表達式建立了計算函數,然后調用create_schedule來創建schedule實例,然后再調用lower函數實現schedule優化。代碼如下:

# declare a matrix element-wise multiply A = te.placeholder((m, n), nam) B = te.placeholder((m, n), nam) C = te.compute((m, n), lambda i, j: A[i, j] * B[i, j], nam) s = te.create_schedule([C.op]) # lower will transform the computation from definition to the real # callable function. With argument `simple_mode=True`, it will # return you a readable C like statement, we use it here to print the # schedule result. print(tvm.lower(s, [A, B, C], simple_mode=True))

我這里依然延續上一章的內容,看代碼中關于schedule的處理。

在上一章我們在codegen生成中,通過以下調用鏈轉到了schedule的處理。Codegen -> VisitExpr(CallNode* op) -> relay.backend._CompileEngineLower -> LowerInternal。LowerInternal函數為:

o4YBAGAJhSOAPhF1AAF7w2uy4BE784.png

如果是外部定義的編譯器,就只是建立cache_node節點和cache_func。如果是使用內部編譯器,就會調用CreateSchedule建立schedule。接下來調用鏈為CreateSchedule -> ScheduleGetter.create -> te::create_schedule -> Schedule。create_schedule函數調用在文件re/schedule.h和te/schedule_lang.cc中。

create_schedule中主要有兩件工作:

1 創建ReadGraph,獲取post-dfs順序的算符圖。

2 初始化stage。

TVM中引入了stage的概念,一個op相當于一個stage,schedule優化是對stage的一個更改,可以增加,刪減,更改其特性等。

pIYBAGAJhWKALtoXAAExsOmziHM113.png

通過createReadGraph可以遍歷op圖,返回op和其依賴的tensor列表。和遍歷有關的主要函數為:

Op -> InputTensors -> PostOrderVisit -> IRApplyVisit,在IRApplyVisit中定義了VisitExpr和VisitStmt函數用于遍歷節點。

pIYBAGAJhaOAPU1EAAOCUW3ZpIQ102.png

Stmt節點通常是節點中的主體實現,PrimExpr是TIR中節點的一個簡單表達式。比如if節點:

o4YBAGAJheSAGUfwAAIKQRN_Atw687.png

ReadGraph創建完成后,通過PostDFSOrder來獲取post-dfs列表,其函數具體實現在graph.cc中,

o4YBAGAJhiSARaKbAAKhr5FEruU905.png

通過不斷迭代來進行深度優先搜索。

接下來是對stage進行初始化。

首先對postorder中的所有op初始化一個stage對象。我們看以下stage的定義:

Stage類中主要定義了set_scope, compute_at, compute_root, bind, split, fuse等幾種優化算法。同時定義了StageNode,在StageNode中定義了和優化相關的變量,包括op,iter變量等。看一下stage初始化代碼:

o4YBAGAJhmOAewapAAHNRZ9z5nY829.png

關鍵的幾個變量lef_iter_vars,all_iter_vars,這些有什么作用還需要深入看優化函數的代碼。我們看幾個schedule函數,先看一個最簡單的:compute_inline。代碼只有一行:

(*this)->attach_type = kInline

對于標記了kInline的節點,在lower的時候會進行處理。應該會將其直接和調用的節點結合,合并兩個op。

再看fuse函數,其代碼為:

pIYBAGAJhqSAEGcxAAMXAmXWJb8660.png

IterVar表示計算中坐標軸,比如一個兩級循環,每級循環就是一個axis。從代碼中看出,fuse函數會對輸入的所有axis進行合并,用fused變量替換合并后的axis。

這塊代碼比較抽象,先熟悉以下流程,之后再深入讀一下。

審核編輯:何安

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • TVM
    TVM
    +關注

    關注

    0

    文章

    19

    瀏覽量

    3663
收藏 人收藏

    評論

    相關推薦

    電子成像的耦合介紹

    本文介紹了直接耦合、間接耦合、反射耦合和光學耦合這幾種電子成像的耦合方式,并介紹了它們各自的適用場景以及優缺點。 在電子成像的閃爍體耦合學習過程,我們經常看到“耦合”、“閃爍體”、
    的頭像 發表于 12-17 14:25 ?88次閱讀

    電流傳感器在電機應用介紹

    電流傳感器在電機應用介紹
    的頭像 發表于 10-31 17:17 ?314次閱讀
    電流傳感器在電機應用<b class='flag-5'>中</b>的<b class='flag-5'>介紹</b>

    RS-485:自動方向介紹及其在系統的作用

    電子發燒友網站提供《RS-485:自動方向介紹及其在系統的作用.pdf》資料免費下載
    發表于 09-12 10:35 ?0次下載
    RS-485:自動方向<b class='flag-5'>介紹</b>及其在系統<b class='flag-5'>中</b>的作用

    SemiDrive X9 AI 開發環境搭建

    SemiDrivex9AI開發環境搭建分開發機端,開發板端。主要的工具是SDNN,它是一個基于開源編譯器框架TVM的端到端的AI編譯器框架,Semidrive對TVM編譯器框架做了適配,主要特性如下
    的頭像 發表于 08-03 08:27 ?396次閱讀
    SemiDrive X9 AI 開發環境搭建

    SDRAM的active命令介紹

    在向SDRAM 的任何行發出 READ或 WRITE 命令之前,必須先打開該行。這是通過 ACTIVE 命令完成的。ACTIVE 命令的目的是打開或者說激活(active)bank的一行并將數據從 DRAM 移動到bank的靈敏放大器。下圖說明了 ACTIVE 命令的
    的頭像 發表于 07-29 09:53 ?453次閱讀
    SDRAM<b class='flag-5'>中</b>的active命令<b class='flag-5'>介紹</b>

    使用TVM量化部署模型報錯NameError: name \'GenerateESPConstants\' is not defined如何解決?

    各位好,我在使用TVM部署模型時,遇到一下錯誤,請問如何解決?我進esp.py文件看,有如下兩個函數是找不到定義的: GenerateESPConstants(), ExtractConstantsFromPartitionedFunction(),
    發表于 06-28 10:50

    電路的串聯與并聯介紹

    串聯和并聯是兩種基本的連接方式,它們決定了電路組件之間的電流和電壓分布。了解串聯與并聯的概念對于理解電路的工作原理和進行電路設計至關重要。 串聯(Series) 在串聯的連接方式,電路的總電阻
    的頭像 發表于 05-02 16:28 ?3987次閱讀

    在e2 studio安裝QE的流程介紹

    在e2 studio安裝QE的流程介紹
    的頭像 發表于 04-04 08:05 ?540次閱讀
    在e2 studio<b class='flag-5'>中</b>安裝QE的流程<b class='flag-5'>介紹</b>

    淺析SpinalHDLPipeline的復位定制

    之前有系列文章介紹了SpinalHDLPipeline的使用,最近在一個功能模塊真實的使用了這個lib。
    的頭像 發表于 03-17 17:31 ?1048次閱讀
    淺析SpinalHDL<b class='flag-5'>中</b>Pipeline<b class='flag-5'>中</b>的復位定制

    介紹智能照明系統在綠色建筑的應用與產品選型

    介紹智能照明系統在綠色建筑的應用與產品選型 張穎姣 安科瑞電氣股份有限公司 上海嘉定201801 【摘要】:智能照明系統應用在智能建筑不僅能營造出舒適的生活、工作環境以及現代化的管理方式而且要
    的頭像 發表于 02-26 09:25 ?513次閱讀
    <b class='flag-5'>介紹</b>智能照明系統在綠色建筑<b class='flag-5'>中</b>的應用與產品選型

    RT-Thread程序在執行rt_schedule_remove_thread(to_thread);語句里面的打印時會進Hard_defaut的原因?

    ulog開啟 log_LVL等級 LOG_LVL_DBG log_Out_LVL等級 LOG_LVL_DBG 程序在執行 rt_schedule_remove_thread(to_thread
    發表于 02-26 06:00

    AT89S51文資料介紹

    電子發燒友網站提供《AT89S51文資料介紹.pdf》資料免費下載
    發表于 02-20 09:24 ?13次下載

    Proteus元件庫的電阻元件介紹

    在Proteus元件庫,電阻元件被稱為Resistor。電阻是一種常用的電子元件,用于限制電流流動的能力。它們通常用于各種電路,包括放大電路、濾波電路、穩壓電路等等。在本文中,我們將對電阻
    的頭像 發表于 01-24 10:11 ?1.1w次閱讀

    AMBA總線APB slave設計介紹

    上篇文章給大家介紹了APB協議相關的知識點,本篇文章通過一個實際的APB slave的設計幫助大家鞏固對APB的掌握。 APB slave設計Spec ? 其框圖如上圖所示,這里提一嘴,大家在做數字
    的頭像 發表于 01-13 10:15 ?974次閱讀
    AMBA總線<b class='flag-5'>中</b>APB slave設計<b class='flag-5'>介紹</b>

    電源設計電容的工作原理介紹

    電源設計,電容是一種非常重要的電子元件,它在電路起到濾波、耦合、儲能等作用。本文將對電源設計電容的工作原理進行詳細介紹。 電容是一種能夠儲存電荷的電子元件,其基本結構是由兩個相互
    的頭像 發表于 01-09 17:04 ?1071次閱讀
    電源設計<b class='flag-5'>中</b>電容的工作原理<b class='flag-5'>介紹</b>
    主站蜘蛛池模板: www色多多| 手机视频在线播放| 国产成人小视频| 美女大黄三级视频在线观看| 成人的天堂视频一区二区三区| 人人插人人| 久久久久激情免费观看| 亚洲一区二区电影| 四虎永久免费最新在线| 国产精品虐乳在线播放| 天天干天天玩天天操| 4444狠狠| 免费播放欧美毛片欧美aaaaa| 午夜色视频在线观看| 国产女人视频免费观看| zzji国产精品视频| 激情五月激情综合色区| 三级电影在线观看视频| 亚洲444kkk| 操香蕉| 天天色综合色| 在线观看免费xx高清视频| 亚洲资源在线观看| 美女免费视频是黄的| 夜夜操美女| 日本一区二区视频在线观看| 色在线视频观看| 国产经典一区| 激情欧美在线| 免费人成激情视频在线观看冫 | 欧美一区二区三区性| 爱爱小视频免费看| 黄黄网| 四虎中文| 深夜在线视频免费网址| 中文字幕 视频一区| 性欧美大战久久久久久久久| 男人天堂网www| 国产精品大片天天看片| 日韩在线三级| 久草在线资源网|