在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PRelu算子調優經歷-函數優化策略

恩智浦MCU加油站 ? 來源:NXP ? 作者:NXP ? 2023-08-24 08:50 ? 次閱讀

上一篇小編和大家分享了在運行客戶的一個模型時遇到了一個PRelu算子,在利用TFLm自帶的PRelu參考實現的代碼,其中PRelu竟然拋出了188ms的天文數字...因此小編開始準備PRelu算子的優化工作。

分析了參考實現后,發現了兩個優化方向,其一是PRelu中alpha參數的特殊性所帶來的內存訪問優化;以及量化模型所帶來的反量化問題。

本期小編就和大家一起來看下對于反量化問題的優化細節。在開始前,再來回顧一下小編所特殊定制的模型:

8d384948-4217-11ee-a2ef-92fbcf53809c.png

這是一個具有5個節點的小巧的深度神經網絡,輸入時128*128*3,模型推理時間(采用Keil IDE,ofast優化):

8d4fd5a4-4217-11ee-a2ef-92fbcf53809c.png

跳過PRelu算子,模型推理時間:

8d855300-4217-11ee-a2ef-92fbcf53809c.png

這樣我們就可以得出PRelu算子的執行時間為13ms,接下來就將以此為基礎進行算法優化,TFLm算法實現:

output_value = MultiplyByQuantizedMultiplier(
                  input_value, params.output_multiplier_1, params.output_shift_1);
output_value = MultiplyByQuantizedMultiplier(
                  input_value * alpha_value, params.output_multiplier_2, params.output_shift_2);

上一篇小編給大家解釋了為何需要進行反量化操作以及其必要性。所謂反量化操作的本質,就是要用int8類型的中間結果來準確表達浮點結果。那么具體來說需要怎么操作呢?下面就是嚴謹的推公式環節,請讀友們不要眨眼:

首先是整數環節,我們假設輸入為input, 輸出為output,參數alpha;其參數類型均為int8。而想要將其反量化為浮點數,需要為其設定對應的量化參數,分別為scale以及zero_point。這樣一來,變量的浮點數表示即為:

v_fp=scale* (v_i8+zero_point)

為了分析簡單,我們假設zero_point為0,那么上式可被簡化為,當然實際計算式,只需要將輸入值提前加上其zero_point再進行操作即可:

v_fp=scale* v_i8

接下來我們根據輸入數據的符號進行區分,當輸入為正時,其輸出結果為,

scale_o* output=scale_i* v_i8
output=scale_i  /  scale_0* v_i8

這樣我們就可以根據輸入直接獲取int8類型的輸出結果。

當輸入為負時:

scale_o* output=(scale_a*alpha)*(scale_i* v_i8)
output=((scale_a* scale_i)/scale_0)* 〖alpha*v〗_i8)

這樣也就獲得了相對應的負數輸入所對應的輸出結果。不過,征程還沒有結束,TFLm的參考實現會將這兩組浮點數代表的scale參數轉換為指數形式,并以mul+shift的形式保存為:正數output_multipiler_1和output_shift_1, 負數output_multipiler_2和output_shift_2。

知道了結果是如何進行反量化操作的,回過頭我們看看TFLm的實現:

inline std::int16_t SaturatingRoundingDoublingHighMul(std::int16_t a,
                                                      std::int16_t b) {
  bool overflow = a == b && a == std::numeric_limits<std::int16_t>::min();
  std::int32_t a_32(a);
  std::int32_t b_32(b);
  std::int32_t ab_32 = a_32 * b_32;
  std::int16_t nudge = ab_32 >= 0 ? (1 << 14) : (1 - (1 << 14));
  std::int16_t ab_x2_high16 =
      static_cast<std::int16_t>((ab_32 + nudge) / (1 << 15));
  return overflow ? std::numeric_limits<std::int16_t>::max() : ab_x2_high16;
}
inline int32_t MultiplyByQuantizedMultiplier(int32_t x,
                                             int32_t quantized_multiplier,
                                             int shift) {
  using gemmlowp::RoundingDivideByPOT;
  using gemmlowp::SaturatingRoundingDoublingHighMul;
  int left_shift = shift > 0 ? shift : 0;
  int right_shift = shift > 0 ? 0 : -shift;
  return RoundingDivideByPOT(SaturatingRoundingDoublingHighMul(
                                 x * (1 << left_shift), quantized_multiplier),
                             right_shift);
}

首先arm的cmsis-nn庫是兼容這種量化方式的,那么他也一定有一個這樣的實現,功夫不負有心人,這個函數叫做arm_nn_requantize,直接替換MultiplyByQuantizedMultiplier函數讓我們先看一下速度:

8d98c700-4217-11ee-a2ef-92fbcf53809c.png

嗯,不錯,有效果,44ms->42ms,相當于PRelu算子執行速度從13ms->11ms; 還可以,無痛漲點。翻看arm_nn_requantize函數,其中也不乏一些手撕浮點數的神秘操作。考慮到我們的RT1170本身兼備一個FPU單元,為啥不直接用浮點數計算呢?這次我們不對scale參數進行指數化轉換,而是直接將其作為浮點數參與運算,公式就是上面我們推導的:

 // init the float mul, shift
  float real_multiplier_1 = (input->params.scale) / (output->params.scale);
  float real_multiplier_2 = (input->params.scale) * (alpha->params.scale) / (output->params.scale);

計算方式重新定義為:

output_value = MultiplyByQuantizedMultiplierFP32(
                input_value, multiplier_pos);
static inline int32_t MultiplyByQuantizedMultiplierFP32(int32_t x, float mul){
  return roundf(x * mul);

是不是看著非常清爽?讓我們看下時間:

8db06e50-4217-11ee-a2ef-92fbcf53809c.png

額。。。有點尷尬,竟然沒有長點,而且和TFLm的原始實現速度一樣。小編才提到的內存優化不是還沒有上?浮點運算這邊還有小插曲,讓我們繼續前行:

首先讓我們先看下浮點操作再如何進行優化,由于我們的代碼由于采用了Ofast優化策略,因此代碼的可閱讀性變得很差。為了進行代碼優化,小編需要特殊編寫一組浮點運算代碼以供優化參考,因為我們最終實現的是一個int32數據與浮點數相乘:

static inline int32_t MultiplyByQuantizedMultiplierFP32(int32_t x, float mul){
  return roundf(x * mul);
}

編寫代碼如下:

 int32_t v1 = (float)SysTick->VAL;
    float v2 = SysTick->VAL * 0.0001f;
    int32_t v3 = (v1 * v2);
    PRINTF("%d", v3);

其所生成的匯編代碼為:

int32_t v1 = (float)SysTick->VAL;
     800040DC   LDR            R2, [R0]
     800040DE   STRD           R2, R1, [SP]
     800040E2   VLDR           D0, [SP]
     800040E8   VSUB.F64       D0, D0, D1
     800040F0   VCVT.F32.F64   S0, D0
     800040F8   VCVT.S32.F32   S0, S0
     800040FE   VMOV           R0, S0
    float v2 = SysTick->VAL * 0.0001f;
     800040E6   LDR            R0, [R0]
     800040EC   STRD           R0, R1, [SP, #16]
     800040F4   VLDR           D2, [SP, #16]
     80004102   VSUB.F64       D0, D2, D1
     80004106   VLDR           D2, =0x4330000080000000
     80004110   VCVT.F32.F64   S0, D0
     80004122   VMUL.F32       S0, S0, S4
    int32_t v3 = (v1 * v2);
     800040FC   STR            R1, [SP, #12]
     8000410A   EOR            R0, R0, #0x80000000
     8000410E   STR            R0, [SP, #8]
     80004116   VLDR           D1, [SP, #8]
     8000411A   VSUB.F64       D1, D1, D2
     8000411E   VLDR           S4, =0x38D1B717            
     80004126   VCVT.F32.F64   S2, D1
     8000412A   VMUL.F32       S0, S2, S0

到這里,小伙伴們可能已經看到了端倪,小編也特意為大家標紅了幾條匯編代碼。那小編就先拋出疑問:我們明明定義的浮點型, 咋還用上double類型了呢?相同的代碼用GCC編譯會是什么樣的呢?

int32_t v1 = (float)SysTick->VAL;
300030f2:   mov.w   r3, #3758153728 ; 0xe000e000
300030f6:   vldr    s15, [r3, #24]
71            float v2 = SysTick->VAL * 0.0001f;
300030fa:   vldr    s14, [r3, #24]
300030fe:   vcvt.f32.u32    s14, s14
30003102:   vldr    s13, [pc, #92]  ; 0x30003160 +148>
30003106:   vmul.f32        s14, s14, s13
72            int32_t v3 = __builtin_roundf(v1 * v2);
3000310a:   vcvt.f32.s32    s15, s15
3000310e:   vmul.f32        s15, s15, s14
30003112:   vrinta.f32      s15, s15

看似正常,沒有使用double類型寄存器那問題出在哪呢?難道Keil對于浮點數的支持不太行?翻閱了一萬件資料之后,小編在編譯時使用一個叫做-ffp-mode = full的參數,這個參數的意思是:

8dcecf26-4217-11ee-a2ef-92fbcf53809c.png

同時還有兩個參數,是-fp-mode=fast和-fp-mode=std,簡單來講就是full會保證轉換精度,因此會出現使用double類型的情況。而fast可能會丟失一點精度,而std介于兩者之間。那么我們定義-fp-mode=std試試?

8df75bc6-4217-11ee-a2ef-92fbcf53809c.png

代碼如下:

int32_t v1 = (float)SysTick->VAL;
     800040D4   VLDR           S0, [R0]
     800040E2   VCVT.F32.U32   S0, S0
    float v2 = SysTick->VAL * 0.0001f;
     800040D8   VLDR           S2, [R0]
     800040DC   VCVT.F32.U32   S2, S2
     800040E6   VMUL.F32       S2, S2, S4
    int32_t v3 = (v1 * v2);
     800040EA   VRINTZ.F32     S0, S0
     800040EE   VMUL.F32       S0, S2, S0

嗯,優雅,就是這么簡單。指令條數減少了很多啊,讓我們再來看看時間:

8e058d04-4217-11ee-a2ef-92fbcf53809c.png

這樣一來就和arm提供的方式一致了,相比實現就清爽了很多。

接下來小編還有一個殺手锏,內存優化,不過此處的內存優化是有個前提,我們知道PRelu的alpha參數是按通道的,這里要做個特殊的假設,假設輸入維度為 h w c,而且alpha參數是按h w共享的,即只有最后一維參數,維度為11 c:

if((alpha_shape.Dims(0) == 1) && (alpha_shape.Dims(1) == 1))

這樣我們就可以按c通道進行展開,并進行順序訪問;

其次,輸入數據為int8類型,原始實現方式中每次只取一個數據進行計算:

const int32_t input_value =
              params.input_offset + input_data[input_index];

這樣編譯器會將起編譯為LDRB指令,即每次只獲取一個字節的數據。對此進行優化,每次讀取4個字節的數據,這樣可以編譯為LDR指令,并放置于寄存器中,減少訪存次數:

uint32_t steps = alpha_shape.Dims(2);
uint32_t total_size = input_shape.Dims(0) * input_shape.Dims(1) * input_shape.Dims(2) * input_shape.Dims(3);
for(int value_index=0;value_index    T *alpha = (T *)alpha_data;
    // each 4, calc the time_tick
    uint32_t inner_loop = steps >> 2;
    int8_t *input_data_ptr = (int8_t*)input_data + value_index;
    int8_t *output_data_ptr = (int8_t*)output_data + value_index;
    while(inner_loop --){
       int32_t input_data_32 = *((int32_t*)(input_data_ptr));
       input_data_ptr += 4;
       uint32_t count = 4;
          while(count--){
              int8_t input_data_8 = input_data_32 & 0xFF;
              input_data_32 >>= 8;
       。。。。

;value_index+=steps){>

這樣一來,就可以順序取數據,并且每次讀取4個字節,看下時間:

8e32c1d4-4217-11ee-a2ef-92fbcf53809c.png

Nice!~

PRelu的時間變為37ms – 31ms = 6ms。經過兩步優化,將PRelu的執行時間降低了7ms。用客戶的模型測試一下,PRelu算子運行時間從之前的188ms降低到了51ms。Perfect!

不過,小編精益求精,還有一些微小的優化空間,后續將會進一步優化。

歡迎朋友們持續關注~


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • mcu
    mcu
    +關注

    關注

    146

    文章

    17301

    瀏覽量

    352131
  • NXP
    NXP
    +關注

    關注

    60

    文章

    1287

    瀏覽量

    184985
  • 恩智浦
    +關注

    關注

    14

    文章

    5877

    瀏覽量

    108041
  • 函數
    +關注

    關注

    3

    文章

    4344

    瀏覽量

    62853
  • 算子
    +關注

    關注

    0

    文章

    16

    瀏覽量

    7268

原文標題:PRelu算子調優經歷-函數優化策略

文章出處:【微信號:NXP_SMART_HARDWARE,微信公眾號:恩智浦MCU加油站】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    MCF8316A調指南

    電子發燒友網站提供《MCF8316A調指南.pdf》資料免費下載
    發表于 11-20 17:21 ?0次下載
    MCF8316A<b class='flag-5'>調</b><b class='flag-5'>優</b>指南

    MCT8316A調指南

    電子發燒友網站提供《MCT8316A調指南.pdf》資料免費下載
    發表于 11-13 13:49 ?0次下載
    MCT8316A<b class='flag-5'>調</b><b class='flag-5'>優</b>指南

    MCT8315A調指南

    電子發燒友網站提供《MCT8315A調指南.pdf》資料免費下載
    發表于 11-12 14:14 ?1次下載
    MCT8315A<b class='flag-5'>調</b><b class='flag-5'>優</b>指南

    MMC DLL調

    電子發燒友網站提供《MMC DLL調.pdf》資料免費下載
    發表于 10-11 11:48 ?0次下載
    MMC DLL<b class='flag-5'>調</b><b class='flag-5'>優</b>

    TDA3xx ISS調和調試基礎設施

    電子發燒友網站提供《TDA3xx ISS調和調試基礎設施.pdf》資料免費下載
    發表于 10-11 10:16 ?0次下載
    TDA3xx ISS<b class='flag-5'>調</b><b class='flag-5'>優</b>和調試基礎設施

    大數據從業者必知必會的Hive SQL調技巧

    不盡人意。本文針對Hive SQL的性能優化進行深入研究,提出了一系列可行的調方案,并給出了相應的優化案例和優化前后的SQL代碼。通過合理
    的頭像 發表于 09-24 13:30 ?305次閱讀

    智能調,使步進電機安靜而高效地運行

    電子發燒友網站提供《智能調,使步進電機安靜而高效地運行.pdf》資料免費下載
    發表于 09-24 11:08 ?1次下載
    智能<b class='flag-5'>調</b><b class='flag-5'>優</b>,使步進電機安靜而高效地運行

    MMC SW調算法

    電子發燒友網站提供《MMC SW調算法.pdf》資料免費下載
    發表于 09-20 11:14 ?0次下載
    MMC SW<b class='flag-5'>調</b><b class='flag-5'>優</b>算法

    TAS58xx系列通用調指南

    電子發燒友網站提供《TAS58xx系列通用調指南.pdf》資料免費下載
    發表于 09-14 10:49 ?0次下載
    TAS58xx系列通用<b class='flag-5'>調</b><b class='flag-5'>優</b>指南

    AM6xA ISP調指南

    電子發燒友網站提供《AM6xA ISP調指南.pdf》資料免費下載
    發表于 09-07 09:52 ?0次下載
    AM6xA ISP<b class='flag-5'>調</b><b class='flag-5'>優</b>指南

    OSPI控制器PHY調算法

    電子發燒友網站提供《OSPI控制器PHY調算法.pdf》資料免費下載
    發表于 08-30 11:12 ?0次下載
    OSPI控制器PHY<b class='flag-5'>調</b><b class='flag-5'>優</b>算法

    深度解析JVM調實踐應用

    Tomcat自身的調是針對conf/server.xml中的幾個參數的調設置。首先是對這幾個參數的含義要有深刻而清楚的理解。
    的頭像 發表于 04-01 10:24 ?502次閱讀
    深度解析JVM<b class='flag-5'>調</b><b class='flag-5'>優</b>實踐應用

    鴻蒙開發實戰:【性能調組件】

    性能調組件包含系統和應用調框架,旨在為開發者提供一套性能調平臺,可以用來分析內存、性能等問
    的頭像 發表于 03-13 15:12 ?485次閱讀
    鴻蒙開發實戰:【性能<b class='flag-5'>調</b><b class='flag-5'>優</b>組件】

    調函數(callback)是什么?回調函數的實現方法

    調函數是一種特殊的函數,它作為參數傳遞給另一個函數,并在被調用函數執行完畢后被調用。回調
    發表于 03-12 11:46 ?3103次閱讀

    ??嵌入式中回調函數的實現方法

    調函數的命名規范沒有固定的標準,但是根據通用慣例和編碼規范,回調函數的命名應該能夠反映函數的作用和功能,讓其他開發者能夠快速理解并使用。
    發表于 03-04 14:49 ?798次閱讀
    主站蜘蛛池模板: 性黄视频| 国产午夜精品久久理论片小说| 一级特黄特黄的大片免费| 国产精品亚洲四区在线观看 | 亚洲天天综合| 国产三级在线看| 欧美污视频网站| 色播五月婷婷| 无夜精品久久久久久| 一级毛片 在线播放| 久久99久久精品国产只有| 一本到卡二卡三卡四卡 | 国产视频一区二| ts国产| 成人av.com| 国产福利资源在线| 又粗又长又大又黄的日本视频| 国产美女视频一区二区三区| 美女一级a毛片免费观看| 日本高清色www| 日本黄色一区| 韩国三级hd中文字幕| 黄 色 免 费 网站在线观看| 美女毛片免费| 96一级毛片| 午夜一级毛片看看| 午夜88| 色天天网| 免费国产99久久久香蕉| 日本加勒比在线视频| 日操| 欧美在线黄色| 在线免费看黄视频| 日本亚洲卡一卡2卡二卡三卡四卡| 一区二区三区网站在线免费线观看| 免费黄视频在线观看| 久久国产99| 色偷偷视频| 狼狼色丁香久久女婷婷综合| 久久夜色精品国产亚洲噜噜| 黄网站色视频|