在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ARM嵌入式系統中內存對齊的重要性

嵌入式與Linux那些事 ? 來源:嵌入式與Linux那些事 ? 2024-11-11 17:17 ? 次閱讀

嵌入式系統軟件開發,經常在代碼中看到各種各樣的對齊,很多時候我們都是知其然不知其所以然,知道要做好各種對齊,但是不明白為什么要對齊,不對齊會有哪些后果,這篇文章大概總結了內存對齊的理由。

CPU體系結構和MMU的要求

目前有一些RISC指令集的CPU不支持非對齊的內存變量訪問操作,比如 MIPS/PowerPC/某些DSP等等,如果發生非對齊的內存訪問,會產生unaligned exception 異常。

ARM指令集是從ARMv6(ARM11)開始支持非對齊內存訪問的,以前老一點的ARM9的CPU也是不支持非對齊訪問的。ARM指令集支持的部分特性迭代如下:

1a5ba9a2-905d-11ef-a511-92fbcf53809c.png

盡管現代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支持非對齊內存訪問,但是考慮到如下圖所示現代SOC芯片里面多種異構CPU協調工作的情況,主CPU用于跑Linux/Android操作系統的ARM64可以支持非對齊內存訪問,但是SOC里面還有其它不知道體系結構和版本的協CPU(可能是MIPS, ARM7,Cortex-R/M系列, 甚至51單片機核),這些協CPU都和主ARM64主CPU共享物理內存的不同地址段,并且有自己的固件程序在內存上運行,所以在劃分地址空間的時候還是要注意內存對齊的問題,尤其是考慮到這些協CPU可能不支持非對齊訪問,同樣在編寫協CPU固件程序的時候,也要清晰認識到該CPU是否支持非對齊內存訪問。

1a720602-905d-11ef-a511-92fbcf53809c.png

image.png

同樣在ARM的MMU虛擬地址管理中,也有內存地址對齊的要求,下圖是ARM的MMU的工作原理和多級頁表(Translation Tables)的索引關系圖

1a967578-905d-11ef-a511-92fbcf53809c.png

1aadc93a-905d-11ef-a511-92fbcf53809c.png

ARM體系架構的MMU要求

arm 32位體系結構要求L1第一級頁表基地址(The L1 Translation Table Base Addr)對齊到16KB的地址邊界,L2第二級頁表地址(The L2 Translation Table Add)對齊到1KB的地址邊界。

ARM 64位體系結構要求虛擬地址的第21-28位VA[28:21]對齊到64 KB granule, 第16到20位VA[20:16]對齊到4 KB granule。

ARM 的Memory ordering特性中的不同Memory types對非對齊內存訪問的支持的要求是不同的。下圖是ARM Memory ordering特性中三種不同的Memory types訪問規則

1ad18104-905d-11ef-a511-92fbcf53809c.png

只有Normal Memory是支持非對齊內存訪問的

Strongly-ordered 和 Device Memory不支持非對齊內存訪問

對原子操作的影響

盡管現代的ARMv7 ARMv8 指令集的ARM CPU支持非對齊內存訪問,但是非對齊內存訪問是無法保證操作的原子性。下圖分別是一個變量在內存對齊和非對齊的時候的內存布局:

1afc36c4-905d-11ef-a511-92fbcf53809c.png

1b1b2494-905d-11ef-a511-92fbcf53809c.png

內存對齊的變量訪問,使用單個通用的CPU寄存器暫存,一個內存對齊的變量的讀寫操作能保證是單次原子操作.

非對齊的變量的內存訪問是非原子操作,他們通常情況下訪問一個非對齊的內存中的變量需要2次分別的對內存進行訪問,因而不能保證原子性,一旦發生2次分別內存訪問,2次分別的訪問中間就有可能被異步事件打斷,造成變量改變,因而不能保證原子性。

ARM NEON的要求

現代ARM CPU一般都有一個NEON的協處理器,一般用在浮點計算中用來做SIMD并行矢量加速計算。下圖是NEON SIMD并行矢量計算的基本原理圖:

1b3c0bd2-905d-11ef-a511-92fbcf53809c.png

1b63bbb4-905d-11ef-a511-92fbcf53809c.png

NEON本身是支持非對齊內存訪問的

但是NEON訪問非對齊的內存一般會有2個指令周期的時間penalty

通常情況下,為了靈活應用NEON的并行計算特性,在做SIMD并行矢量加速運算時,我們要根據NEON寄存器的Lane的bits數對齊相應的變量。如果是配置成8-bits的計算,就做8-bits對齊,如果是16-bits計算,就做16-bits對齊,以此類推,NEON的并行矢量計算的lane根據spec手冊,有各種靈活配置的方法。

對性能perf的影響

通常而言,盡管現代的ARM CPU已經支持非對齊內存的訪問,但是ARM訪問非對齊的內存地址還是會造成明顯的性能下降。因為訪問一個非對齊的內存,需要增加多次load/store內存變量次數,進而增加了程序運行的指令周期

才有perf工具進行性能分析,能看到非對齊內存訪問的性能下降,在perf工具中有一個alignment-faults的事件,可以觀察程序訪問非對齊內存的事件統計

cache line 對齊

除了通常所講的根據CPU訪問內存的地址位數的內存對齊之外,在程序優化的時候,還要考慮到cache存在的情況,根據cache line的長度來對齊你的訪問變量。

cache和cache line的結構原理圖如下(其中圖2從該文章引用自: cenalulu),cache line是cache和內存進行數據傳輸的最小單位,一般cache都是以cache line的長度一次讀寫內存中的映射地址。

1b803cbc-905d-11ef-a511-92fbcf53809c.png

1b9a2974-905d-11ef-a511-92fbcf53809c.png

在ARM 系列的CPU中,不同型號的ARM CPU的cache line長度是不一樣的,因此同樣是基于ARM平臺的CPU,從A平臺移植優化過的程序到B平臺時,一定要注意不同CPU的cache line大小是否一致,是否要重新調整cache line對齊優化。下圖是ARMv7幾款公版CPU的cache line的資料手冊,ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基于公版ARM的定制版CPU的cache line大小可能有差異,一定要參考相關TRM手冊進行調整、對齊、優化.

1bb581ce-905d-11ef-a511-92fbcf53809c.png

下圖是一個例子關于未做cache line對齊的情況下,進行內存讀寫性能抖動的例子,引用自cenalulu.測試代碼如下程序的大意,對不同大小的數組進行1億次讀寫操作,統計不同數組size時的讀寫時間。從測試的結果可以看出,當數組大小小于cache line size時,讀寫時間基本變化不大,當數組大小剛剛超過cache line size的時候,讀寫時間發生了劇烈的抖動。這是因為超過cache line 大小的數組元素可能沒有提前預讀到cache line中,在訪問完cache line中的數組元素之后,要重新從內存讀取數據,刷新cache line,因而產生了性能抖動。通過這個例子告訴我們,充分利用系統cache特性,根據cache line對齊你的數據,保證程序訪問的局部數據都在一個cache line中可以提升系統性能。

#include"stdio.h"
#include
#include

longtimediff(clock_tt1,clock_tt2){
longelapsed;
elapsed=((double)t2-t1)/CLOCKS_PER_SEC*1000;
returnelapsed;
}

intmain(intargc,char*argv[])
#*******
{

intarray_size=atoi(argv[1]);
intrepeat_times=1000000000;
longarray[array_size];
for(inti=0;i

1bd12a1e-905d-11ef-a511-92fbcf53809c.png

image.jpg

沒有對齊到同一個cache line中的變量,在多核SMP系統中,cross cache line操作是非原子操作,存在篡改的風險。該例子引用自kongfy)測試代碼如下,程序大意是,系統cpu的cache line是64字節,一個68字節的結構體struct data, 其中前面填充60字節的pad[15]數組,最后一個8字節的變量v, 這樣結構體大小超過了64字節,最后一個變量v的前后部分可定不在同一個cache line中,整個結構體沒法根據cache line對齊。全局變量value.v初始值是0, 程序開多線程,對全局變量value.v進行多次~位取反操作,直覺上最后結果value.v的位結果不是全0就是全1,但是最后value.v的位結果居然是一半1一半0, 這就是由于cross cache line 操作是非原子性的,導致一個線程對value.v前半部分取反的時候,另外的線程對后半部分在另一個cache line同時取反,然后前一個線程再對另一個cache line的value.v后半部分取反,導致和直覺不一致。

#include
#include
#include
#include

usingnamespacestd;

staticconstint64_tMAX_THREAD_NUM=128;

staticint64_tn=0;
staticint64_tloop_count=0;

#pragmapack(1)
structdata
{
int32_tpad[15];
int64_tv;
};
#pragmapack()

staticdatavalue__attribute__((aligned(64)));
staticint64_tcounter[MAX_THREAD_NUM];

voidworker(int*cnt)
{
for(int64_ti=0;i
",argv[0]);
exit(1);
}

/*Parseargument*/
n=min(atol(argv[1]),MAX_THREAD_NUM);
loop_count=atol(argv[2]);/*Don'tbotherwithformatchecking*/

/*Startthethreads*/
for(int64_ti=0L;i

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9097

    瀏覽量

    367555
  • 嵌入式系統
    +關注

    關注

    41

    文章

    3593

    瀏覽量

    129473
  • 內存
    +關注

    關注

    8

    文章

    3025

    瀏覽量

    74047

原文標題:【內存管理】ARM嵌入式系統為什么要做內存對齊

文章出處:【微信號:嵌入式與Linux那些事,微信公眾號:嵌入式與Linux那些事】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Linux內核內存回收對嵌入式系統重要性

    嵌入式系統內存回收還是比較重要的,因為這塊涉及到程序運行性能。
    的頭像 發表于 07-14 09:25 ?1727次閱讀

    嵌入式重要性

    器那么復雜,但計算機系統的各種組成一樣也不缺。因此,以嵌入式系統作為切入點開始學習軟件技術是非常好的選擇,避開不必要的復雜,把握計算機系統
    發表于 05-13 10:12

    Reset對系統穩定性有什么重要性?

    嵌入式系統的應用領域越來越廣泛,干擾或者惡劣環境常影響嵌入式系統運行的穩定性和可靠。Reset是維護
    發表于 03-11 07:53

    Linux對嵌入式重要性

    最近遇到很多處于迷茫的就業者,在糾結要不要從事嵌入式這個行業,主要問題在于嵌入式這個行業對求職者的專業技能要求是非常高的,但是現在嵌入式開發行業的確發展很好,很多的行業都是需要用
    發表于 10-27 07:00

    嵌入式軟件的重要性

    效率的重要工作。目前,裝備嵌入式軟件的自動化測試,更多的還是依賴代碼級別的白盒測試工具;黑盒動態測試還主要是根據不同的裝備需求,研發配套的工裝系統,測試效率和測試深度都有很大缺陷。主要表現在以下幾點:...
    發表于 10-27 06:59

    嵌入式技術的重要性

    、汽車電子、娛樂的機器人,無不采用嵌入式技術。在通訊、網絡、工控、醫療、電子等領域,嵌入式發揮著越來越重要的作用。在百度搜索“嵌入式”、“
    發表于 11-08 09:28

    ARM嵌入式系統為什么要對齊?不對齊會有哪些后果

    這里寫自定義目錄標題做嵌入式系統軟件開發,經常在代碼中看到各種各樣的對齊,很多時候我們都是知其然不知其所以然,知道要做好各種對齊,但是不明白為什么要
    發表于 12-14 09:09

    使用memtester工具對嵌入式Linux內存壓力進行測試

    存儲器等。內存是將外存與CPU連接起來的橋梁,計算機中所有數據都需經過內存進行交互,而且所有應用程序都運行在內存??梢?,內存
    發表于 12-15 06:29

    編程在嵌入式重要性

    嵌入式小白入門博客時間總是不等人,轉眼間自己都已經是一名研一的學生了,回想起自己過去本科的學習,講實話根本是無規律可循,可以說自己大學四年在編程這塊都沒有用心去系統的學習過,當然這也和自己是控制專業
    發表于 12-17 06:32

    虛擬內存內存申請的重要性

    內存申請接口返回的內存可以直接使用, 正確由操作系統/平臺來保證,沒必要判斷返回結果。答案:錯誤在嵌入式
    發表于 12-17 06:30

    嵌入式系統內存管理方案研究

    摘要:嵌入式系統內存管理機制必須滿足實時和可靠的要求。本文以開源的的操作系統RTEMS
    發表于 05-24 23:57 ?1157次閱讀
    <b class='flag-5'>嵌入式</b><b class='flag-5'>系統</b><b class='flag-5'>內存</b>管理方案研究

    Reset對嵌入式系統穩定性的重要性分析

    嵌入式系統 的應用領域越來越廣泛,干擾或者惡劣環境常影響嵌入式系統運行的 穩定性 和可靠。 Reset 是維護
    發表于 02-07 09:04 ?2207次閱讀
    Reset對<b class='flag-5'>嵌入式</b><b class='flag-5'>系統</b>穩定性的<b class='flag-5'>重要性</b>分析

    嵌入式系統內存指針操作

    到處理器的內存空間中。在x86系統,分為內存和I/O映射兩種內存;在ARM體系
    的頭像 發表于 08-27 11:33 ?6208次閱讀

    ARM嵌入式系統

    一、常見的ARM嵌入式系統開發環境配置:1、編譯器/匯編器2、指令系統模擬器3、在線仿真器或調試探測器4、目標開發板5、跟蹤捕捉儀6、嵌入式
    發表于 10-20 18:20 ?6次下載
    <b class='flag-5'>ARM</b><b class='flag-5'>嵌入式</b><b class='flag-5'>系統</b>

    RAM測試是什么?嵌入式系統開發RAM測試的重要性

    嵌入式系統在眾多關鍵應用中發揮著至關重要的作用,涵蓋汽車和航空航天工業到醫療設備和工業控制系統領域。隨著嵌入式
    發表于 07-28 11:11 ?2393次閱讀
    主站蜘蛛池模板: 末满18以下勿进色禁网站| 1024国产欧美日韩精品| 中文字字幕码一二区| 四虎午夜剧场| 丁香婷婷基地| 澳门久久精品| 性色视频免费| 成人影院久久久久久影院| 91网站在线看| 五月天免费在线播放| 成年大片免费视频播放手机不卡| 爱操视频在线观看| 午夜色在线| aa黄色大片| 一道精品一区二区三区| 欧美精品videosex极品| 日韩黄色网| 中文字幕第十页| 黄色网址你懂的| 91大神大战高跟丝袜美女| 上课被同桌摸下面做羞羞| 亚洲一本之道在线观看不卡| 亚洲免费视频一区| 美女视频很黄很a免费国产| 国产女同在线观看| 婷婷丁香亚洲| 天天天狠天天透天天制色| 国产在播放一区| 痴女中文字幕在线视频| xxx黄色片| 免费观看色视频| 国产亚洲片| 色福利网| 美女福利在线观看| 午夜婷婷网| 天天插视频| 亚洲国产香蕉视频欧美| 中日韩一级片| 国产叼嘿网站免费观看不用充会员| 国产三片理论电影在线| 在线免费看黄视频|