小说网,雪鹰领主,天域苍穹

做嵌入式系統軟件開發，經常在代碼中看到各種各樣的對齊，很多時候我們都是知其然不知其所以然，知道要做好各種對齊，但是不明白為什么要對齊，不對齊會有哪些后果，這篇文章大概總結了內存對齊的理由。

CPU體系結構和MMU的要求

目前有一些RISC指令集的CPU不支持非對齊的內存變量訪問操作，比如 MIPS/PowerPC/某些DSP等等，如果發生非對齊的內存訪問，會產生unaligned exception 異常。

ARM指令集是從ARMv6(ARM11)開始支持非對齊內存訪問的，以前老一點的ARM9的CPU也是不支持非對齊訪問的。ARM指令集支持的部分特性迭代如下:

盡管現代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支持非對齊內存訪問，但是考慮到如下圖所示現代SOC芯片里面多種異構CPU協調工作的情況，主CPU用于跑Linux/Android 操作系統的ARM64可以支持非對齊內存訪問，但是SOC里面還有其它不知道體系結構和版本的協CPU(可能是MIPS, ARM7，Cortex-R/M系列，甚至51單片機核)，這些協CPU都和主ARM64主CPU共享物理內存的不同地址段，并且有自己的固件程序在內存上運行，所以在劃分地址空間的時候還是要注意內存對齊的問題，尤其是考慮到這些協CPU可能不支持非對齊訪問，同樣在編寫協CPU固件程序的時候，也要清晰認識到該CPU是否支持非對齊內存訪問。

image.png

同樣在ARM的MMU虛擬地址管理中，也有內存地址對齊的要求，下圖是ARM的MMU的工作原理和多級頁表(Translation Tables)的索引關系圖

ARM體系架構的MMU要求

arm 32位體系結構要求L1第一級頁表基地址（The L1 Translation Table Base Addr）對齊到16KB的地址邊界，L2第二級頁表地址（The L2 Translation Table Add）對齊到1KB的地址邊界。

ARM 64位體系結構要求虛擬地址的第21-28位VA[28:21]對齊到64 KB granule，第16到20位VA[20:16]對齊到4 KB granule。

ARM 的Memory ordering特性中的不同Memory types對非對齊內存訪問的支持的要求是不同的。下圖是ARM Memory ordering特性中三種不同的Memory types訪問規則

只有Normal Memory是支持非對齊內存訪問的

Strongly-ordered 和 Device Memory不支持非對齊內存訪問

對原子操作的影響

盡管現代的ARMv7 ARMv8 指令集的ARM CPU支持非對齊內存訪問，但是非對齊內存訪問是無法保證操作的原子性。下圖分別是一個變量在內存對齊和非對齊的時候的內存布局:

內存對齊的變量訪問，使用單個通用的CPU寄存器暫存，一個內存對齊的變量的讀寫操作能保證是單次原子操作.

非對齊的變量的內存訪問是非原子操作，他們通常情況下訪問一個非對齊的內存中的變量需要2次分別的對內存進行訪問，因而不能保證原子性，一旦發生2次分別內存訪問，2次分別的訪問中間就有可能被異步事件打斷，造成變量改變，因而不能保證原子性。

ARM NEON的要求

現代ARM CPU一般都有一個NEON的協處理器，一般用在浮點計算中用來做SIMD并行矢量加速計算。下圖是NEON SIMD并行矢量計算的基本原理圖:

NEON本身是支持非對齊內存訪問的

但是NEON訪問非對齊的內存一般會有2個指令周期的時間penalty

通常情況下，為了靈活應用NEON的并行計算特性，在做SIMD并行矢量加速運算時，我們要根據NEON寄存器的Lane的bits數對齊相應的變量。如果是配置成8-bits的計算，就做8-bits對齊，如果是16-bits計算，就做16-bits對齊，以此類推，NEON的并行矢量計算的lane根據spec手冊，有各種靈活配置的方法。

對性能perf的影響

通常而言，盡管現代的ARM CPU已經支持非對齊內存的訪問，但是ARM訪問非對齊的內存地址還是會造成明顯的性能下降。因為訪問一個非對齊的內存，需要增加多次load/store內存變量次數，進而增加了程序運行的指令周期

才有perf工具進行性能分析，能看到非對齊內存訪問的性能下降，在perf工具中有一個alignment-faults的事件，可以觀察程序訪問非對齊內存的事件統計

cache line 對齊

除了通常所講的根據CPU訪問內存的地址位數的內存對齊之外，在程序優化的時候，還要考慮到cache存在的情況，根據cache line的長度來對齊你的訪問變量。

cache和cache line的結構原理圖如下(其中圖2從該文章引用自: cenalulu)，cache line是cache和內存進行數據傳輸的最小單位，一般cache都是以cache line的長度一次讀寫內存中的映射地址。

在ARM 系列的CPU中，不同型號的ARM CPU的cache line長度是不一樣的，因此同樣是基于ARM平臺的CPU，從A平臺移植優化過的程序到B平臺時，一定要注意不同CPU的cache line大小是否一致，是否要重新調整cache line對齊優化。下圖是ARMv7幾款公版CPU的cache line的資料手冊，ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基于公版ARM的定制版CPU的cache line大小可能有差異，一定要參考相關TRM手冊進行調整、對齊、優化.

下圖是一個例子關于未做cache line對齊的情況下，進行內存讀寫性能抖動的例子，引用自cenalulu.測試代碼如下程序的大意，對不同大小的數組進行1億次讀寫操作，統計不同數組size時的讀寫時間。從測試的結果可以看出，當數組大小小于cache line size時，讀寫時間基本變化不大，當數組大小剛剛超過cache line size的時候，讀寫時間發生了劇烈的抖動。這是因為超過cache line 大小的數組元素可能沒有提前預讀到cache line中，在訪問完cache line中的數組元素之后，要重新從內存讀取數據，刷新cache line，因而產生了性能抖動。通過這個例子告訴我們，充分利用系統cache特性，根據cache line對齊你的數據，保證程序訪問的局部數據都在一個cache line中可以提升系統性能。

#include"stdio.h"
#include
#include

longtimediff(clock_tt1,clock_tt2){
longelapsed;
elapsed=((double)t2-t1)/CLOCKS_PER_SEC*1000;
returnelapsed;
}

intmain(intargc,char*argv[])
#*******
{

intarray_size=atoi(argv[1]);
intrepeat_times=1000000000;
longarray[array_size];
for(inti=0;i

	
image.jpg

	

	

	沒有對齊到同一個cache line中的變量，在多核SMP系統中，cross cache line操作是非原子操作，存在篡改的風險。該例子引用自kongfy)測試代碼如下，程序大意是，系統cpu的cache line是64字節，一個68字節的結構體struct data， 其中前面填充60字節的pad[15]數組，最后一個8字節的變量v, 這樣結構體大小超過了64字節，最后一個變量v的前后部分可定不在同一個cache line中，整個結構體沒法根據cache line對齊。全局變量value.v初始值是0， 程序開多線程，對全局變量value.v進行多次~位取反操作，直覺上最后結果value.v的位結果不是全0就是全1，但是最后value.v的位結果居然是一半1一半0， 這就是由于cross cache line 操作是非原子性的，導致一個線程對value.v前半部分取反的時候，另外的線程對后半部分在另一個cache line同時取反，然后前一個線程再對另一個cache line的value.v后半部分取反，導致和直覺不一致。

	

	
#include
#include
#include
#include

usingnamespacestd;

staticconstint64_tMAX_THREAD_NUM=128;

staticint64_tn=0;
staticint64_tloop_count=0;

#pragmapack(1)
structdata
{
int32_tpad[15];
int64_tv;
};
#pragmapack()

staticdatavalue__attribute__((aligned(64)));
staticint64_tcounter[MAX_THREAD_NUM];

voidworker(int*cnt)
{
for(int64_ti=0;i
",argv[0]);
exit(1);
}

/*Parseargument*/
n=min(atol(argv[1]),MAX_THREAD_NUM);
loop_count=atol(argv[2]);/*Don'tbotherwithformatchecking*/

/*Startthethreads*/
for(int64_ti=0L;i

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

ARM

ARM

+關注

關注
134

文章
9097

瀏覽量
367555
嵌入式系統

嵌入式系統

+關注

關注
41

文章
3593

瀏覽量
129473
內存

內存

+關注

關注
8

文章
3025

瀏覽量
74047

原文標題：【內存管理】ARM嵌入式系統為什么要做內存對齊

文章出處：【微信號：嵌入式與Linux那些事，微信公眾號：嵌入式與Linux那些事】歡迎添加關注！文章轉載請注明出處。

Linux內核內存回收對嵌入式系統的重要性

嵌入式系統的內存回收還是比較重要的，因為這塊涉及到程序運行性能。

發表于 07-14 09:25 ?1727次閱讀

嵌入式的重要性

器那么復雜，但計算機系統的各種組成一樣也不缺。因此，以嵌入式系統作為切入點開始學習軟件技術是非常好的選擇，避開不必要的復雜性，把握計算機系統

發表于 05-13 10:12

Reset對系統穩定性有什么重要性？

嵌入式系統的應用領域越來越廣泛，干擾或者惡劣環境常影響嵌入式系統運行的穩定性和可靠性。Reset是維護系

發表于 03-11 07:53

Linux對嵌入式的重要性

最近遇到很多處于迷茫中的就業者，在糾結要不要從事嵌入式這個行業，主要問題在于嵌入式這個行業對求職者的專業技能要求是非常高的，但是現在嵌入式開發行業的確發展很好，很多的行業都是需要用

發表于 10-27 07:00

嵌入式軟件的重要性

效率的重要工作。目前，裝備嵌入式軟件的自動化測試，更多的還是依賴代碼級別的白盒測試工具；黑盒動態測試還主要是根據不同的裝備需求，研發配套的工裝系統，測試效率和測試深度都有很大缺陷。主要表現在以下幾點：...

發表于 10-27 06:59

嵌入式技術的重要性

、汽車電子、娛樂中的機器人，無不采用嵌入式技術。在通訊、網絡、工控、醫療、電子等領域，嵌入式發揮著越來越重要的作用。在百度搜索“嵌入式”、“

發表于 11-08 09:28

ARM嵌入式系統為什么要對齊？不對齊會有哪些后果

這里寫自定義目錄標題做嵌入式系統軟件開發，經常在代碼中看到各種各樣的對齊，很多時候我們都是知其然不知其所以然，知道要做好各種對齊，但是不明白為什么要

發表于 12-14 09:09

使用memtester工具對嵌入式Linux內存壓力進行測試

存儲器等。內存是將外存與CPU連接起來的橋梁，計算機中所有數據都需經過內存進行交互，而且所有應用程序都運行在內存中?？梢?，內存的

發表于 12-15 06:29

編程在嵌入式中的重要性

嵌入式小白入門博客時間總是不等人，轉眼間自己都已經是一名研一的學生了，回想起自己過去本科的學習，講實話根本是無規律可循，可以說自己大學四年在編程這塊都沒有用心去系統的學習過，當然這也和自己是控制專業

發表于 12-17 06:32

虛擬內存對內存申請的重要性

內存申請接口返回的內存可以直接使用, 正確性由操作系統/平臺來保證，沒必要判斷返回結果。答案：錯誤在嵌入式

發表于 12-17 06:30

嵌入式系統內存管理方案研究

摘要：嵌入式系統的內存管理機制必須滿足實時性和可靠性的要求。本文以開源的的操作系統RTEMS

發表于 05-24 23:57 ?1157次閱讀

Reset對嵌入式系統穩定性的重要性分析

嵌入式系統的應用領域越來越廣泛，干擾或者惡劣環境常影響嵌入式系統運行的穩定性和可靠性。 Reset 是維護

發表于 02-07 09:04 ?2207次閱讀

嵌入式系統的內存指針操作

到處理器的內存空間中。在x86系統中，分為內存和I/O映射兩種內存；在ARM體系

發表于 08-27 11:33 ?6208次閱讀

ARM嵌入式系統

一、常見的ARM嵌入式系統開發環境配置：1、編譯器/匯編器2、指令系統模擬器3、在線仿真器或調試探測器4、目標開發板5、跟蹤捕捉儀6、嵌入式

發表于 10-20 18:20 ?6次下載

RAM測試是什么？嵌入式系統開發中RAM測試的重要性

嵌入式系統在眾多關鍵應用中發揮著至關重要的作用，涵蓋汽車和航空航天工業到醫療設備和工業控制系統領域。隨著嵌入式

發表于 07-28 11:11 ?2393次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

ARM嵌入式系統中內存對齊的重要性

評論

Linux內核內存回收對嵌入式系統的重要性

嵌入式的重要性

Reset對系統穩定性有什么重要性？

Linux對嵌入式的重要性

嵌入式軟件的重要性

嵌入式技術的重要性

ARM嵌入式系統為什么要對齊？不對齊會有哪些后果

使用memtester工具對嵌入式Linux內存壓力進行測試

編程在嵌入式中的重要性

虛擬內存對內存申請的重要性

嵌入式系統內存管理方案研究

Reset對嵌入式系統穩定性的重要性分析

嵌入式系統的內存指針操作

ARM嵌入式系統

RAM測試是什么？嵌入式系統開發中RAM測試的重要性