一、 引 言
隨著近兩年各種智能手機、平板電腦、車載電子等各種消 費品的蓬勃發展,ARM體系結構的處理器,作為這些消費品的處理核心,也得到了長足的進步,甚至擊敗了Intel,在移動嵌入式領域獨占鰲頭。本文將首先介紹ARM體系結構的發展歷程,然后將著重梳理其最先進的Cortex系列處理器的體系結構,以及這些結構對于各種軟件平臺如JAVA、.NET的支持等。
二、 ARM體系結構的歷史即其新進展
2.1 ARM體系結構市場前景
來自英國的ARM(Acorn RISC Machine)公司雖然以ARM處理器著稱,但是它獨特的商業模式卻決定了ARM公司本身并不生產處理器,這點與從研發到生產到出貨垂直整合的Intel公司有很大不同,ARM公司采取的是授權與提成的商業模式(Intellectual Property Core 簡寫IP-Core):公司自己研發處理器體系架構,然后將這套架構的知識產權有償授權給處理器制造廠商如高通、三星等半導體廠商,這些廠商造出的每一塊使用ARM體系結構的芯片只需向ARM公司交付低廉的提成即可。由于這種創新的商業模式和低廉的成本,加上ARM體系的低功耗特點,讓ARM體系在對價格敏感和續航能力敏感的32位嵌入式電子消費品市場如虎添翼,基本占據了32位嵌入式消費平100%的市場份額。發展到如今,ARM芯片甚至在對運算速度要求更高的的上網本、平板電腦也大有跟Intel的ATOM處理器一較高低的實力。近來紅得發紫的蘋果iPad就是采用的ARM深度定制的一款處理器架構,其它還有很多運行著Android系統的平板產品、智能手機產品等也都采用ARM體系結構的處理核心。由此可見ARM體系結構在移動電子消費品市場無與倫比的優勢。
2.2 ARM體系發展歷史
1985——誕生了第一顆ARM芯片,ARM1 Sample版。
1986——ARM2,具有32位數據總線,26位地址總線,16個32位寄存器的處理器實現產能量產。
20世紀80年代晚期——蘋果電腦開始與Acorn合作開發新版的ARM核心。
1991——與蘋果的合作造就了ARM6,并進入了蘋果的Apple Newton PDA和Acorn Risc-PC成為了它們的處理器。在該年正式成立了ARM公司,作為Acorn的一家子公司。
1991——至今ARM的產品已經橫貫應用程序處理器,嵌入式處理器,專家系統等各種計算領域,成為了移動電子消費品市場、復雜工業控制應用的首選處理器體系架構。
2.3 ARM產品系列簡介
2.3.1 經典ARM 處理器
這一系列包括的處理器架構有:
l ARM11 系列 —— 基于ARMv6 體系結構的高性能處理器
l ARM9 系列 —— 基于ARMv5 體系結構的常用處理器
l ARM7 系列 —— 面向普通應用的經典處理器
該系列適用于那些希望在新應用中追求穩定的產品。這些處理器提供了許多的特性、卓越的功效和范圍廣泛的操作能力,適用于成本敏感型解決方案。這些處理器每年都有數十億的發貨量,因此可確保設計者獲得最廣泛的體系和資源,從而最大限度地減少集成過程中出現的問題并縮短上市時間。
2.3.2 ARM Cortex 嵌入式處理器
這一系列的處理器架構有:
l Cortex-R 系列 —— 面向實時應用的卓越性能
l Cortex-M 系列 —— 面向具有確定性的微控制器應用的成本敏感型解決方案
Cortex-M 系列處理器主要是針對微控制器領域開發的,在該領域中,既需進行快速且具有高確定性的中斷管理,又需將門數和可能功耗控制在最低;而Cortex-R 系列處理器的開發則面向深層嵌入式實時應用,對低功耗、良好的中斷行為、卓越性能以及與現有平臺的高兼容性這些需求進行了平衡考慮。
2.3.3 ARM Cortex 應用程序處理器
這一系列包括的處理器架構只有
l Cortex-A 系列- 開放式操作系統的高性能處理器
Cortex-A在高級工藝節點中可實現高達2GHZ+的主頻,也正是由于如此卓越的性能,該處理器架構可用于下一代Internet設備,而且該系列提供單核和多核多種種類,并且提供NEON多媒體處理模塊的四種選擇和高級浮點執行單元和處理單元。
2.3.4 ARM 專家處理器
這一系列包括的處理器架構只有
l SecurCore - 面向高安全性應用的處理器
l FPGA 內核- 面向FPGA 的處理器
該系列的處理器主要是為了滿足一些特定市場的苛刻需求。SecurCore可以用于手機SIM卡和其他識別應用,集成了多種既可以為用戶提供卓越性能,又可以檢測和避免安全攻擊的技術。
2.4 ARM指令集
談到ARM的指令系統,必須先明確一點的就是,ARM體系結構不同于x86,它是RISC(Reduced Instruction Set Computer)體系結構。所以,在ARM指令體系中,各指令相對來說更加規整、對稱、簡單。而且指令小于100條,基本尋址方式只有2~3中,而且指令字長都比較一直,并都在單個時鐘周期內完成,以便于流水操作。在ARM7中采用的是3級流水線:取值、譯碼、執行。而ARM9和ARM10則是五級流水線和六級流水線。ARM的訪存采用的都是LOAD-STORE結構,這樣可以把每條指令的執行時間都平均化,有助于高效的流水線的實現,采用這種結構也就同時意味著指令都要在寄存器間進行操作,所以ARM體系中有大量的寄存器(不少于32個)。
2.4.1 ARM指令與Thumb指令
ARM指令集可以是32位長的ARM指令,也可以是16位長的Thumb指令,這主要是為了兼容數據總線為16位的應用系統。所有的Thumb指令都有對應的ARM指令,Thumb只是ARM的一個真子集,而且Thumb指令舍棄了ARM指令集的一些特性,如大多數Thumb指令都是無條件執行的,而幾乎所有的ARM指令都是有條件執行的,又如大多數的Thumb指令由于長度有限,目的寄存器是源寄存器中的一個,這跟x86的匯編指令集相似。
Thumb指令的優點在于它可以在保留32位代碼優勢的同時,大大節省系統的存儲空間,因為在Thumb指令集中的操作數仍然是32位的,指令地址也是32位的,只是指令編碼變成了16位,而ARM指令則為32位,所以,相比之下,實現同樣的功能,Thumb指令的條數要比ARM略多。圖2.1是“Add Rd,#Constant”在Thumb狀態和ARM狀態下的指 令比較:
由上圖我們可以清楚地看到Thumb指令的精簡之處,所以Thumb的存儲空間僅僅是ARM存儲空間的60%~70%,但是Thumb的指令條數比ARM指令條數多30%~50%,如果使用32位的存儲器,由于指令條數較少等原因,ARM指令會比Thumb指令快40%左右,而使用16位存儲器時,Thumb指令則會快40%~50%。同時與ARM比較Thumb指令的功耗會降低約30%。但是Thumb指令也有其局限性。第一、偏移范圍,在Thumb指令中條件轉移偏移只有8位,也就是說只能在256Byte的范圍內有條件地轉移,在無條件轉移中可以有16位的偏移,而這些在ARM指令中都是32位,大大提高了靈活性。同時,在Thumb指令中不支持乘法和累加,沒有協處理器指令沒有信號量指令也沒有CPSR指令。
在面臨二者的取舍的時候,同其它無數的案例一樣,發揮各自的長處是最完美的解法。如果系統對性能要求較高,應采用32位的存儲器和ARM指令集,而對功耗和成本要求較高,則應使用Thumb指令集。但是如果兩者結合使用,讓它們充分發揮各自的優點,則會取得更好的效果。
ARM指令的基本格式如下:
《opcode》 {《cond》} {S} 《Rd》 ,《Rn》{,《operand2》}
其中《》號內的項是必須的,{}號內的項是可選的,opcode為指令助記符;cond是該動作的執行條件;S表示影響CPSR寄存器(程序狀態寄存器)的值,如果不加則表示不影響 CPSR的值;Rd表示運算結果的目標寄存器;Rn表示第1個操作數的寄存器;operand2表示第2個操作數,可選。
同時,ARM芯片還支持協處理器,在ARM指令集中有對協處理器的數據操作、數據讀取、數據寫入和CPU與協處理器的寄存器傳送的相應指令。
ARM指令集詳細介紹見附錄A。
2.5 ARM體系結構對運行平臺的支持 ——Jazelle技術
運行Java虛擬機(JVM)解釋Java字節碼這種方式對大多數嵌入式應用來說占用空間過多,運行速度過慢。而系統發展的趨勢及市場的需求決定了Java應用需要有更強的圖形處理能力以及一個強大的Java虛擬機。于是催生出了Jazelle技術,從硬件上對Java虛擬機提供支持。 Jazelle DBX(Direct Bytecode eXecution)是一種硬件架構擴展技術,為ARM處理器引入了第三套指令集—Java字節碼。新指令集建立了一種新的狀態,處理器在此狀態下處理Java字節碼取指令、譯碼和維護Java操作數棧等任務。允許它們在某些架構的硬件上加速執行Java字節碼,就如其他執行模式般,它能在現存的ARM與Thumb模式之間互相切換。為了降低芯片尺寸并提高性能,Jazelle DBX沒有設計成傳統形式的微引擎,而是融入流水線中的一個有限狀態機。如圖2.2所示
Jazelle DBX技術增加了一條新的“Branch-to-Java”指令來進入Java狀態。此指令支持條件執行,先檢查條件標志,如果條件滿足,處理器進入Java狀態,跳轉到指定目標地址,開始執行Java字節碼。在Java狀態下,PC寄存器仍是32位尋址Java字節代碼。字節碼的取指、譯碼分別在兩個流水段完成(對應ARM/Thumb狀態下為一個譯碼流水級)。32位的取指令操作一次性可以取4個Java字節碼,性能優勢十分明顯,對于一個高度優化的商業Java虛擬機,運行評測程序或復雜的MIDP2.0應用,Jazelle DBX技術通??蓭砑s2~4倍的性能提升。Jazelle DBX技術允許所有的Java指令是“可重新開始”的。這樣在執行Java指令過程中,即刻響應中斷,從而減少中斷延遲,確保實時性能。
在ARM處理器的Java狀態下,有若干個ARM寄存器可以功能復用(包括棧指針、棧頂四項(top4 elements of stack)、局部變量0等)。正是這些硬件復用設計,才使得只用了很少的額外邏輯(約一萬兩千門)就實現了一個Java機。把所有Jazelle DBX擴展所需的狀態用ARM寄存器保存,也保證了和現有操作系統、中斷處理程序和異常處理代碼的兼容性。把棧頂四項保存在ARM寄存器中也能提高Java性能。大量的程序分析顯示,大多數程序的棧深度是很小的,所以這項策略可以盡量減少內存訪問,硬件也可自動處理棧溢出或下溢。
和Java協處理器或其它專用Java處理器設計不同的是,Jazelle DBX和主處理器共用緩存,這一方面能夠降低功耗,而且還可以提高性能。另一個重要的設計考慮是確保Jazelle DBX技術不會影響實時中斷性能,仍保持與操作系統中已有ARM異常處理代碼的兼容。圖2.3是在加入了Jazelle的ARM處理器中運行Java應用的垂直架構架圖。
評論
查看更多