?
隨著神威藍光超級計算機的問世,中國成為繼美國和日本之后成為第三個采用自主CPU構建千萬億次級超級計算機的國家。在這之前,一提到國產自主高端CPU,人們的第一反應便是中科院計算所研制的“龍芯”處理器,但這次神威藍光裝配的卻是出自江南計算所的神威1600A處理器。這一消息讓國人為之一振,原來國產高端處理器不止“龍芯”一家啊,也讓國外業者對中國在處理器事業上的進步刮目想看。其實,在“中國制造到中國創造”的國家戰略下,我國在高科技領域可以說是全面追趕,已經在很多領域取得了一定的建樹。本文中筆者將帶大家認識幾款國產處理器中的佼佼者,旨在讓大家能更更深入的了解國產處理器的發展。
本文按照架構的差異將國產處理器分為三個部分,分別是MIPS架構、Alpha架構和ARM架構(從大的分類來看這三種架構都屬于精簡指令集計算機(RISC),而多數X86處理器屬于復雜指令集處理機(CISC)。比起CISC架構來,RISC架構擁有可充分利用VLSI芯片的面積,可提高計算機運算速度,便于設計(設計復雜性比較低),可降低成本,提高可靠性以及有效支撐多種高級語言等特點。我國處理器產業發展目標就是擺脫對西方軟硬件的依賴,從RISC架構處理器便是最佳選項。而在專利方面,在這三種架構上的研究也有一定的便利條件,國內的ARM和MIPS架構處理器的研制已獲得相關機構的全面授權,而神威處理器所采用的Alpha兼容架構也是DEC公司15年前的專利,也快要超出專利追溯期。適合在相對較低制程下研制主流性能的處理器。
“龍芯”處理器是中科院計算所的研究小組在“龍芯之父”胡偉武教授的帶領下設計和研發的。而處理器的量產是交由北京神州龍芯集成電路設計有限公司來完成的。這家公司是由中國科學院計算技術研究所和江蘇綜藝股份有限公司共同投資創辦的,于2002年底在北京市中關村注冊成立, 是一家專門開發、銷售具自主知識產權的龍芯系列微處理器芯片(CPU)、硅知識產權(CPU-IP)以及相關嵌入式系統產品的高新技術企業。
?
從誕生到現在經歷了三代產品,其中最新的就是“龍芯3”處理器,這是一款8核處理器,其主頻為1.05GHz,擁有8個四發射亂序執行處理核心(每個核心有九級流水線,2個定點單元、2個浮點單元(每個每個浮點單元支持256位向量運算)和1個訪存單元,采用交叉開關進行核間互連,并采用通過HT接口進行片間可伸縮互連。)。緩存方面,每個處理器核的一級指令cache和數據cache各64KB,八個處理器核通過交叉開關共享4MB的二級cache。內存方面集成了兩個DDR2/3-800控制器。在1GHz下可提供高達16 GFLOPs每核的浮點計算能力,而在1.05GHz下可提供160 GFLOP的雙精度浮點處理能力。同時代的3.3GHz Intel Core i7 3960X(擁有新的AVX指令集)在峰值情況下可提供160 GFLOPs的計算能力,而上一代的Core i7 990X 峰值情況下可提供90 GFLOPs,AMD FX8150可提供110 GFLOPs的峰值處理能力。相比之下,“龍芯3”雖然不是性能最強的,但其能耗卻是最低的(其TDP僅為40W)。
?
需要補充的是,“龍芯3”處理器還有一個存有200個擴展指令的獨立“盒子”,其作用是使用QEMU(開源虛擬機之一)對X86軟件進行加速(Alpha處理器也曾嘗試使用類似技術對運行在Alpha Windows NT上的軟件進行加速)。使大部分軟件的運行都能達到原生速度,而其面積只占整個處理器面積的5%。
鑒于“龍芯3”的每個核心已足夠高效,“龍芯3”的發展方向將是28nm制程的16核版本,其模型很有可能于2012年下半年推出。核心設計將進行小幅改動,主頻將提升到1.6GHz,二級緩存將進一步增大,而一級緩存將保持不變。
軟件方面,已有數款Linux發行版本提供了對“龍芯3”的支持,其中包括Debian,Gentoo,Mandriva以及Red Flag。而BSD和Windows CE在很早以前便可以在“龍芯”處理器上運行。可惜的是在消費級市場上,我們還很少見到裝備“龍芯”處理器的設備,不過相信隨著技術的成熟,在不久的將來也許可以見到使用“龍芯”處理器的Android或Windows 8平板電腦。
還記得世紀之交時,Alpha處理器曾大方異彩,它采用經典RISC架構(設計簡單,擴展性強)、對于原生速度的關注以及純粹的64位設計(避免了對32位的兼容性問題)。在1993到2001年間,Alpha處理器作為常勝將軍,創造了所有與處理器性能有關的記錄,僅在某些DEC不太關注的方面(內存接口和I/O系統)失手。其中為DEC贏得最多美名的處理器就是Alpha 21264 EV5系列處理器(經歷了處理器制程發展的三個階段0.50微米,0.35微米以及0.25微米)。
在1996到1997年間,0.35微米制程的21164A處理器成為了最廣泛使用的Alpha處理器,其原始頻率達到了667MHz,在測試中得分達到了同時代Intel Pentium處理器(主頻266MHz)的二倍以上。其后繼21164處理器也繼承了簡單的設計和高效的執行能力(高主頻、四發射順序執行,功耗僅25W),性能上僅稍稍落后于數年后才推出的Pentium III “Katmai”處理器(主頻600MHz,功耗達75W)。
接下來,便迎來Alpha處理器發展的轉折點,即Alpha 21264 EV6亂序執行核心的誕生(其每時鐘周期處理性能達到了原來的二倍,而功耗也達到了原來的三倍),其發展也經歷數個制程階段。它和繼任者21364 EV7把性能記錄保持到了2002年(之后Alpha處理器也就從公眾視野中消失了)。2000年問世的EV7在存儲和I/O的設計屬于革命性的創新設計(處理核心采用了與EV6相同的架構),存儲包括1.75MB的片上二級緩存,集成了一個10通道Rambus內存控制器(充分利用二級Cache作為內存系統低延遲緩存的功能),四個并行6.4GB/s一致性內部鏈接連接到另外四個核心上,最高支持512 socket以及目錄協議。5年后的AMD HyperTransport和更晚的Intel QPI也采用了類似的設計。
再看看21464 EV8,這是第一款采用八發射超標量亂序執行的對稱多線程核心的處理器,每個核心擁有四線程處理能力。繼任者21564 EV9處理器增加了核心數量(于2004年推出),加入了高性能向量處理單元(1 KILOBYTE處理帶寬),可提供100 GFLOPS DP 每核的浮點處理能力,這樣的處理能力在2011年也屬主流(需要6到8個核心才能達到),組建其性能之強悍。遺憾的是由于種種原因,采用超前設計的EV8和EV9并沒有得到量產。
在90年代后期,我國成功地引進了Alpha架構,構架了數個以Alpha為核心的龐大系統,并從Compaq和DEC公司取得了Digital / Tru64 Linux和相關軟件棧的全權許可(包括所有源代碼)。推進了自主研發Alpha架構處理器的進程。經過數十年的努力(三代處理器),江南計算所推出的神威SW-3處理器——自定制Alpha處理器,并用于裝配超大規模Petaflop級超級計算機神威藍光MPP。而長達一年的測試實驗證明了其作為超算專用處理器的資質。
?
SW3 aka SW1600是一款16核,64位RISC指令集處理器,而每個核心都是21164A EV56加強版(加入向量浮點處理單元,主頻范圍為1到1.1GHz,制程為65nm)在標準情況(主頻1.1GHz)下,處理器浮點處理性能可達141 GFLOPs DP。裝配在藍光超級計算機上的處理器頻率為925MHz,配置有四通道128位DDR3內存控制器(可提供68GB/s的內存帶寬,相當于8通道DDR3-1066服務器內存帶寬)。Cache方面,繼承了21164的Cache設計,一級Cache為2 X 8KB,二級Cache為 96KB構成了低延遲緩存系統,其中一級緩存的延遲僅為2個時鐘周期。向量處理單元方面,擁有類似AVX設置,如果將頻率設置為1GHz,每個核將可以提供8 GFLOPs DP的處理能力,而整個芯片功耗僅為40W左右。
看看神威藍光超級計算機,它配置了8704個神威SW1600處理器(其中用8575個在975MHz下運行了Top100 bench測試程序)組成了34個超級節點(每個由256個節點組成),150TB內存,2PB硬盤,性能可達1.07 PFLOPS,持續處理能力可達796 TFLOPS,效率達74.3%,峰值功率為1074KW。
神威處理器的未來發展有幾種可能性,第一種,繼續已經長時間停滯的Alpha架構研發,包括8發射核心(不管是順序還是亂序執行),更快每核浮點處理單元以及最新的Cache和內存架構的加入。第二種,對現有的核心進行有效的改進,比如增加單芯片核心數量,提升主頻或增加向量處理單元位寬和內存帶寬(這種改進與Intel的 Knights Corner加速器比較類似)。還有就是設計出片上Teraflop處理器。但它們的實現都需要制程的支持,必須將現有制程提升到32nm甚至28nm(龍芯處理器3B也需要制程提升)。
除了高端MIPS和Alpha架構,ARM也是非常成功的架構(定位不同,ARM主要定位入門級和移動設備),現在被廣泛應用于移動設備上。國內已有多家企業獲得ARM授權,可以自主研發和生產ARM架構處理器。下面就來看看幾款比較有代表性的產品。
?
總部位于福州的瑞芯公司就提供了成功的個人娛樂終端解決方案,使用配置自定制Cortex A8核心的SOC。其最新產品RK29xx 是首款可以硬盤解碼 Google WebM VP8的芯片,主頻為1.2GHz,配置有512KB二級緩存,集成GPU(60 million polygons/s)和DSP加速器(可播放大部分格式的1080p視頻),支持最大分辨率為1280 x 800的移動設備。雙核版本正在研發中。下一代的雙核A9 RK3XXX也是蓄勢待發,本以為會在前不久的CES上發布,還是推遲了。
?
總部位于杭州的囯芯公司在3年前獲得了ARM授權,主要研發數字娛樂、數字電視盒和機頂盒的處理芯片。現已成為國內前十的芯片設計公司,其產品有GX1100, 1200, 1500, 和3000四個系列的ARM架構SOC處理器。
?
大唐電信旗下位于上海的聯芯科技有限公司致力于研發國產ARM架構通信芯片——MPCore,這款芯片采用自定制Cortex-A9架構(采用了臺積電40nm低功耗制程技術),集成Mail-400 MP圖形處理核心。主要產品是用于高端移動設備的TD-SCDMA標準單核或雙核處理器(包含基帶芯片)。
位于上海的燦芯半導體成立于2008年,已經獲得了ARM公司包括Cortex, ARM9, ARM11 and Mali的長期授權。協議中覆蓋了Coresight debug 、跟蹤技術以及與AMBA片上總線兼容的外設。客戶方面燦芯半導體為電子公司提供設計服務,在制造商方面與中芯國際合作,并于2011年初推出了40nm產品。同樣位于上海的盈方電子有限公司獲得了ARM11 , Cortex-A5 、Cortex-A9 、the Mali300 and Mali400 GPUs的設計和生產許可,為碩穎實業有限公司提供移動設備的芯片解決方案。而珠海的全志科技公司則關注高清多媒體處理器的開發,使用Cortex-A8和Mail-400 GPU設計出了支持高清播放的處理器,并被一系列Android系統的平板電腦、智能電視、個人多媒體播放器電紙書、智能多媒體播放器、IP攝像頭以及自動多媒體機器人所采用。
目前這類授權自ARM構架的國內研發廠商,多把目標集中在高性價比的個人電子消費產品市場。不具備構架級別的重新設計能力,不過本身一般都會集成性能突出的視頻硬解碼引擎,這是相比國外同行高通、TI等優勢所在,也符合中國的國情。
?
最后,將要為大家介紹一款自主架構的處理器(由深圳中微電科技有限公司推出),這款系統級芯片(SOC)采用和諧統調處理器技術,不單把兩種不同類型的處理器包括中央處理器(CPU)和圖像處理器(GPU)(設計思路與AMD公司的APU比較類似,但采用了優化過的新指令集), 統一在一個核芯內,同時結合了多線程虛擬管線(MVP)、平行運算內核、獨立的指令集架構、優化的編譯器、以及靈活切換的動態負載均衡等嶄新技術。這款處理器將主要應用于掌上移動設備,如基于Android系統移動設備。最初產品ICube IC1是一款600 MHz 雙核八線程32位SoC處理器,擁有5160DMIPs 的吞吐量,集成了GPU(性能為70 million polygon/s, 600 Mpixel/s)以及一個支持全高清影像HDMI/DVI接口、攝像頭接口720p播放加速、5.1聲道、存儲卡、USB、3G和Wifi連接的主控。這款多線程處理器不僅支持OpenMP和Pthread,其GPU還支持數據級并行、任務級并行、功能級并行處理(中斷和上下文切換消耗很小)以及異構GPGPU應用包括OpenGL ES2.0和OpenCL。主要配置包括,每個核心配置一個64KB 一級數據Cache、一個64KB的一級指令Cache、一個64KB SRAM、一個32位的全局寄存器文件。內存方面,包括一個八通道DMA、一個16源中斷控制器。且每個核面積僅為3.0平方毫米(包括內存)。其功耗僅為300mW。
總的來說,我國的處理器設計和制造已覆蓋了整個主流領域,可以為各種電子產品提供處理器解決方案。更重要的是,國內處理器研究在自主指令集設計上有了長足進步,這樣以來國產處理器的發展道路就能夠越走越寬。
評論
查看更多