無線通信產業不斷推進創新,像WiMAX、MIMO都需要增強的性能。無線系統開發商面臨在更短的開發周期和更少的財政投入情況下提供非常復雜的系統。在這種壓力下,目前業界正在突破無線系統采用ASIC、DSP和FPGA的傳統構建方法。多內核DSP兼具FPGA的擴展特性和陣列優點,以及DSP的相似性和效率,提供了一種比DSP和FPGA更高效、更易于開發的解決方案。
在無線基礎設備開發公司中,ASIC設計開始不斷減少,ASIC開發時間太長,并且為適應不斷變化的無線基礎設備需求,需要很高的成本。這些公司于是現在開始得到這樣的結論,即未來的系統必須基于完全可重構的軟件方案來構建。
但是,通常采用DSP處理器和FPGA的完全可重構解決方案都具有其自身的問題。最新一代DSP處理器只能滿足像WiMAX和HSDPA這樣的當代無線通信標準處理器的一小部分需求,需要許多個DSP連接在一起來滿足處理負載需求,這對于編寫代碼來說既痛苦,代價又高。
FPGA提供豐富的處理帶寬,但是與基于處理器的解決方案相比,成本高。整合其他方法的企圖卻產生一種很笨拙的混合開發環境,使得時序收斂問題更糟糕。
一種成功的基帶架構的五個最重要的特性為:
◆ 在不同產品系列中提供足夠處理能力的可擴展性
◆ 高效執行控制功能以及DSP功能的能力
◆ 易于編程和驗證
◆ I/O帶寬
◆ 低功耗
因此,能實現新的、令人激動的應用的算法正待走出實驗室,但是,就我們在過去幾年中所見的傳統架構上的輕微改進并不能滿足所要求的處理能力。依賴工藝尺寸的縮小或者時鐘速度的改善不大可能提供所需要的性能,基于這樣的原因,我們已經可以看到對新方法的需求。
然而,一種架構的特性必須是可擴展的,并且在一種編程模式下支持一系列的應用;然后,可能以不同的方式來應用以使特定的器件與特定的問題匹配。盡管可以針對一種應用設計一種處理器,但它不是一種架構而僅僅是一種可編程ASSP。
這就解釋了為什么對并行架構那么關注,這種架構能擴展以提供需要的處理能力,又方便編程,并且還能解決控制和選擇功能,這些功能是這些算法的一部分。
根據特定的算法,通常存儲器帶寬或者數據處理I/O成為性能瓶頸。將信息從系統中發出與送入的能力必須能趕得上黑盒子內的處理能力。這就解釋了為什么某些DSP架構不沿用通常的Von Neuman結構(共享編程和數據存儲器),而使用Harvard架構(雙存儲器),或者甚至是Super Harvard架構(另外的數據存取)。很明顯,帶有跨單元陣列的多I/O路徑的并行架構具有更多的優勢。
最后一點,但是也是非常重要的,就是支持可編程特性和驗證。與通用器件相比,DSP用在非常苛刻的實時系統中,這對它怎樣運行提出了很嚴格的約束。在某個領域內可以應用的方法可能在另外一個領域內不可使用。對算法的開發、編碼和驗證要求很重要,如果要獲得很大的成功,架構必須有助于這些任務的實現。
而FPGA可以提供這種處理能力,但是成本高、功耗高,而且不是一種“軟件”解決方案。有大量的事例(例如BTDI測試基準)顯示,在FPGA上開發復雜的DSP功能可能會需要數周甚至數月,而在DSP處理器上實現等同的代碼則只需要數天。
FPGA架構的優越性
FPGA具有非常強的通用性相同的芯片可以用在基站中替代DSP,在路由器中用于TCP處理對于高性能視頻加密等等。在很多方面,這種通用性是一種非常大的優勢。但是,這是有代價的,可能一種器件針對上面應用中的一種進行優化,或許可以提供在價格、性能、處理能力和功能上的較好折衷。
例如,FPGA可以運行任何比特寬度的運算。但是這意味著每一個比特獨立控制,因此產生1:1的運算控制開銷。其結果是,信號發送將占用很大部分的硅片面積。但是在大多數應用中,16比特的字寬就“足夠好”了。因此,一種選擇將是設計一種16比特的架構,在總線上傳輸,將開銷從1:1降低到1:16。
在提供專用的DSP功能的情況下,在FPGA上的整個芯片電路中依然是很小的一部分,因此開銷還是很高。而且,在FPGA結構上的這種額外控制加之深亞微米工藝的高漏電流產生很高的功耗。對于FPGA中被布局布線的每個門電路來說,有成百上千的配置晶體管。由于靜態功耗由總的芯片門電路面積決定,FPGA的本性就決定了具有比同等的處理器高得多的靜態功耗。密集布線結構和相應較大的硅片尺寸意味著信號需要驅動更大的電容,并因此增加了動態功耗。
類似地,FPGA允許在時序上有非常高的靈活性逐周期實現控制,具有非常精細的周期粒度。因為每個設計必須進行布局布線,因此不可避免存在時序收斂問題。為獲得最高的性能,必須認真地設定約束條件以達到期望的時鐘周期時間。這需要富有經驗的設計,增加了設計成本和時間。可能需要插入額外的流水級,以改變電路的行為和延時。可能需要定義更高成本的速度等評定器件。在更大的器件上,布局布線的周期可能需要幾個小時到半天時間,延后了開發進度。
然而,FPGA相對于DSP可以提供一個巨大的優勢:即它能提供另外一種自由度。一種標準的處理器只能在一個方面提高性能,即運行更快。這需要更大的緩存、更深的流水線以及更復雜的邏輯(無序執行、可預知的跳轉、動態再調度)。速度上的每一次增加都需要增加硅片面積,兩者的增加并不成比例關系。不僅僅需要更多的硅片面積,還使編程和調試更加復雜。過去,對處理器進行仿真和調試很簡單,但是在這些特性下,代碼的執行難以進行調試。
相反,現場可編程陣列(注意關鍵詞“陣列”)可以將任務擴散到整個硅片。其結果是每個模塊可以很簡單,運行很慢,并因此占用較少的硅片面積。
這樣我們就達到了高端DSP性能的拐點。此時,單個處理器的架構與大量處理器協同執行任務的能力相比變得不那么重要了。因此,我們所看到的最重要的架構開發是提供并行特性的擴展能力。并行特性并不是指僅僅增加一些執行單元,或者甚至將十多個高端DSP連接在一起的能力,而是將數以千計的處理器連接在一起來執行非常復雜的DSP任務,單塊芯片上幾百個處理器,即多內核器件。
兼具FPGA優點的多內核DSP
多內核DSP兼具FPGA的擴展特性和陣列優點,以及DSP的相似性和效率,提供了一種比DSP和FPGA都更高效、更易于開發的解決方案。
然而,這不僅僅是一種硅片集成任務,這些器件必須支持多個處理內核的有效使用,兼具高性能和易于編程、調試和最終的系統驗證特點。
因為可以通過在陣列上擴展以及解決問題來提高性能。其結果是,每個DSP內核可以更慢和更簡單,減少了巨大的開銷以使性能最大化,可以在速度和硅片面積上找到最佳的平衡。
事實證明,每平方毫米的最大運算數是一種非常常用的16比特Harvard結構處理器,時鐘速率大約為200MHz。這與手機上用到的器件類似,如果有一種更有效的結構,那么可能每年數以億計的手機將使用這種器件。
因為硅片是專門用于DSP應用,不需要承載任何用于其他任務(例如膠合邏輯運算)的配置開銷。這樣一來可以實現非常小的硅片面積以及更低的靜態功耗。
一個建構很好的多內核DSP為處理器內核之間的通信建立了一種簡單的抽象連接模型。這意味著可以支持點對點、點對多點和多點對多點連接。針對這些連接的帶寬應該是可編程的。軟件應該能確定性地迅速發送所有要求的信號。
采用簡單的DSP陣列和一個抽象連接模型,代碼開發變得簡化了,特別是對于很大開發量的工作來說尤其如此。實質上,這是一種通常的子程序編程模型,或稱為“用于硬件的面向對象的方法”。針對簡單連接以及一種數據速率對模塊之間的接口進行標準化。握手、時鐘、設置以及保持時間都被抽象出來。
開發可以變得簡單化,某個問題可以在典型的分而治之的方法中劃分成處理器大小的塊。每個工程師在假定標準互聯模型的條件下對其自己的模塊進行寫和測試。然后,將每個模塊集成到一個更大的子系統中,直到形成整個系統。
一旦整個系統得到正確的仿真,便可以實現抽象連接模型的好處。正如某個用戶所言“與FPGA不同的是,采用多內核DSP的系統在仿真器上運行時,它運行于硅片上。”因為布線網絡時序本身是正確的,因此沒有令人痛苦的時序收斂問題需要處理。
這樣的多內核DSP提供了DSP和FPGA兩者的優點,FPGA的性能和DSP易于編程的特性—比傳統方法獲得更好的成本和處理能力優勢。
編輯:jq
-
dsp
+關注
關注
553文章
8019瀏覽量
349233 -
FPGA
+關注
關注
1629文章
21750瀏覽量
604103 -
asic
+關注
關注
34文章
1204瀏覽量
120544 -
MIMO
+關注
關注
12文章
594瀏覽量
76878
發布評論請先 登錄
相關推薦
評論