語音/數據/媒體網絡的興起要求高性能與高速 IO 完美結合。本文將探討如何選擇可滿足上述要求的 DSP,為引導系統提供低成本解決方案。
多媒體內容隨著總流量的增長而變得日益豐富,這為設備制造商帶來了前所未有的工程設計挑戰與機遇。他們必須制造出新一代能夠處理持續急速上升的匯聚流量的設備,該匯聚流量基本不同于過去主導基礎局端設計范例的語音與數據流量。
這種變革是上個世紀 70 年代計算機革命以來的多重趨勢引發的:
* 從純語音流量到語音與數據流量的轉變。這一趨勢在數十年前就已開始了,現在仍在繼續。
* 多媒體流量,特別是流媒體,加入現有的語音與數據流量。電信營運商轉向提供語音、視頻與數據服務的“三重播放業務”可充分證實這一發展趨勢。
* 從固定地址服務到家庭服務再到移動服務的演進。有線基礎局端中從語音到數據再到媒體的演講現在正在無線領域悄然進行。
* 上述前三個趨勢推動了另一趨勢的發展:從電路交換傳輸到基于數據包的傳輸的演進,特別是對因特網協議 (IP) 流量。
在語音通信時代,電信信號處理無非是回聲消除、數據調制解調器的線路調節以及在交換電路上進行數據調制/解調的信號處理。目前,用來進行音頻、視頻和數據流量的數字編碼/解碼以及壓縮/解壓縮的算法就有數十種之多。簡言之,電信基礎局端不僅僅是要處理更多的數據,而且要實現信號處理量的指數級增長以實時處理大量數據。
顯而易見,要實現信號處理量的指數級增長需要大幅提高性能。方法一是僅加快數字信號處理器 (DSP) 的時鐘速度。但這種解決方案不是長久之計,主要原因如下:首先,芯片時鐘速度有限;其次,流量負載呈指數級而非線性增長,即使在最高時鐘速度下,也將很快無法滿足性能要求。另一個基本問題是基礎局端設備采用機架安裝,對尺寸和散熱都有嚴格的要求。在機架尺寸不變(縮小尺寸除外)的情況下,就是高時鐘速度帶來的高散熱最終也會使僅提高時鐘速度這一方法不可行。將來,電路板性能的提升會受到其功耗預算、樓宇的使用年限與位置以及安裝基礎局端設備的機架等的限制。
1 提高性能
電信設計工程師面臨著一個巨大的挑戰。他們必須在更小的板級空間內提供更出色的性能、增加通道密度、處理日益多樣化的媒體陣列,并同時保持通信的靈活性與低成本特性。
為應對這些挑戰,我們一直在改進 DSP。從芯片設計人員的角度來說,這意味著要將上述趨勢轉化為特定的 IC 特性與架構。
同時實現高性能與低功耗目標的最佳戰略方案是在低電壓芯片上采用優化的處理引擎及高效 I/O 處理盡可能多的數據。
處理不斷增多的原始數據量要求極高的性能與高效的片上數據傳輸能力。從架構上講,這可通過交換中心資源 (SCR) 連接處理元件(DPS CPU、DSP 外設、協處理器加速器以及內部存儲器)得以實現,即具有主從單元的縱橫制架構。德州儀器 (TI) TMS320C6455 DSP 采用的就是這種架構(見圖1)。
圖 1 TMS320C645x 器件結構圖
SCR左邊的任一主單元均可直接與SCR右邊的從單元相連。主單元包括DSP的CPU、串行高速IO (SRIO)、四個傳輸控制器(TC)以及連接將三個主外設(PCI、HPI與EMAC)的連接至SCR的縱橫制端口。從單元包括DSP存儲器、DDR存儲器接口、Turbo協處理器 (TCP)、Viterbi 協處理器(VCP)以及將多個外設連接至 SCR 的縱橫制端口。
這種架構既快速又高效,因為 SCR 使主從單元之間實現了真正的同時數據傳輸。例如,PCI 至 DDR EMIF 的連接獨立于 PCI 166 至 DSP CPU 的連接。數據完全是并行傳輸。當多個主單元訪問同一個從單元時,SCR 執行判優。同時系統設計人員可以通過對主單元的優先級別進行編程來施加某些控制。
2 架構要求
在執行算法時,CPU 與存儲器之間的指令和數據傳輸至關重要。在如圖 2 所示的 TMS320C6455 DSP 存儲器系統中,可通過使用 256 位寬的數據總線并在 CPU 與存儲器之間的內部直接存儲器存取 (DMA) 架構上創建兩層高速緩存來優化數據傳輸。
圖 2 TMS320C64x+ 內部存儲器
另一個架構要求是高效片上處理引擎。一種高效的方法是集成片上協處理器,以加速要求高性能的特定功能。例如,MS320C6455 DSP 就集成了 Viterbi 協處理器 (VCP) 與 Turbo 協處理器 (TCP),如圖 1 所示。
片上處理工作完成后,開發人員仍需將大量數據從芯片傳輸至電路板上,最終傳輸到電信傳輸介質上。顯然應選擇高速 IO,但考慮到上述的異構架構,確定哪種 處理方法最佳就會變得復雜。
最佳解決方案是為片內板級接口提供多種高性能 IO 接口。SRIO 是異構多處理器器件間通信的最佳選擇,因為其高吞吐消息傳遞方案可實現 95% 的帶寬利用率(4x 串行雙向鏈路可達 10 Gb/s)。
當然,外部存儲器傳輸最好采用 32 位 DDR2 存儲器控制器;同樣,連接片外器件最好采用 66 MHz PCI 總線;處理板上或板外 IP 流量的最好選擇 1 Gb/s 以太網媒體接入控制器 (EMAC);電信專用的通用測試與操作 PHY 接口則可充分滿足 ATM (UTOPIA 2) 連接的需求。
雖然 DSP 處理能力隨著具有更強并行能力以及其它高級特性的新架構的推出而顯著提高,但電路板設計人員還可通過將多個 DSP 高效集成到單個電路板來獲取更明顯的改善。使用 SRIO 快速連接大大簡化了這項工作,因為從 DSP 軟件的角度來看,DSP 之間的數據流處理與單個 DSP 內的數據流處理并沒有很大的差異。
3 板級性能
在傳統系統中,語音與數據流量是分開的,這導致了效率低下。隨著時間或其它一些影響流量配置的參數的變化,可能會出現處理能力與帶寬的閑置。利用新一代架構,設計人員能夠設計出在單個器件上更高效處理所有流量的系統。
這種融合解決方案的范例之一是 Surf 公司的 SurfRider 產品系列。該產品系列針對可優化的低成本電路板提供軟硬件,以滿足特定系統流量要求。
SurfRider/AMC 可在單個電路板上集成多達 8 個 DSP,并可實現高達 10Gb/s 吞吐能力。在單個高級電信計算架構 (ATCA) 或 MicroTCA 機架上可安裝 8 個電路板。
4 發展無止境
通過在 DSP 內部增加并行處理功能,并使用 DSP、片外存儲器及其它組件之間的超高速互聯,芯片設計人員可設計出新一代基礎局端電路板和網關系統。這些系統使電信營運商不僅能夠同時提供三重播放業務服務,而且還可靈活適應流量類型和負載的變化。
發展永無止境。過去數年的進展令人難忘,不過不會止步于此。一些新的設計戰略已相當明了,如:集成更多片上協處理器和增加并行設計。但芯片和電路板設計人員也認識到嵌入多個 DSP 的電路板的成本仍然不菲。
在單個芯片上集成多個 DSP 內核的做法正在悄然興起。除了成本低于多個獨立封裝的 DSP 外,多核 DSP 還具有其它優勢。共享內存的多個內核可以在較低時鐘頻率和電壓下運行,以降低每通道的功耗。這對多通道分組語音流量 (packetized voice traffic) 尤其適用,因為其要求的處理能力和內存帶寬低于視頻要求。
多核還為蜂窩基礎設施以及正在興起的 WiMAX 應用領域帶來了獨特機遇。這是因為無線傳輸需要先進的 OFDM 調制解調器。這類調制解調器的工作負載不僅要求多核 DSP 以更高速度運行(1GHz,而VoIP MP為 500MHz),而且還要求出色的硬件加速能力并具備如 Turbocore和 Viterbi 這樣的協處理器。功耗限制也會降低每芯片的內核數量。
隨著電信行業邁入三重播放業務時代,其面臨著幾年前可能還無法解決的工程設計挑戰。對性能的要求無疑會繼續提高,但設計人員增強創新型DSP芯片性能的能力會隨著多核和基于 DSP 的 SoC 的興起而提高,使 DSP 能夠解決以前在系統性能、功耗、靈活性以及單通道價格等方面的難題。
責任編輯:gt
-
dsp
+關注
關注
554文章
8058瀏覽量
349700 -
芯片
+關注
關注
456文章
51075瀏覽量
425861 -
存儲器
+關注
關注
38文章
7523瀏覽量
164130
發布評論請先 登錄
相關推薦
評論