資料介紹
雖然Texas Instrument推出的C6000系列DSP使對信號處理的能力顯著提高,但對信息處理能力要求的不斷提升使提對DSP程序的優化越來越成為DSP開發工作中非常重要的環節。本文討論2Mbps視頻數據流的Viterbi算法的移植與優化策略、技巧。
1 Viterbi算法原理簡介
Viterbi譯碼算法是由Viterbi于1967年提出的一種最大似然譯碼方法,譯碼器根據接收序列R按最大似然準則力圖找出正確的原始碼序列。隨著大規模集成電路技術的發展,采用Viterbi算法的卷積編碼技術已成為廣泛應用的糾錯方案。Viterbi譯碼過程可用狀態圖表示,圖1表示2個狀態的狀態轉移圖。Sj,t和Sj+N/2,t表示t時刻的兩個狀態。在t+1時刻,這兩個狀態值根據路徑為0或者1,轉移到狀態S2j,t+1和S2j+1,t+1。每一種可能的狀態轉移都根據接收到的有噪聲的序列R計算路徑度量,然后選擇出各個狀態的最小度量路徑(幸存路徑)。Viterbi算法就是通過在狀態圖中尋找最小量路徑向前回溯L步,最后得到的即為譯碼輸出。
在卷積碼(n,k,m)表示法中,參數k表示每次輸入信息碼位數,n表示編碼的輸出卷積碼位數,m稱為約束長度(一些書中采用k=m+1為約束長度,也可稱(2,1,2)碼網格圖,r=k/n稱為信息率,即編碼效率。本文使用的是(2,1,3)碼,約速長度為2,狀態數為2 2=-4。
2 目標處理器簡介
TMS320C6000系列DSPs(數字信號處理器)是TI公司推出的一種并行處理的數字信號處理器,是基于TI的VLIW技術的。本文采用的是TMS320C6211。該處理器的工作頻率經過倍頻可達到150MHz,每個時鐘周期最多可并行執行8條指令,從而可以實現1200MIPS定點運算能力。C6000系列CPU采用哈佛結構,其程序總線與數據總線分開,取指令與執行指令可以并行運行。其程序總線寬度為256位,每一次取指操作都是取8條指令,稱為一個取指包,執行時每條指令占用1個功能單元。取指、指令分配和指令譯碼單元都具有每周期讀取并傳遞8條32位指令的能力。C6000系列CPU有2個類似的可進行數據處理的數據通道A和B,每個通路有4個功能單元(.L、.S、.M、.D)和1組包括16個(C64有32個)32位寄存器的通用寄存器組,每個功能單元完成一定的算術或邏輯運算。
C6000的特殊結構使多個指令交迭地在不同功能單元內處理,大大提高了微處理器的處理能力。另外在其CPU硬件結構上,C6000的流水線分為三個階段:取指、譯碼、執行,每一級又包含幾個節拍。流水處理使得若干條指令的不同執行階段可以并行執行,從而能夠大幅度提高程序運行速度。
3 算法的編程實現及優化
根據C6000的軟件編程流程,對Viterbi算法的編程及其優化可分為三個階段來進行。這三個階段分別為:開發C代碼、優化C代碼、編寫線性匯編代碼。在代碼編寫和優化過程中,這三個階段不是必須都要經過的,只要在某一階段已經滿足了算法代碼的功能和性能要求,就不必繼續進行下面的階段。
①開發C代碼。這一階段完全是根據任務要求來完成算法的代碼編寫工作。在C6000的集成開發環境CCS(Code Composer Studio)下進行代碼的編譯和功能驗證,然后可用CCS的調試工具(如Profiler),利用在程序中設置斷點的方法可找出程序中耗時最多、最影響整體性能的代碼段。為改進代碼性能,可進入下一階段。如下是針對(2,1,3)碼的Viterbi算法代碼中完成算法功能的核心循環,也是最耗時、最影響代碼整體性能的低效率段。
for(c=0;c《unmber_of_input;c++) //對每一個輸入值,設number_of_input=24
{for(j=0;j《number_of_states;j++) //對于每個狀態(2,1,3)狀態數為4
{for(i=0;i《2;i++) //對于狀態的每個可能輸入,比如1,0
{/*計算度量值*/
branch_metric=hamm(conv_output,c,channel_data);
/*比較累計度量保留其中最小,并且記錄其狀態路徑*/
if(accum_err_metric[nextstate[j][1]》accum_err_metric[j][0]+branch_metric]
{accum_err_metric[nextstate[j][1]=accum_err_metric[j][0]+branch_metri;
state_history[nextstate[j]][sh_ptr]=j;
}
}*/end of i《2*/
}/*end of j《number_of_states*/
}/*end of c《number_of_input*/
其中調用函數hanmm是計算當前輸入值與網絡圖上的值相比較所返回的度量值。
Int hamm(char output_vector,int x,char channel_output[24])
{char target_vector=0;
int hamm=0;
int i=0;
int i=0;
target_vector=(output_vector)^channel_output[x];
for(i=1;i》=0;i--)
hamm+=(target_vector》》i)&0x01;
return hamm;
}
在驗證了算法代碼實現功能并以設置斷點的方法測試代碼的性能,這段循環運行耗時(時鐘周期)為1790。顯然,性能不能達到要求,就要進入代碼優化的第二階段了。
②一般在代碼調試中,最影響性能的是其中的循環代碼段。而軟件流水是一種用于安排循環內的指令運行方式,盡可能充分利用CPU的功能單元等資源,使循環的多次迭代能夠并行執行的一種技術。在C6000的C/C++編譯器里,采用軟件流水使編譯出來的程序代碼優化是一項核心技術。所以在進一步優化之前,需要調整并盡可能簡化代碼的結構并去除影響軟件流水的因素使其能夠被編譯器充分流水,這對大幅提高整個代碼的性能非常重要。
所以,在考慮影響因素同時對Viterbi算法的循環代碼進行如下調整;
*使用內聯函數(intrinsics)替代復雜的C語言程序。C6000編譯器提供了許多intrinsics,可以快速優化C代碼。Intrinsics是直接參與C6000匯編指令映射的內聯函數。在這里使用了 _extu(x,y,z),以簡化其中hamm代碼部分。
*盡管軟件流水循環可包含intrinsics,但不能包含函數調用。所以需要把調用函數 hamm在循環中展開實現。
*由于編譯器僅對最內部的循環執行流水,所以為了提高性能應盡可能創造一比較大的內循環。在代碼中可以看到,在最內循環是i的兩次循環,僅對它進行流水,對整個代碼的性能提高不大。所以一個想法是,將i和j循環全部展開,使編譯器直接面對最大的C循環以最大發揮軟件流水的作用。
*另外,展開循環后代碼中的變量如果可以確定其運行中的值,就盡量以實值代入,這樣減少了變量個數,也就是減少了所需分配的寄存器個數(C62xxCPU中有32個寄存器)。
在進行上述調整后運行代碼,進行測試發展,性能沒有太大改善;用編譯器反饋表(feedback)進行觀察發現,循環并沒有發生流水。這是為什么呢?原來在展開內部循環后導致C循環內代碼尺寸太大,需要的寄存器數目大于C62XX 的32個寄存器,所以不能進行軟件流水。為了解決這問題,需要簡化循環或將循環拆成幾個小循環。在這里先將C循環內部的小循環展開,然后將其拆成分別完成度量計算和累計度量比較的兩個循環,這樣就減小了每個循環中的代碼尺寸。
1 Viterbi算法原理簡介
Viterbi譯碼算法是由Viterbi于1967年提出的一種最大似然譯碼方法,譯碼器根據接收序列R按最大似然準則力圖找出正確的原始碼序列。隨著大規模集成電路技術的發展,采用Viterbi算法的卷積編碼技術已成為廣泛應用的糾錯方案。Viterbi譯碼過程可用狀態圖表示,圖1表示2個狀態的狀態轉移圖。Sj,t和Sj+N/2,t表示t時刻的兩個狀態。在t+1時刻,這兩個狀態值根據路徑為0或者1,轉移到狀態S2j,t+1和S2j+1,t+1。每一種可能的狀態轉移都根據接收到的有噪聲的序列R計算路徑度量,然后選擇出各個狀態的最小度量路徑(幸存路徑)。Viterbi算法就是通過在狀態圖中尋找最小量路徑向前回溯L步,最后得到的即為譯碼輸出。
在卷積碼(n,k,m)表示法中,參數k表示每次輸入信息碼位數,n表示編碼的輸出卷積碼位數,m稱為約束長度(一些書中采用k=m+1為約束長度,也可稱(2,1,2)碼網格圖,r=k/n稱為信息率,即編碼效率。本文使用的是(2,1,3)碼,約速長度為2,狀態數為2 2=-4。
2 目標處理器簡介
TMS320C6000系列DSPs(數字信號處理器)是TI公司推出的一種并行處理的數字信號處理器,是基于TI的VLIW技術的。本文采用的是TMS320C6211。該處理器的工作頻率經過倍頻可達到150MHz,每個時鐘周期最多可并行執行8條指令,從而可以實現1200MIPS定點運算能力。C6000系列CPU采用哈佛結構,其程序總線與數據總線分開,取指令與執行指令可以并行運行。其程序總線寬度為256位,每一次取指操作都是取8條指令,稱為一個取指包,執行時每條指令占用1個功能單元。取指、指令分配和指令譯碼單元都具有每周期讀取并傳遞8條32位指令的能力。C6000系列CPU有2個類似的可進行數據處理的數據通道A和B,每個通路有4個功能單元(.L、.S、.M、.D)和1組包括16個(C64有32個)32位寄存器的通用寄存器組,每個功能單元完成一定的算術或邏輯運算。
C6000的特殊結構使多個指令交迭地在不同功能單元內處理,大大提高了微處理器的處理能力。另外在其CPU硬件結構上,C6000的流水線分為三個階段:取指、譯碼、執行,每一級又包含幾個節拍。流水處理使得若干條指令的不同執行階段可以并行執行,從而能夠大幅度提高程序運行速度。
3 算法的編程實現及優化
根據C6000的軟件編程流程,對Viterbi算法的編程及其優化可分為三個階段來進行。這三個階段分別為:開發C代碼、優化C代碼、編寫線性匯編代碼。在代碼編寫和優化過程中,這三個階段不是必須都要經過的,只要在某一階段已經滿足了算法代碼的功能和性能要求,就不必繼續進行下面的階段。
①開發C代碼。這一階段完全是根據任務要求來完成算法的代碼編寫工作。在C6000的集成開發環境CCS(Code Composer Studio)下進行代碼的編譯和功能驗證,然后可用CCS的調試工具(如Profiler),利用在程序中設置斷點的方法可找出程序中耗時最多、最影響整體性能的代碼段。為改進代碼性能,可進入下一階段。如下是針對(2,1,3)碼的Viterbi算法代碼中完成算法功能的核心循環,也是最耗時、最影響代碼整體性能的低效率段。
for(c=0;c《unmber_of_input;c++) //對每一個輸入值,設number_of_input=24
{for(j=0;j《number_of_states;j++) //對于每個狀態(2,1,3)狀態數為4
{for(i=0;i《2;i++) //對于狀態的每個可能輸入,比如1,0
{/*計算度量值*/
branch_metric=hamm(conv_output,c,channel_data);
/*比較累計度量保留其中最小,并且記錄其狀態路徑*/
if(accum_err_metric[nextstate[j][1]》accum_err_metric[j][0]+branch_metric]
{accum_err_metric[nextstate[j][1]=accum_err_metric[j][0]+branch_metri;
state_history[nextstate[j]][sh_ptr]=j;
}
}*/end of i《2*/
}/*end of j《number_of_states*/
}/*end of c《number_of_input*/
其中調用函數hanmm是計算當前輸入值與網絡圖上的值相比較所返回的度量值。
Int hamm(char output_vector,int x,char channel_output[24])
{char target_vector=0;
int hamm=0;
int i=0;
int i=0;
target_vector=(output_vector)^channel_output[x];
for(i=1;i》=0;i--)
hamm+=(target_vector》》i)&0x01;
return hamm;
}
在驗證了算法代碼實現功能并以設置斷點的方法測試代碼的性能,這段循環運行耗時(時鐘周期)為1790。顯然,性能不能達到要求,就要進入代碼優化的第二階段了。
②一般在代碼調試中,最影響性能的是其中的循環代碼段。而軟件流水是一種用于安排循環內的指令運行方式,盡可能充分利用CPU的功能單元等資源,使循環的多次迭代能夠并行執行的一種技術。在C6000的C/C++編譯器里,采用軟件流水使編譯出來的程序代碼優化是一項核心技術。所以在進一步優化之前,需要調整并盡可能簡化代碼的結構并去除影響軟件流水的因素使其能夠被編譯器充分流水,這對大幅提高整個代碼的性能非常重要。
所以,在考慮影響因素同時對Viterbi算法的循環代碼進行如下調整;
*使用內聯函數(intrinsics)替代復雜的C語言程序。C6000編譯器提供了許多intrinsics,可以快速優化C代碼。Intrinsics是直接參與C6000匯編指令映射的內聯函數。在這里使用了 _extu(x,y,z),以簡化其中hamm代碼部分。
*盡管軟件流水循環可包含intrinsics,但不能包含函數調用。所以需要把調用函數 hamm在循環中展開實現。
*由于編譯器僅對最內部的循環執行流水,所以為了提高性能應盡可能創造一比較大的內循環。在代碼中可以看到,在最內循環是i的兩次循環,僅對它進行流水,對整個代碼的性能提高不大。所以一個想法是,將i和j循環全部展開,使編譯器直接面對最大的C循環以最大發揮軟件流水的作用。
*另外,展開循環后代碼中的變量如果可以確定其運行中的值,就盡量以實值代入,這樣減少了變量個數,也就是減少了所需分配的寄存器個數(C62xxCPU中有32個寄存器)。
在進行上述調整后運行代碼,進行測試發展,性能沒有太大改善;用編譯器反饋表(feedback)進行觀察發現,循環并沒有發生流水。這是為什么呢?原來在展開內部循環后導致C循環內代碼尺寸太大,需要的寄存器數目大于C62XX 的32個寄存器,所以不能進行軟件流水。為了解決這問題,需要簡化循環或將循環拆成幾個小循環。在這里先將C循環內部的小循環展開,然后將其拆成分別完成度量計算和累計度量比較的兩個循環,這樣就減小了每個循環中的代碼尺寸。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 基于MLS的NB-IoT信道插值估計算法 17次下載
- 基于信道狀態相位信息的生命體征監測算法 13次下載
- 兩個寬帶無線信道的稀疏信道估計算法 8次下載
- 結合深度與演化算法的群競爭合作優化算法 20次下載
- 基于匹配理論的用戶-子信道雙邊匹配算法 6次下載
- 基于實時信道狀態信息估計的速率自適應算法 3次下載
- 基于視頻業務質量優化的信道選擇技術 1次下載
- 虹膜識別算法的DSP移植及其優化 7次下載
- 基于DSP的圖像去霧算法優化方法_楊夢雯 3次下載
- JPEG圖像壓縮編碼算法的DSP優化實現_李世軍 2次下載
- 認知無線網絡中多信道頻譜感知周期優化算法_劉洋 0次下載
- 基于DSP實現WCDMA信道估計
- 基于DSP的任意碼長RS編碼及算法優化
- 色噪聲下MIMO信道估計優化及容量下限分析
- 基于DSP 的信道譯碼算法優化
- 神經網絡優化算法有哪些 267次閱讀
- dsp是什么意思 dsp怎么調音質最好 9434次閱讀
- DSP芯片的特點與分類 2185次閱讀
- 邊緣計算計算卸載與資源分配聯合優化算法 1027次閱讀
- 如何對spmv算法進行優化 1061次閱讀
- 基于群體的元啟發式算法——象鼻蟲傷害優化算法 808次閱讀
- 基于DSP及FPGA器件實現軟件無線電多信道發射機系統的設計 3164次閱讀
- 用于實現并行處理加速硬件的H.264算法的改進和優化 2149次閱讀
- 深度學習中多種優化算法 2475次閱讀
- 淺析嵌入式DSP設計中的功耗優化設計 1499次閱讀
- 深讀解析反向傳播算法在解決模型優化問題的方面應用 5463次閱讀
- DSP核心算法和數據價值的應用 1888次閱讀
- JPEG2000 MQ編碼算法的優化和FPGA實現 3226次閱讀
- 基于機器學習算法的SVM優化 4100次閱讀
- 怎么延長固態硬盤壽命,固件算法優化帶來的性能提升 1706次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1489次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多