本文探討在Virtex-5 FPGA中實現設計的一些難題,然后用一個項目作為示范來詳解充分利用其功能集的技法。設計過程包括幾個步驟,從針對應用選擇適合的Virtex-5開始。為便于本文敘述,我們假定IP模塊已經過匯編,并且已經就緒備用或已經用CORE Generator生成。
針對應用選擇適合的器件
多數音視頻采集器件都支持單信道,以Y/Cr/Cb數據格式生成源同步數字信號。DSP雖然有能力采集數字音視頻信號,也能夠執行數字信號處理任務,但通常卻僅支持少數幾條信道。本設計選擇了FPGA,事實證明這對于多信道輸入任務和信號處理任務都是良好的替代方案。
圖 1所示為典型的安全視頻監視系統,其中有一個3G/SD/HD/SDI視頻接口。在此設計中,攝像頭將3G—SDI格式的信息傳送到電路板,后者繼而收集數據,并且以145.5MHz的最高時鐘頻率將其轉換成10位(Y/Cr/Cb格式)的源同步視頻數據(10/20位的接口)。電路板以 96kHz的最高時鐘頻率處理源同步音頻數據。
?
這里,存儲器的容量是512Mb,寬度是32位,所以FPGA必須支持高達2Gb的擴展能力。
對于這個設計來說,FPGA必須支持多達十條數字音視頻源同步輸入信道(20位源同步Y/Cr/Cb數據格式),并且必須可按照SD/HD數據格式配置。其他要求還包括音視頻信號處理和可選壓縮算法、帶有高級DMA引擎的中央處理單元和一個用來連接VGA顯示器或標準型電視機的音視頻輸出端口等。
要滿足這些技術條件,在實現設計時必須考慮幾個因素。其中的主要因素是時鐘要求分析、初始布局規劃、核生成和IP集成、時序約束定義以及布局布線后的時序分析和時序校正。但首先要決定FPGA的選擇。
FPGA的選擇
我們根據幾個因素進行選擇。器件需要滿足預計的I/O要求,并且必須具有相應數量的邏輯單元、適宜的Block RAM尺寸以及一定數量的時鐘緩沖器和時鐘管理器件,如鎖相環(PLL)、數字時鐘管理(DcM)模塊和乘累加模塊。基于這些需求,我們選擇了 Virtex-5 XCVSX95T-FF1136。
時鐘要求分析
選擇FPGA之后,我們開始設計過程,即分析時鐘控制要求,然后將信號映射到I/O組或I/O引腳。
對于時鐘要求分析,重要的是考慮以下幾個因素:FPGA是否具有足夠的時鐘功能I/O線和全局時鐘I/O線?是否有足夠的PLL、DCM和全局時鐘緩沖器?全局時鐘I/O緩沖器是否支持所要求的最高頻率?
本設計的時鐘控制要求包括:一個以150MHz-200MHz頻率運行的全局系統時鐘,具有若干PLL供所有內部邏輯用來進行處理;一個以 250MHz頻率運行的全局時鐘,具有PLL/DCM的PCI Express鏈接;一個以250MHz頻率運行的全局時鐘緩沖器(帶有PLL和DCM)用于以太網MAC;以及一個200MHz的時鐘(由 PLL/DCM生成),用于I/O模塊中的逐位去歪斜等。
我們總共需要4~6個全局時鐘緩沖器和16個局部時鐘緩沖器。FPGA XCVSX95T-FF1136提供每組20個全局時鐘輸入引腳和4個時鐘功能I/O。也可將I/O組的時鐘功能引腳直接連接到區域緩沖器或I/O緩沖器,并且將其用于特定區域或相鄰區域。另外,各GTP/MGT還有一個參考時鐘輸入引腳。
初始布局規劃
初始布局計劃是設計的關鍵階段,因為此時所作的決定將確定最終設計是否能滿足時序。其中組選擇和引腳分配是布局規劃的重要步驟。如何進行這兩個步驟取決于FPGA周圍其他組件的布局。
Virtex—5 FPGA共有18個I/O組,可以將各種輸入/輸出對映射到這些I/O組。有幾個I/O組支持20對輸入/輸出或10個全局時鐘。其他I/O組則大多支持40對輸入/輸出,每對輸入/輸出上有4個輸入時鐘功能引腳和8個輸出時鐘功能引腳。
同時,上下兩牛個FPGA包括三個時鐘控制模塊(CMT),即一個PLL和兩個DCM。對于需要上下兩半個器件中的PLL的所有全局時鐘信號,我們必須確保予以妥善映射,以使設計具有從全局時鐘輸入緩沖器到PLL的直接連接。然后我們使用剩下的14個I/O組,這些組支持40條I/O線,是單端/差分模式。每個組由4個單端時鐘功能引腳和8個差分時鐘功能引腳組成。接下來可以將時鐘功能引腳映射或連接到區域時鐘緩沖器或I/O時鐘緩沖器。
一般情況下,可以使用這些時鐘功能引腳和區域緩沖器來映射源同步時鐘輸入。區域緩沖器具有較低歪斜度,可以訪問三個區域(一個區域緩沖器所在的區域,以及其上和其下各一個區域)。但對于源同步數據的組選擇,我們傾向于只使用一個I/O組。如果需要其他IIO,則最好將I/O組用于已事先映射到相鄰組的數據信號。
設計的初始布局規劃按照幾個步驟進行。首先將系統時鐘放在上半部,然后將自動采集(可選)時鐘放在下半部。我們鎖定了每半部分的CMT,以滿足 I/O組的3/4要求。這樣映射能確保每半部分都留有兩個PLL/DCM(CMT)可用于PCI Express和千兆位以太網的MAC(SGMII)功能。
再把同步數據映射到含有區域時鐘的組,所以把10個音視頻信道輸入映射到剩下的I/O組。每條視頻信道由20條數據線、3個控制信號和3個視頻時鐘輸入組成。同時,每條音頻信道由4個數據信號、3個控制信號和1個音頻時鐘信號組成。這樣就滿足了32個信號至少使用兩個時鐘功能引腳的要求。
對于本設計,10個音視頻信道使用10個I/O組。我們將視頻時鐘和音頻時鐘映射到了時鐘功能引腳,以確保有效使用區域時鐘緩沖器和I/O時鐘緩沖器。根據PCB的要求,我們為音視頻信道選擇了第5、 6、 13、 17、 18、 19、 20、 22和25組。
對于DDR存儲器,設計支持1條32位的數據總線、14條地址線和若干條控制線。我們需要85~90個信號來映射DDR存儲器接口。根據PCB的布局,我們使用了I/O組11、23和15來映射DDR的全部I/0信號。由于 DDR存儲器按照系統時鐘工作,所以我們選擇將DDR生成的讀數據DQS信號映射到具有時鐘功能的I/O線。
核生成與IP集成
用CORE Generator生成核并且集成知識產權模塊的任務可能很棘手。
Virtex—5支持可以用CORE Generator工具生成的時鐘控制模塊的各種配置。其中包括若干濾波器時鐘抖動PLL、一個具有濾波器時鐘抖動功能的PLL-DCM對、一個具有輸出雙倍數據速率(ODDR)的PLL-DCM對或DCM、一個標準型相移時鐘DCM和若干動態時鐘切換PLL。
要生成PLL,首先需要了解輸入是單端的還是差分的(示例設計中都是單端的)。然后,必須確定時鐘抖動是否適宜(在我們的示例中是120皮秒),以及是否使用了全局緩沖器來緩沖所有輸出。
每個PLL最多可生成6個不同頻率的時鐘。在我們的示例中,設計需要4個200MHz的系統時鐘和1個19.048MHz或39.096MHz的音頻采集時鐘。
為了使用ODDR觸發器在源同步輸出中驅動時鐘,我們實現了一個DCM,用于驅動ODDR觸發器來實現隨路時鐘控制。此DCM與我們用來進行內部時鐘控制的DCM并行運行。
我們用CORE Generator生成了ASYCNFIFO或BlockRAM,并且用嵌入式微處理器核上的中斷邏輯來支持ECC,以完成數據錯誤檢測。
在生成PCIExpress核時,我們必須確保參考時鐘具有與PC主板上的PCIExpress插槽輸出相同的性能(即100MHz)。另外,我們還需要確定該核需要多少基址寄存器(BAR),以及BAR是存儲器映射還是I/O映射。我們為地址解碼使用了BAR監視器,這可以幫助生成BAR命中點。
在設計PCIExpress與系統局部總線之間的橋接器時,我們使用了BAR(起存儲器或I/O區域芯片選擇的作用)來訪問存儲器映射或I/O映射的寄存器或BlockRAM,確保該核及總線能正確訪問所有寄存器或BlockRAM。
如果上述任何點未命中,則主機PC在嘗試傳遞和執行讀事務時就不會得到任何響應。主機PC會進入未知的狀態,或者產生無法恢復的錯誤。
對于IP集成,必須為各FPGA分別使用一個時鐘復位模塊。異步復位必須與每個時鐘都同步,無論是全局時鐘還是區域時鐘。就內部而言,復位信號是相對于特定的時鐘而異步有效置位和同步無效置位,而其輸出則施加到各時鐘所屬的特定模塊。需要確保已經將所有全局輸入時鐘連接到用CoreGen生成的 PLL/DCM核。
將區域時鐘連接到BUFR/BUFIO。另外,為了避免布局布線工具使用不必要的布線資源,只能僅生成必要的復位信號。需要確保將PLL/DCM的鎖存條件傳送給外部引腳或配置寄存器。示例中,我們僅將200MHz系統時鐘的PLL鎖存器連接到了I/O引腳。
因為我們是在用高速源同步輸入和輸出進行設計,所以Virtex-5的逐位去歪斜功能幫助我們在輸入和輸出級滿足建立和保持要求,逐位去歪斜功能內置于所有I/O模塊(10DELAY基元)。對于源同步輸入,源同步時鐘使用BUFIO或BUFR,因此會引入附加延遲。為了補償此延遲,我們通過一個IODELAY實例來驅動數據和時鐘輸入,該實例是按照具有已知延遲計數的輸入延遲模式配置的。我們通過修改延遲計數值來幫助滿足輸入級的時序要求。
輸出級的情況與此相似。因為同步時鐘信號是隨數據傳送,我們需要確保數據和時鐘信號的傳送方式能滿足FPGA或ASIC在另一端的建立和保持要求。對于時鐘和數據輸出,我們都使用了按照具有已知延遲計數值的輸出延遲模式配置的IODELAY實例。
時序考慮事項和約束定義
生成并實現IP之后,下一步是執行時序。我們對所有輸入時鐘的周期、抖動和輸入偏移延遲進行了約束,并且設置了相對于源時鐘的所有輸出延遲和輸入對輸出的延遲。然后在用戶約束文件(UCF)中建立了時序和布局約束。
我們將所有輸入時鐘約束為特定頻率,并且用以下UCF代碼定義了抖動輸入:
NET"i_clk_200_s"TNM_NET="IN_200_CLKGRP";TIMESPEC"IN_200_CLKGRP"=PERIOD5nsHIGH50%INPUT_JITTER0.1ns
對于源同步數據,在SDR的情況下,我們可以將輸入時鐘設置為0度相移或180度相移,而在DDR的情況下可以將其設置為90度相移。圖2所示為時鐘在90度相移時的源同步DDR數據輸入時序。
?
?
對于PCIExpress核和千兆位以太網MAC核上的時序約束,我們按照CORE Generator示例中的定義對Block RAM和PLL/DCM使用了所有時序和布局約束。
因為許多Virtex—5設計都使用多個異步時鐘,所以我們必須在設計中定義偽通路,以使這些時鐘不受影響。
布局布線后的時序分析和時序校正
對設計進行布局布線后,我們運行了靜態時序分析(STA)和時序仿真,以了解是否存在其他時序錯誤。對于STA,我們確保時序報告涵蓋了有約束和無約束的全部通路。通過使用STA報告,我們可以鑒定輸入/輸出時序和內部系統時序。
事實證明,基于Virtex—5的FPGA非常適合我們的視頻監視系統的要求。區域時鐘緩沖器和I/O時鐘緩沖器使我們能夠支持多信道源同步音視頻輸入。而且,該器件的PCI Express和千兆位以太網MAc硬宏為我們提供了進行遠程監視所需的全球連接能力。
在未來的設計工作中,我們將可依靠前期規劃來確保有效使用特定FPGA的可用資源,設計出具有附加價值的產品。
評論
查看更多