資深工程師FPGA設(shè)計經(jīng)驗精華匯總 - 全文

2015年12月16日 10:35 來源:網(wǎng)站整理 作者:h1654155596.7254 我要評論(0)

標簽:FPGA(602396)嵌入式技術(shù)(35715)智能工業(yè)(40960)

  從大學(xué)時代第一次接觸FPGA至今已有10多年的時間。至今記得當初第一次在EDA實驗平臺上完成數(shù)字秒表,搶答器,密碼鎖等實驗時,那個興奮勁。當時由于沒有接觸到HDL硬件描述語言,設(shè)計都是在MAX+plus II原理圖環(huán)境下用74系列邏輯器件搭建起來的。后來讀研究生,工作陸陸續(xù)續(xù)也用過Quartus II,F(xiàn)oundation,ISE,Libero,并且學(xué)習(xí)了verilogHDL語言,學(xué)習(xí)的過程中也慢慢體會到verilog的妙用,原來一小段語言就能完成復(fù)雜的原理圖設(shè)計,而且語言的移植性可操作性比原理圖設(shè)計強很多。

  工作過的朋友肯定知道,公司里是很強調(diào)規(guī)范的,特別是對于大的設(shè)計(無論軟件還是硬件),不按照規(guī)范走幾乎是不可實現(xiàn)的。邏輯設(shè)計也是這樣:如果不按規(guī)范做的話,過一個月后調(diào)試時發(fā)現(xiàn)有錯,回頭再看自己寫的代碼,估計很多信號功能都忘了,更不要說檢錯了;如果一個項目做了一半一個人走了,接班的估計得從頭開始設(shè)計;如果需要在原來的版本基礎(chǔ)上增加新功能,很可能也得從頭來過,很難做到設(shè)計的可重用性。在邏輯方面,我覺得比較重要的規(guī)范有這些:

  1.設(shè)計必須文檔化。要將設(shè)計思路,詳細實現(xiàn)等寫入文檔,然后經(jīng)過嚴格評審?fù)ㄟ^后才能進行下一步的工作。這樣做乍看起來很花時間,但是從整個項目過程來看,絕對要比一上來就寫代碼要節(jié)約時間,且這種做法可以使項目處于可控、可實現(xiàn)的狀態(tài)。

  2.代碼規(guī)范。

  如果在另一個設(shè)計中的時鐘是40ns,復(fù)位周期不變,我們只需對CLK_PERIOD進行重新例化就行了,從而使得代碼更加易于重用。 b.信號命名要規(guī)范化。

  1) 信號名一律小寫,參數(shù)用大寫。

  2) 對于低電平有效的信號結(jié)尾要用_n標記,如rst_n。

  3) 端口信號排列要統(tǒng)一,一個信號只占一行,最好按輸入輸出及從哪個模塊來到哪個模塊去的關(guān)系排列,這樣在后期仿真驗證找錯時后 方便很多。

  4) 一個模塊盡量只用一個時鐘,這里的一個模塊是指一個module或者是一個entity。在多時鐘域的設(shè)計中涉及到跨時鐘域的設(shè)計中最好有專門一個模塊做時鐘域的隔離。這樣做可以讓綜合器綜合出更優(yōu)的結(jié)果。

  5) 盡量在底層模塊上做邏輯,在高層盡量做例化,頂層模塊只能做例化,禁止出現(xiàn)任何膠連邏輯(glue logic),哪怕僅僅是對某個信號取反。理由同上。

  6) 在FPGA的設(shè)計上禁止用純組合邏輯產(chǎn)生latch,帶D觸發(fā)器的latch的是允許的,比如配置寄存器就是這種類型。

  7) 一般來說,進入FPGA的信號必須先同步,以提高系統(tǒng)工作頻率(板級)。

  8) 所有模塊的輸出都要寄存器化,以提高工作頻率,這對設(shè)計做到時序收斂也是極有好處的。

  9) 除非是低功耗設(shè)計,不然不要用門控時鐘--這會增加設(shè)計的不穩(wěn)定性,在要用到門控時鐘的地方,也要將門控信號用時鐘的下降沿 打一拍再輸出與時鐘相與。

  10)禁止用計數(shù)器分頻后的信號做其它模塊的時鐘,而要用改成時鐘使能的方式,否則這種時鐘滿天飛的方式對設(shè)計的可靠性極為不利,也大大增加了靜態(tài)時序分析的復(fù)雜性。如FPGA的輸入時鐘是25M的,現(xiàn)在系統(tǒng)內(nèi)部要通過RS232與PC通信,要以rs232_1xclk的速率發(fā)送數(shù)據(jù)。

  時序是設(shè)計出來的

  我的boss有在華為及峻龍工作的背景,自然就給我們講了一些華為及altera做邏輯的一些東西,而我們的項目規(guī)范,也基本上是按華為的那一套去做。在工作這幾個月中,給我感觸最深的是華為的那句話:時序是設(shè)計出來的,不是仿出來的,更不是湊出來的。在我們公司,每一個項目都有很嚴格的評審,只有評審?fù)ㄟ^了,才能做下一步的工作。以做邏輯為例,并不是一上來就開始寫代碼,而是要先寫總體設(shè)計方案和邏輯詳細設(shè)計方案,要等這些方案評審?fù)ㄟ^,認為可行了,才能進行編碼,一般來說這部分工作所占的時間要遠大于編碼的時間。

  總體方案主要是涉及模塊劃分,一級模塊和二級模塊的接口信號和時序(我們要求把接口信號的時序波形描述出來)以及將來如何測試設(shè)計。在這一級方案中,要保證在今后的設(shè)計中時序要收斂到一級模塊(最后是在二級模塊中)。什么意思呢?我們在做詳細設(shè)計的時候,對于一些信號的時序肯定會做一些調(diào)整的,但是這種時序的調(diào)整最多只能波及到本一級模塊,而不能影響到整個設(shè)計。記得以前在學(xué)校做設(shè)計的時候,由于不懂得設(shè)計時序,經(jīng)常因為有一處信號的時序不滿足,結(jié)果不得不將其它模塊信號的時序也改一下,搞得人很郁悶。

  在邏輯詳細設(shè)計方案這一級的時候,我們已經(jīng)將各級模塊的接口時序都設(shè)計出來了,各級模塊內(nèi)部是怎么實現(xiàn)的也基本上確定下來了。由于做到這一點,在編碼的時候自然就很快了,最重要的是這樣做后可以讓設(shè)計會一直處于可控的狀態(tài),不會因為某一處的錯誤引起整個設(shè)計從頭進行。

  如何提高電路工作頻率

  對于設(shè)計者來說,我們當然希望我們設(shè)計的電路的工作頻率(在這里如無特別說明,工作頻率指FPGA片內(nèi)的工作頻率)盡量高。我們也經(jīng)常聽說用資源換速度,用流水的方式可以提高工作頻率,這確實是一個很重要的方法,今天我想進一步去分析該如何提高電路的工作頻率。

  我們先來分析下是什么影響了電路的工作頻率。

  我們電路的工作頻率主要與寄存器到寄存器之間的信號傳播時延及clock skew有關(guān)。在FPGA內(nèi)部如果時鐘走長線的話,clock skew很小,基本上可以忽略, 在這里為了簡單起見,我們只考慮信號的傳播時延的因素。信號的傳播時延包括寄存器的開關(guān)時延、走線時延、經(jīng)過組合邏輯的時延(這樣劃分或許不是很準確,不過對分析問題來說應(yīng)該是沒有可以的),要提高電路的工作頻率,我們就要在這三個時延中做文章,使其盡可能的小。我們先來看開關(guān)時延,這個時延是由器件物理特性決定的,我們沒有辦法去改變,所以我們只能通過改變走線方式和減少組合邏輯的方法來提高工作頻率。

  1.通過改變走線的方式減少時延。

  以 Altera的器件為例,我們在quartus里面的timing closure floorplan 可以看到有很多條條塊塊,我們可以將條條塊塊按行和按列分,每一個條塊代表1個LAB,每個LAB里有8個或者是10個LE。它們的走線時延的關(guān)系如下:同一個LAB中(最快) 同列或者同行 不同行且不同列。

  我們通過給綜合器加適當?shù)募s束(不可貪心,一般以加5%裕量較為合適,比如電路工作在100Mhz,則加約束加到105Mhz就可以了,貪心效果反而不好,且極大增加綜合時間)可以將相關(guān)的邏輯在布線時盡量布的靠近一點,從而減少走線的時延。(注:約束的實現(xiàn)不完全是通過改進布局布線方式去提高工作頻率,還有其它的改進措施)

  2.通過減少組合邏輯的減少時延。

  上面我們講了可以通過加約束來提高工作頻率,但是我們在做設(shè)計之初可萬萬不可將提高工作頻率的美好愿望寄托在加約束上,我們要通過合理的設(shè)計去避免出現(xiàn)大的組合邏輯,從而提高電路的工作頻率,這才能增強設(shè)計的可移植性,才可以使得我們的設(shè)計在移植到另一同等速度級別的芯片時還能使用。

  我們知道,目前大部分FPGA都基于4輸入LUT的,如果一個輸出對應(yīng)的判斷條件大于四輸入的話就要由多個LUT級聯(lián)才能完成,這樣就引入一級組合邏輯時延,我們要減少組合邏輯,無非就是要輸入條件盡可能的少,,這樣就可以級聯(lián)的LUT更少,從而減少了組合邏輯引起的時延。

  我們平時聽說的流水就是一種通過切割大的組合邏輯(在其中插入一級或多級D觸發(fā)器,從而使寄存器與寄存器之間的組合邏輯減少)來提高工作頻率的方法。比如一個32位的計數(shù)器,該計數(shù)器的進位鏈很長,必然會降低工作頻率,我們可以將其分割成4位和8位的計數(shù),每當4位的計數(shù)器計到15后觸發(fā)一次8位的計數(shù)器,這樣就實現(xiàn)了計數(shù)器的切割,也提高了工作頻率。

  在狀態(tài)機中,一般也要將大的計數(shù)器移到狀態(tài)機外,因為計數(shù)器這東西一般是經(jīng)常是大于4輸入的,如果再和其它條件一起做為狀態(tài)的跳變判據(jù)的話,必然會增加LUT的級聯(lián),從而增大組合邏輯。以一個6輸入的計數(shù)器為例,我們原希望當計數(shù)器計到111100后狀態(tài)跳變,現(xiàn)在我們將計數(shù)器放到狀態(tài)機外,當計數(shù)器計到111011后產(chǎn)生個enable信號去觸發(fā)狀態(tài)跳變,這樣就將組合邏輯減少了。

  上面說的都是可以通過流水的方式切割組合邏輯的情況,但是有些情況下我們是很難去切割組合邏輯的,在這些情況下我們又該怎么做呢?

  狀態(tài)機就是這么一個例子,我們不能通過往狀態(tài)譯碼組合邏輯中加入流水。如果我們的設(shè)計中有一個幾十個狀態(tài)的狀態(tài)機,它的狀態(tài)譯碼邏輯將非常之巨大,毫無疑問,這極有可能是設(shè)計中的關(guān)鍵路徑。那我們該怎么做呢?還是老思路,減少組合邏輯。我們可以對狀態(tài)的輸出進行分析,對它們進行重新分類,并根據(jù)這個重新定義成一組組小狀態(tài)機,通過對輸入進行選擇(case語句)并去觸發(fā)相應(yīng)的小狀態(tài)機,從而實現(xiàn)了將大的狀態(tài)機切割成小的狀態(tài)機。在ATA6的規(guī)范中(硬盤的標準),輸入的命令大概有20十種,每一個命令又對應(yīng)很多種狀態(tài),如果用一個大的狀態(tài)機(狀態(tài)套狀態(tài))去做那是不可想象的,我們可以通過case語句去對命令進行譯碼,并觸發(fā)相應(yīng)的狀態(tài)機,這樣做下來這一個模塊的頻率就可以跑得比較高了。

  總結(jié):提高工作頻率的本質(zhì)就是要減少寄存器到寄存器的時延,最有效的方法就是避免出現(xiàn)大的組合邏輯,也就是要盡量去滿足四輸入的條件,減少LUT級聯(lián)的數(shù)量。我們可以通過加約束、流水、切割狀態(tài)的方法提高工作頻率。

  做邏輯的難點在于系統(tǒng)結(jié)構(gòu)設(shè)計和仿真驗證

  剛?cè)ス镜臅r候BOSS就和我講,做邏輯的難點不在于RTL級代碼的設(shè)計,而在于系統(tǒng)結(jié)構(gòu)設(shè)計和仿真驗證方面。目前國內(nèi)對可綜合的設(shè)計強調(diào)的比較多,而對系統(tǒng)結(jié)構(gòu)設(shè)計和仿真驗證方面似乎還沒有什么資料,這或許也從一個側(cè)面反映了國內(nèi)目前的設(shè)計水平還比較低下吧。以前在學(xué)校的時候,總是覺得將RTL級代碼做好就行了,仿真驗證只是形式而已,所以對HDL的行為描述方面的語法不屑一顧,對testbench也一直不愿意去學(xué)--因為覺得畫波形圖方便;對于系統(tǒng)結(jié)構(gòu)設(shè)計更是一點都不懂了。到了公司接觸了些東西才發(fā)現(xiàn)完全不是這樣。

  其實在國外,花在仿真驗證上的時間和人力大概是花在RTL級代碼上的兩倍,現(xiàn)在仿真驗證才是百萬門級芯片設(shè)計的關(guān)鍵路徑。仿真驗證的難點主要在于怎么建模才能完全和準確地去驗證設(shè)計的正確性(主要是提高代碼覆蓋),在這過程中,驗證速度也是很重要的。

  驗證說白了也就是怎么產(chǎn)生足夠覆蓋率的激勵源,然后怎么去檢測錯誤。我個人認為,在仿真驗證中,最基本就是要做到驗證的自動化。這也是為什么我們要寫testbench的原因。在我現(xiàn)在的一個設(shè)計中,每次跑仿真都要一個小時左右(這其實算小設(shè)計)由于畫波形圖無法做到驗證自動化,如果用通過畫波形圖來仿真的話,一是畫波形會畫死(特別是對于算法復(fù)雜的、輸入呈統(tǒng)計分布的設(shè)計),二是看波形圖要看死,三是檢錯率幾乎為零。那么怎么做到自動化呢?我個人的水平還很有限,只能簡單地談下BFM(bus function model,總線功能模型)。

  以做一個MAC的core為例(背板是PCI總線),那么我們需要一個MAC_BFM和PCI_BFM及PCI_BM(PCI behavior model)。MAC_BFM的主要功能是產(chǎn)生以太網(wǎng)幀(激勵源),隨機的長度和幀頭,內(nèi)容也是隨機的,在發(fā)送的同時也將其復(fù)制一份到PCI_BM中;PCI_BFM的功能則是仿PCI總線的行為,比如被測收到了一個正確幀后會向PCI總線發(fā)送一個請求,PCI_BFM則會去響應(yīng)它,并將數(shù)據(jù)收進來;PCI_BM的主要功能是將MAC_BFM發(fā)送出來的東西與PCI_BFM接收到的東西做比較,由于它具有了MAC_BFM的發(fā)送信息和PCI_BFM的接收信息,只要設(shè)計合理,它總是可以自動地、完全地去測試被測是否工作正常,從而實現(xiàn)自動檢測。 華為在仿真驗證方面估計在國內(nèi)來說是做的比較好的,他們已建立起了比較好的驗證平臺,大部分與通信有關(guān)的BFM都做好了,聽我朋友說,現(xiàn)在他們只需要將被測放在測試平臺中,并配置好參數(shù),就可以自動地檢測被測功能的正確與否。

  在功能仿真做完后,由于我們做在是FPGA的設(shè)計,在設(shè)計時已經(jīng)基本保證RTL級代碼在綜合結(jié)果和功能仿真結(jié)果的一致性,只要綜合布局布線后的靜態(tài)時序報告沒有違反時序約束的警告,就可以下到板子上去調(diào)試了。事實上,在華為中興,他們做FPGA的設(shè)計時也是不做時序仿真的,因為做時序仿真很花時間,且效果也不見得比看靜態(tài)時序分析報告好。

  當然了,如果是ASIC的設(shè)計話,它們的仿真驗證的工作量要大一些,在涉及到多時鐘域的設(shè)計時,一般還是做后仿的。不過在做后仿之前,也一般會先用形式驗證工具和通過靜態(tài)時序分序報告去查看有沒有違反設(shè)計要求的地方,這樣做了之后,后仿的工作量可以小很多。

  在HDL語言方面,國內(nèi)語言很多人都在爭論VHDL和verilog哪個好,其實我個人認為這并沒有多大的意義,外面的大公司基本上都是用verilog在做RTL級的代碼,所以還是建議大家盡量學(xué)verilog。在仿真方面,由于VHDL在行為級建模方面弱于verilog,用VHDL做仿真模型的很少,當然也不是說verilog就好,其實verilog在復(fù)雜的行為級建模方面的能力也是有限的,比如目前它還不支持數(shù)組。在一些復(fù)雜的算法設(shè)計中,需要高級語言做抽象才能描述出行為級模型。在國外,仿真建模很多都是用System C和E語言,用verilog的都算是很落后的了,國內(nèi)華為的驗證平臺好像是用System C寫。

  在系統(tǒng)結(jié)構(gòu)設(shè)計方面,由于我做的設(shè)計還不夠大,還談不上什么經(jīng)驗,只是覺得必須要具備一些計算機系統(tǒng)結(jié)構(gòu)的知識才行。劃分的首要依據(jù)是功能,之后是選擇合適的,總線結(jié)構(gòu)、存儲結(jié)構(gòu)和處理器架構(gòu),通過系統(tǒng)結(jié)構(gòu)劃分要使各部分功能模塊清晰,易于實現(xiàn)。這一部分我想過段時間有一點體會了再和大家分享,就先不誤導(dǎo)大家了。

  最后簡單說一下體會吧,歸結(jié)起來就多實踐、多思考、多問。實踐出真知,看100遍別人的方案不如自己去實踐一下。實踐的動力一方面來自興趣,一方面來自壓力,我個人覺得后者更重要。有需求會容易形成壓力,也就是說最好能在實際的項目開發(fā)中鍛煉,而不是為了學(xué)習(xí)而學(xué)習(xí)。在實踐的過程中要多思考,多想想問題出現(xiàn)的原因,問題解決后要多問幾個為什么,這也是經(jīng)驗積累的過程,如果有寫項目日志的習(xí)慣更好,把問題及原因、解決的辦法都寫進去。最后還要多問,遇到問題思索后還得不到解決就要問了,畢竟個人的力量是有限的,問同學(xué)同事,問搜索引擎,問網(wǎng)友,都可以,一篇文章、朋友們的點撥都可能幫助自己快速解決問題。

上一頁12全文