引言
自從幾十年前首次推出FPGA 以來,每種新架構都繼續(xù)在采用按位(bit-wise)的布線 結構。 雖然這種方法一直是成功的,但是隨著高速通信標準的興起,總是要求不斷增加片上總線位寬,以支持這些新的數據速率。 這種限制的一個后果是,設計人員經常花費大量的開發(fā)時間來嘗試實現時序收斂,犧牲性能來為他們的設計布局布線。
傳統(tǒng)的FPGA布線基于整個FPGA中水平和垂直方向上運行的多個獨立分段互連線(segment),在水平和垂直布線的交叉點處帶有開關 盒(switch box)以實現通路的連接。 通過這些獨立段和開關盒可以在FPGA上構建從任何源到任何目的地的通路。 FPGA布線的這種統(tǒng)一結構為實現任何邏輯功能提供了極大的靈活性,可用于FPGA邏輯陣列內的任何數據路徑位寬。
盡管在FPGA中的按位來布線非常靈活,但其缺點是每個段都會給任何給定的信號通路增加延遲。 需要在FPGA中進行長距離傳輸的信號會導致分段之間的連接延遲,從而降低了功能的性能。 按位布線的另一個挑戰(zhàn)是擁塞,它要求信號路徑繞過擁塞,這會導致更多的延遲,并造成性能的進一步降低。
Achronix將此挑戰(zhàn)視為一個開發(fā)全新架構的機會,以消除傳統(tǒng)FPGA的設計挑戰(zhàn)并提高系統(tǒng)性能。 Achronix的解決方案是在傳統(tǒng)分段式FPGA布線結構之上,再為其全新的Speedste r7t FPGA系列器件創(chuàng)建一個革命性的二維(2D)高速片上網絡(NoC)。 Speedster7t NoC連接到所有片上高速接口 :400G以太網 、PCIe Gen5、GDDR6和DDR4 / 5的多個端口。
NoC的內部由一組行和列組成,它們在整個FPGA邏輯陣列中將網絡數據流量從水平和垂直方向上進行分發(fā)。 主NoC接入(NAP)點和從NoC接入點位于NoC的每一行和每一列交叉的位置。 這些NAP可以是NoC和可編程邏輯陣列之間的源或目的地。
圖1:Speedster7t的片上網絡(NoC)和接口
Ethernet :以太網
Security:安全性
Configurati on:配置
each direcTI on:每個方向
Speedster7t的NoC似乎只對FPGA內部的布線總線有所幫助; 但是,這種新型架構可以顯著提高設計人員的工作效率,實現全新的設計功能,并提供了輕松實現密集型數據處理應用的能力。 下面列舉了在效率提高、設計變更和性能提升方面最顯著的八種應用場景。
在整個FPGA的邏輯陣列中簡化高速數據分發(fā)
在傳統(tǒng)的各種FPGA架構中,對連接到FPGA的片外存儲器 以及與之相連的外部高速數據源進行雙向的讀/寫操作,需要數據在FPGA邏輯架構中經過一條較長且分段的路由路徑。 這種制約不僅限制了帶寬,而且還會消耗在邏輯陣列中的用戶設計所需的布線資源,這給FPGA設計人員在時序收斂方面帶來了挑戰(zhàn),尤其是其他邏輯功能對器件利用率提高的時候。
使用Speedster7t的NoC將數據從外部源傳輸到FPGA和存儲 器,比使用傳統(tǒng)的FPGA架構完成同樣的工作要容易得多。 Speedster7t NoC增強了FPGA陣列中傳統(tǒng)的可編程互連,其中的NoC就像一個疊加在城市街道系統(tǒng)上的高速公路網絡。 雖然Speedster7t FPGA中傳統(tǒng)的、可編程互連矩陣仍然適用于較慢的本地數據流量,但NoC可以處理更具挑戰(zhàn)性的、高速的數據流。
NoC中的每一行或每一列都被實現為兩個256位的、以2Ghz固定時鐘 速率運行的單向數據通道。 行具有東/西通道,列具有北/南通道,從而允許每個NoC行或列可以同時處理每個方向上512 Gbps的數據流量。 總而言之,這些通道可以通過編寫簡單的Verilog 或VHDL代碼,在FPGA陣列中傳輸大量的數據,這些代碼支持FPGA與NAP通信并連接到NoC高速公路網絡上。
下圖顯示了NoC中各個點之間的數據傳輸。 點1和點2的邏輯分別實例化了一個水平NAP。 NAP可以發(fā)送和接收數據,但是每個單獨的數據流都只是朝向一個方向。 類似地,點3和點4的邏輯實例化了一個垂直NAP,并且可以在彼此之間發(fā)送數據流。
圖2:NoC上跨越器件邏輯陣列的數據流
自動將PCIe接口連接到存儲器
在現在的FPGA中,設計人員在將高速接口連接至連有FPGA的存儲器件進行讀寫時,必須考慮在器件內由于連接邏輯、進行布線、以及輸入和輸出信號的位置而產生的延遲。 為了實現基本的接口功能,在設計過程中構建一個簡單的存儲接口通常就要花費大量的時間。
在Speedster7t架構中,將嵌入式PCIe Gen5接口連接到已連接的GDDR6或DDR4存儲器這項工作,可由外圍NoC自動處理,不需要設計人員編寫任何RTL來建立這些連接。 由于NoC連接到所有的外圍IP接口,因此設計人員在將PCIe連接到GDDR6或DDR4的任何一個存儲器接口時,都具有極大的靈活性。 在下面的示例中,NoC能夠提供足夠的帶寬,以持續(xù)支持PCIe Gen 5通信流連接到GDDR6內存的任意兩個通道。 這種高帶寬連接無需消耗任何FPGA邏輯陣列資源即可實現,并且設計所需時間幾乎為零。 用戶只需要啟用PCIe和GDDR6接口即可在NoC上發(fā)送事務。
圖3:將PCIe直接連接到GDDR6接口
在獨立的FPGA邏輯陣列模塊上實現安全的局部重新配置
與其他基于靜態(tài)隨機存取存儲器(SRAM )的FPGA一樣,Speedster7t FPGA必須在通電時進行配置。 Speedster7t FPGA具有一個片上FPGA配置單元(FCU),用于管理FPGA的初始配置和任何后續(xù)的局部重新配置。 FCU還被連接到NoC,從而在配置FPGA時提供了更高的靈活性。 使用NoC將配置位流傳輸到Speedster7t FCU,可以使用以前不可用的新方法來對FPGA進行配置。
在器件配置之前,Speedster7t NoC可用于某些讀/寫事務:PCIe至GDDR6、PCIe至DDR4、最后是PCIe至FCU。一旦PCIe接口被設置好,FPGA就可以通過PCIe接口接收配置比特流(bitstream),并將其發(fā)送給FCU以配置器件的其余部分。一旦到達FCU,配置比特流被寫入FPGA可編程邏輯以配置器件。在器件被配置完成后,設計人員可以靈活地重新配置FPGA的某些部分(局部重新配置),以增加新的功能或提高加速性能,而無需關閉FPGA。
新的局部重新配置比特流可以通過PCIe接口發(fā)送到FCU,來重新配置器件的任何部分。當部分器件被重新配置時,通過在所需的區(qū)域中實例化一個NAP與NoC進行通信,任何進出新配置區(qū)域的數據都可以在Speedster7t1500器件中被輕松訪問。NoC消除了傳統(tǒng)FPGA局部重新配置的復雜性,因為用戶不必擔心圍繞現有邏輯功能進行布線并影響性能,也不必擔心由于該區(qū)域中的現有邏輯而無法訪問某些器件的引腳。該功能節(jié)省了設計人員的時間,并在使用局部重新配置時提供了更大的靈活性。
此外,局部重新配置允許設計人員在工作負載變化時調整器件內的邏輯。例如,如果FPGA正在對輸入的數據執(zhí)行壓縮算法,并且不再需要壓縮,則主機CPU 可以告訴FPGA重新配置,并加載經過優(yōu)化的新設計以處理下一個工作負載。在器件仍處于運行狀態(tài)時,局部重新配置可以在邏輯陣列集群(cluster)級別上獨立完成。一個聰明的用例是開發(fā)一個具有自我感知的FPGA,該FPGA通過使用一個軟CPU來監(jiān)測器件操作以實時啟動局部重新配置,來關閉邏輯從而節(jié)省功耗,或在FPGA架構中添加更多加速器模塊,以臨時處理大量的輸入數據。這些功能為設計人員提供了前所未有的配置靈活性。
輕松支持硬件虛擬化
Speedster7t NoC通過利用NAP及其AXI接口,為設計人員提供了在單個FPGA中創(chuàng)建虛擬化安全硬件的獨特能力。 將可編程邏輯設計直接連接到NoC只需要在邏輯設計中實例化一個NAP及其AXI4接口即可。 每個NAP還具有一個相關的地址轉換表(ATT),該表將NAP上的邏輯地址轉換為NoC上的物理地址。 NAP的ATT允許可編程邏輯模塊使用本地地址,同時將NoC定向事務映射到NoC全局存儲映射所分配的地址。 此項重新映射功能可以以多種方式使用。 例如,它可以用于允許加速引擎的所有相同副本使用基于零的虛擬尋址,同時將數據流量從每個加速引擎發(fā)送到不同的物理存儲位置。
每個ATT條目還包含一個訪問保護位,以防止該節(jié)點訪問被禁止的地址范圍。 該功能提供了一種重要的進程間安全機制,可防止同時在一個Speedster7t FPGA上運行的多個應用或多個任務干擾分配給其他應用或任務的存儲模塊。 這種安全機制還有助于防止由于意外、偶然甚至是故意的存儲地址沖突而導致系統(tǒng)崩潰。 此外,設計人員可以使用此方案阻止邏輯功能訪問整個存儲設備。
圖4:使用Speedster7t NoC實現硬件虛擬化
Memory Space:存儲空間
簡化團隊協(xié)同設計
基于團隊的協(xié)同化FPGA設計并不是一個新的概念,但是底層架構和布線依賴于FPGA的其他部分,從而使得實現這個簡單概念非常具有挑戰(zhàn)性。 一旦一個團隊完成了設計的一部分,另一個設計其他部分的團隊在嘗試訪問設備另一端的資源時,通常會遇到挑戰(zhàn),因為需要在已經完成的設計部分進行布線。 同樣,對一部分已進行設計布線的FPGA的區(qū)域或大小進行更改,可能會對所有其他FPGA設計模塊產生連鎖 影響。
使用Speedster7t NoC,可以將設計模塊映射到FPGA的任何部分,并且可以對資源分配進行更改,而不會影響其他FPGA模塊的時序、布局或布線。由于器件中所有的NAP都支持每個設計模塊無限制地訪問NoC進行通信,因此使得基于團隊的設計成為可能。因此,如果一個設計的某個部分在規(guī)模上有所增大,只要有足夠的FPGA資源可用,數據流就會由NoC自動管理,從而使設計人員不必擔心是否滿足時序,以及對其他團隊成員正在進行的設計的其他部分可能帶來的后續(xù)影響。
圖5:致力于開發(fā)同一個FPGA的多個設計團隊
Design Team:設計團隊
通過獨立的接口和邏輯驗證加快設計速度
Speedster7t NoC的另一個獨特功能是支持設計人員獨立于用戶邏輯去配置和驗證I/O 連接。例如,一個設計團隊可以驗證PCIe至GDDR6的接口,而另一個設計團隊可以獨立地驗證內部邏輯功能。這種獨立操作之所以能夠實現,是因為NoC的外圍部分連接了PCIe、GDDR6、DDR4和FCU,而不會消耗任何FPGA資源。這些連接可以在不使用任何HDL代碼的情況下進行測試 ,從而可以同時獨立地驗證接口和邏輯。該功能消除了驗證步驟之間的依賴關系,并實現了比傳統(tǒng)FPGA架構更快的總體驗證速度。
圖6:獨立的I/O和邏輯驗證
Design Team 1:I/O Verif icaTI on:設計團隊1:I/O驗證
Design Team 2:Logic VerificaTI on:設計團隊2:邏輯驗證
采用分組模式(Packet Mode)簡化400 Gbps以太網應用
在FPGA中實現高速400 Gbps以太網數據通路所面臨的挑戰(zhàn)是找到一種能夠滿足FPGA性能要求的總線位寬。對于400G以太網,全帶寬運行的唯一可行選擇是運行在724 MHz的1,024位總線,或運行在642 MHz的2,048位總線。如此寬的總線難以布線,因為它們在FPGA架構內消耗了大量的邏輯資源,即使在最先進的FPGA中也會在這樣的速率要求下產生時序收斂挑戰(zhàn)。
但是,在Speedster7t架構中,設計人員可以使用一種稱為分組模式(packetmode)的新型處理模式,其中傳入的以太網流被重新排列為四個較窄的32字節(jié)數據包,或者四條獨立的以506 MHz頻率運行的256位總線。這種模式的優(yōu)點包括:當數據包結束時減少了字節(jié)的浪費,并且可以并行傳輸數據,而不必等到第一個數據包完成后才開始第二個數據包的傳輸。Speedster7t FPGA架構的設計旨在通過將以太網MAC直接連接到特定的NoC列,然后使用用戶實例化的NAP從NoC列連接到邏輯陣列中,從而啟用分組模式。使用NoC列,數據可以沿著該列被發(fā)送到FPGA架構中的任何位置,以便進一步處理。使用ACE設計工具配置分組模式,可大大簡化用戶設計,并在處理400 Gbps以太網數據流時提高了效率。
圖7:分組模式下的數據總線重排
Packet:數據包
Byte:字節(jié)
圖8:使用分組模式的400 Gbps以太網
降低邏輯占用并提高整體FPGA性能
與以前的傳統(tǒng)FPGA相比,Speedster7t NoC具有更大的靈活性和更簡單的設計方法。一個潛在的好處是NoC會自動減少給定設計所需的邏輯量,設計可以使用NoC代替FPGA邏輯陣列來進行模塊間布線。ACE設計工具自動管理將設計單元連接到Speedster7t NoC的復雜性,因此設計人員無需編寫HDL代碼即可實現生產率。這種方法簡化了實現時序收斂的耗時挑戰(zhàn),同時又不會由于FPGA邏輯陣列內的布線擁塞而降低整體應用性能。NoC還可以在不犧牲FPGA性能的情況下提高器件利用率,并且可以顯著增加可用于計算的查找表(LUT)數量。
為了強調這一優(yōu)勢,我們創(chuàng)建了一個支持二維輸入圖像卷積的示例設計。每個模塊都使用Speedster7t機器學習 處理器(MLP)和BRAM模塊,每個MLP在一個周期內執(zhí)行12次int8乘法。將40個二維卷積模塊鏈接在一起,以利用器件中幾乎所有可用的BRAM和MLP資源。總共有40個二維卷積示例設計實例并行運行,使用了94%的MLP、97%的BRAM、但僅使用了8%的LUT。在總的可用LUT中,其余92%的LUT仍可被用于其他功能。
隨著更多的實例被內置于器件中,單個單元模塊的最高頻率(FMAX)不會降低。該設計能夠保持性能,因為進出每個二維卷積模塊的數據可以直接從連接到NoC的NAP訪問GDDR6內存,而無需通過FPGA邏輯陣列進行布線。
圖9:一個帶有40個二維卷積模塊實例的Speedster7t器件
結論
Speedster7t NoC實現了FPGA設計過程的根本轉變。Achronix是第一家實現二維片上網絡(2D NoC)的FPGA公司,該2D NoC可以連接所有的系統(tǒng)接口和FPGA邏輯陣列。這種新型架構使Achronix公司的FPGA特別適用于高帶寬應用,同時顯著提高了設計人員的生產率。由于NoC管理了FPGA中設計的數據加速器和高速數據接口之間的所有網絡功能,因此設計人員只需要設計其數據加速器并將其連接到NAP原語即可。ACE和NoC負責其他所有事務。通過使用NoC,FPGA設計人員將受益于:
在整個FPGA邏輯陣列中簡化高速數據分發(fā)
自動將PCIe接口連接到存儲器
在獨立的FPGA邏輯陣列模塊上實現安全的局部重新配置
輕松支持硬件虛擬化
簡化團隊化設計
通過獨立的接口和邏輯驗證加快設計速度
采用分組模式簡化400 Gbps以太網應用
降低邏輯占用并提高整體FPGA性能
審核編輯:湯梓紅
-
FPGA
+關注
關注
1630文章
21769瀏覽量
604648 -
接口
+關注
關注
33文章
8667瀏覽量
151524 -
總線
+關注
關注
10文章
2894瀏覽量
88218 -
NoC
+關注
關注
0文章
38瀏覽量
11747 -
高速網絡
+關注
關注
0文章
12瀏覽量
6994
原文標題:使用帶有片上高速網絡的FPGA的八大好處
文章出處:【微信號:EngicoolArabic,微信公眾號:電子工程技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論