在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

揭秘賽靈思計算平臺ACAP技術細節

電子工程師 ? 來源:FPGA技術江湖 ? 作者:FPGA技術江湖 ? 2021-01-04 09:53 ? 次閱讀

在日前召開的FPGA領域的學術頂會--2019年“FPGA國際研討會”上,賽靈思發表了兩篇長論文,詳細介紹了賽靈思“自適應計算加速平臺”ACAP的系統架構和技術細節。本文將對ACAP的主要架構創新進行深入解讀,讓各位先睹為快。

ACAP是賽靈思在2018年推出的新一代計算平臺。在發布伊始,賽靈思新任掌門人Victor Peng就再三強調,ACAP并不是FPGA,而是整合了硬件可編程邏輯單元、軟件可編程處理器、以及軟件可編程加速引擎的計算平臺產品,是賽靈思“發明FPGA以來最卓越的工程成就”,足可見這個產品系列的重要性。

與其說ACAP是某種具體的芯片產品,不如說它像FPGA一樣,代指一種芯片架構。而賽靈思這次發表的論文,主要介紹的是基于ACAP架構的首款產品,名為Versal,并將基于臺積電的7納米工藝制造。相比傳統的FPGA架構,Versal ACAP在系統架構、電路結構、互聯方式等很多方面進行了大膽革新,這也是本文將要討論的重點。

芯片架構

Versal ACAP的芯片布局如下圖所示。總體來看,它與傳統FPGA結構非常類似,主要包含可編程邏輯部分、高速I/O與收發器、嵌入式處理器、存儲器控制等FPGA的常見硬件資源與模塊。

f9a2f7b4-4b7e-11eb-8b86-12bb97331649.jpg

值得注意的是,ACAP架構與傳統FPGA有兩點主要區別:

芯片頂端(北側)包含了AI加速引擎陣列,它們主要用來加速機器學習和無線網絡等應用中常見的數學計算。然而,關于AI引擎的具體結構,在這篇論文中并未提及。

在傳統FPGA片上互聯技術的基礎上,ACAP采用了固化的片上網絡(NoC),這主要是針對高帶寬、高吞吐量的應用場景,如存儲器控制和AI應用等,在上圖中也可以清晰的看到NoC與這些應用模塊的緊密互聯。

關于NoC的具體技術細節,在本次會議有另外一篇論文進行詳細闡述,見下圖。本文將對其進行簡單概述,并會在下篇文章中深入解析。

除NoC以外,ACAP選擇將很多常用的IP固化在芯片上,以提高性能、穩定性,并減少額外的可編程邏輯資源的使用。除了常見的PCIe、DDR控制器、以太網MAC之外,ACAP還選擇將嵌入式處理器和芯片管理單元進行固化,這令人有些意外。

在論文中介紹,在亞馬遜AWS F1實例中使用的片上管理單元占據了芯片面積的很大部分,如下圖所示,而這也是賽靈思選擇在ACAP上對這類邏輯進行固化的主要原因。

在可編程芯片上固化邏輯其實是一把雙刃劍,在提升性能和降低邏輯單元使用率的同時,犧牲的是被固化單元的靈活性。因此,往往只會選擇固化已經由成熟標準的邏輯單元,比如上文提到的通信接口與內存控制器等。對于芯片管理單元,固化后是否仍能適用于不同的應用場景?是否比集成ARM等硬核處理器更有效?這些問題就需要通過實際使用得到答案。

Versal ACAP架構的一個主要的創新之處,就是采用了非常規整的可編程邏輯陣列和時鐘域分布。老石之前曾介紹過一種名為“Overlay”的FPGA虛擬化技術,它的本質就是在FPGA的硬件層之上,抽象出一層虛擬的Overlay結構,如下圖所示。Overlay層基于CGRA等規整的邏輯結構,對應用層非常友好,但對不規整的FPGA底層架構而言,實現起來勢必會造成資源的浪費和性能的損失。

fa1cb5cc-4b7e-11eb-8b86-12bb97331649.jpg

ACAP架構采用了更加規整的可編程邏輯陣列,以及分布均勻的時鐘域,理論上這是極其有用的創新,特別是對于布局布線后的設計而言。通過這種方式,使得IP接口可以復用,即把一個IP從一個位置挪到另一個位置時,不需要對整個設計重新編譯,只需要單獨處理修改的部分即可。

更重要的是,這使得用戶可以重復使用已經完成布局布線的“半成品”或“模板”,只需要在事先保留的區域內加入新設計即可,這樣可以極大的減少編譯時間。這個創新與目前FPGA已有的劃分可編程區域等技術類似,但更進一步。只可惜,在這篇論文中沒有給出這個創新的任何實例或數據,因此很難確定這項技術是否已經實現,還是僅僅停留在理論層面。

CLB微結構

CLB是可編程邏輯塊的縮寫,它包含了多個可編程邏輯單元及其互聯。與傳統FPGA相比,Versal ACAP對它的CLB微結構進行了重大革新,用“翻天覆地”來形容也不為過。其中,最主要的架構變化有以下四點。

首先,CLB的容量相較UltraScale FPGA架構擴大了四倍,包含32個LUT和64個寄存器,見下圖。

fa481096-4b7e-11eb-8b86-12bb97331649.jpg

這樣做的主要目的,是為了減少全局布線資源的使用。ACAP為每個CLB設置了單獨的內部高速互聯,與全局布線相比,這些內部互聯更加快速,布線邏輯也更簡單,從而減輕了全局布線的壓力與擁擠。如下圖所示,采用了大CLB后,有18%的布線可以通過內部互聯完成。而對于傳統FPGA,只有7%的布線能在CLB內完成,其他都需要占用全局布線資源。

fabd2b38-4b7e-11eb-8b86-12bb97331649.jpg

第二,每個查找表結構(LUT)增加了一個額外的輸出,這是一個重要的架構變化。傳統FPGA的LUT結構為6輸入、2輸出,如下圖所示,可以實現任意的6輸入邏輯,或者兩個5輸入邏輯。當添加了一個新的輸出O5_2之后,就可以實現兩個獨立的6輸入邏輯功能。

fb75966e-4b7e-11eb-8b86-12bb97331649.jpg

這種結構的另外一個好處,是允許更多的邏輯功能進行合并,以減少LUT的使用量。FPGA設計工具會根據兩個LUT的距離,判斷這兩個LUT里的邏輯能否進行合并。例如,與UltraScale架構相比,當兩個LUT之間的距離小于5個Slice網格距離時,Versal ACAP架構能多合并21.5%的邏輯功能,從而減少相應的硬件資源使用。

fc047fe6-4b7e-11eb-8b86-12bb97331649.jpg

作為代價,在UltraScale架構中存在的Wide Function功能被移走。因此如果需要實現諸如32:1的選擇器時,就可能會擴展到多個Slice,對時序造成負面影響,并且需要額外的硬件資源支持。

第三,每個Slice的進位鏈邏輯結構進行了徹底修改,如下圖所示。事實上,一直是現代FPGA標配的固化進位鏈被完全移除,取而代之的是使用LUT中新增加的cascade_in和LUT邏輯完成加法結構。

fc89e03c-4b7e-11eb-8b86-12bb97331649.jpg

論文中對這部分的討論過于簡單,對這個重要的架構改變沒有給出詳細原因,對上圖中Versal進位鏈的具體實現結構也含糊不清。老石猜測,這個改變的主要原因還是由于新增加的第二個LUT輸出,如果繼續保留進位鏈邏輯,會導致LUT間延時過大,從而影響時序。但是,這種新的進位鏈結構是否會對算術運算的性能產生負面影響,賽靈思并未在論文中給出數據佐證。

第四,引入了名為“Imux寄存器”的新結構。這種新寄存器架構很明顯是用來對標英特爾的HyperFlex架構。Imux寄存器共有四種模式,如下圖所示。

fcd1e03a-4b7e-11eb-8b86-12bb97331649.jpg

這種架構只在CLB之前引入了用于優化時序、增加流水線的寄存器。同時,這些寄存器包含了復位、初始化、時鐘使能等常見寄存器功能。這與HyperFlex的海量寄存器架構有著明顯不同,如下圖。Imux沒有在全部布線資源上都設置寄存器,因此引入的額外延時會更小。但在深度流水線設計中,這種結構的絕對性能應該不如HyperFlex架構。

fd8bd008-4b7e-11eb-8b86-12bb97331649.png

上面的四種Imux使用模式在本文中不再贅述,例如下圖展示了其中的Time Borrowing、Pipelining、以及二者結合的模式。但這幾種方式與傳統的流水線和Retiming方式并沒有本質區別。

fde77c1e-4b7e-11eb-8b86-12bb97331649.jpg

關于Imux寄存器架構,這篇論文最嚴重的問題在于實測數據和對比很少。這樣的實驗和論述,使得這部分內容更像一篇白皮書,而非高端學術論文。嚴謹的學術方法是需要兼顧可重復性和標準性,例如,選取一些標準的參考設計和Benchmark,分別使用英特爾的HyperFlex架構、賽靈思的UltraScale架構,以及這里提出的Imux架構,進行實現,并測量這些在這些架構上分別能得到多快的運行頻率。很顯然,這篇論文在很多地方都存在這樣的問題。

3D芯片制造技術SSIT

ACAP采用了賽靈思的第四代硅片堆疊技術SSIT。關于這個技術的細節,老石在之前的文章中詳細介紹過。這個技術本質上是將多個小型硅片,放置在一個大的無源硅中介層上,然后通過硅通孔和芯片連線進行互聯,從而組成一個大芯片。

fe59cc9c-4b7e-11eb-8b86-12bb97331649.jpg

這種技術非常適合在每代半導體工藝的發展早期,特別是制造大型硅片的良率較低的情況。另外,SSIT的靈活性比較高,技術思路比較直接,發展至今已有四代,已經比較成熟。

不過,這種技術的主要問題非常明顯,主要有以下幾點:

當工藝成熟后,這種方式帶來的良率提升就不甚明顯,綜合成本反而會上升。

將多枚硅片通過硅中間層組合,可能會帶來明顯的性能降低。這主要受制于硅片間的互聯資源,以及互聯導線的巨大延遲。

該技術會限制FPGA配置的靈活性,因為它相當于人為的增加了多個設計區域和邊界。這也對設計工具的優化能力造成了很大的挑戰。

在這篇論文中,Versal ACAP主要針對上面的第二和第三點進行了優化和改進。例如,在Versal架構中,采用了更多的硅片間的互聯通道(SLL channel),如下圖所示。同時,這些互聯通道的傳輸延時也得到了進一步優化,相比傳統連線的延時下降了30%。

feac25fa-4b7e-11eb-8b86-12bb97331649.jpg

片上網絡NoC

片上網絡是ACAP的主要技術革新之一。對于諸如DDR、高速網絡、PCIe等高速接口與應用來說,通常有著很高的帶寬要求。這一方面需要采用高位寬的總線,另一方面需要高速時鐘。因此,傳統的FPGA設計方法都是通過對總線進行深度流水線來實現。但對于一個大型設計而言,這種方法會很快造成片上布線資源的擁擠。這就需要尋找有效的方法,同時解決高速數據傳輸和低擁堵布線兩個問題。

ACAP采用了片上網絡(Network-on-Chip,NoC)技術應對上述問題。在傳統的FPGA布線資源之外,引入了NoC網絡,將需要進行高速數據傳輸的內容轉化成基于數據包的形式,通過NoC的交換機邏輯實現數據交換,如下圖所示。與網絡應用類似,這種片上網絡也能對各類的傳輸進行服務質量控制(QoS)。

ff1191a6-4b7e-11eb-8b86-12bb97331649.jpg

這種方法最大的優點是在系統層面,將數據傳輸與數據計算進行了分離,從而在保證帶寬的基礎上,緩解了系統的布局布線壓力。例如,數據計算可以在AI引擎或片上其他部分實現,而不需緊靠DDR控制器等高速接口。

不過,這種方法的主要問題是引入了額外的傳輸延時,這對于需要固定延時或者低延時的應用可能會有影響。在這篇論文中,并沒有提及延時的數據。此外,片上網絡的位寬是固定的,無法對應用進行優化,這也有可能對不同應用的系統性能造成負面影響。

結語

ACAP作為賽靈思重磅推出的下一代計算平臺,從發布之初就備受矚目。究竟ACAP是不是FPGA,這個問題其實并不重要,重要的是ACAP的本質仍然是基于可編程邏輯陣列的異構計算芯片。與傳統FPGA架構相比,ACAP帶來了諸多系統和微結構的換代和革新,這也讓人們看到了業界為了延續摩爾定律的發展所做的不懈努力。

就這篇論文而言,雖然很多地方的學術嚴謹性有待提高,但瑕不掩瑜。作為第一篇完整的介紹Versal ACAP架構細節的論文,它還是為我們帶來了很多對ACAP新結構、新技術的詳細闡述和討論,也讓我們得以一窺ACAP的技術細節。

原文標題:賽靈思計算平臺ACAP技術細節全揭秘

文章出處:【微信公眾號:FPGA技術江湖】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1629

    文章

    21736

    瀏覽量

    603421
  • 賽靈思
    +關注

    關注

    32

    文章

    1794

    瀏覽量

    131280
  • ACAP
    +關注

    關注

    1

    文章

    54

    瀏覽量

    8170

原文標題:賽靈思計算平臺ACAP技術細節全揭秘

文章出處:【微信號:HXSLH1010101010,微信公眾號:FPGA技術江湖】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FPGA產品的主要特點

    近年來,全球半導體供應鏈屢受挑戰,芯片短缺問題一度對行業產生深遠影響。易通過優化供應鏈管理、強化產能規劃,確??蛻舻腇PGA需求得到及時滿足。面向工業控制、機器視覺、醫療影像、消費電子、汽車智駕等一眾終端領域,易
    的頭像 發表于 12-04 14:20 ?428次閱讀
    易<b class='flag-5'>靈</b><b class='flag-5'>思</b>FPGA產品的主要特點

    盛在線平臺疑問解答系列(二)

    02盛在線平臺疑問解答系列(二)sesOnlineSES前言技術于2024年10月17日隆重發布了最新產品《盛在線學習及工具應用
    的頭像 發表于 11-09 01:06 ?164次閱讀
    <b class='flag-5'>賽</b>盛在線<b class='flag-5'>平臺</b>疑問解答系列(二)

    盛在線平臺疑問解答系列(一)

    01盛在線平臺疑問解答系列(一)sesOnlineSES前言技術于2024年10月17日隆重發布了最新產品《盛在線學習及工具應用
    的頭像 發表于 10-31 08:05 ?219次閱讀
    <b class='flag-5'>賽</b>盛在線<b class='flag-5'>平臺</b>疑問解答系列(一)

    深入解析Zephyr RTOS的技術細節

    ,Zephyr OS在嵌入式開發中的知名度逐漸增加,新的微控制器和開發板都支持Zephyr。本文將深入討論Zephyr RTOS的技術細節。
    的頭像 發表于 10-22 16:47 ?534次閱讀
    深入解析Zephyr RTOS的<b class='flag-5'>技術細節</b>

    探究雙路或四路可選可編程晶體振蕩器SG-8503CA/SG-8504CA的技術細節及其應用

    探究雙路或四路可選可編程晶體振蕩器SG-8503CA/SG-8504CA的技術細節及其應用
    的頭像 發表于 07-23 17:08 ?365次閱讀

    快訊 | 發展新質生產力問道?如何下好“創新棋”?

    7月11日,南湖區委宣傳部、清華大學馬克主義學院共同帶隊一行蒞臨圍繞時頻新質生產力創新層面進行實地調研,副總經理田永和、對外合作部
    的頭像 發表于 07-12 13:31 ?502次閱讀
    <b class='flag-5'>賽</b><b class='flag-5'>思</b>快訊 | 發展新質生產力問道<b class='flag-5'>賽</b><b class='flag-5'>思</b>?<b class='flag-5'>賽</b><b class='flag-5'>思</b>如何下好“創新棋”?

    LED顯示屏的換幀頻率與刷新頻率:技術細節與市場發展

    在當今數字化時代,LED顯示屏已成為信息傳遞和廣告宣傳的重要工具。然而,對于普通消費者來說,LED顯示屏背后的技術細節可能仍然是一個謎。今天,我們將深入探討LED顯示屏中的兩個關鍵概念:換幀頻率和刷新頻率,以及它們之間的關系,帶領大家了解這些技術如何影響我們的視覺體驗。
    的頭像 發表于 06-23 02:22 ?709次閱讀
    LED顯示屏的換幀頻率與刷新頻率:<b class='flag-5'>技術細節</b>與市場發展

    中科愛畢紅外光電探測技術,打破高端市場“卡脖子”困境

    “超晶格紅外光電探測,如同照相機通過可見光感知事物,但它是通過紅外手段來感知世界的……”在中科愛畢(常州)光電科技有限公司(以下簡稱“中科愛畢”),工作人員這樣介紹公司的核心產
    的頭像 發表于 05-30 09:14 ?1.7w次閱讀
    中科愛畢<b class='flag-5'>賽</b><b class='flag-5'>思</b>紅外光電探測<b class='flag-5'>技術</b>,打破高端市場“卡脖子”困境

    PMP22165.1-適用于 Xilinx 通用自適應計算加速平臺 (ACAP) 的電源 PCB layout 設計

    電子發燒友網站提供《PMP22165.1-適用于 Xilinx 通用自適應計算加速平臺 (ACAP) 的電源 PCB layout 設計.pdf》資料免費下載
    發表于 05-19 10:45 ?0次下載
    PMP22165.1-適用于 Xilinx 通用自適應<b class='flag-5'>計算</b>加速<b class='flag-5'>平臺</b> (<b class='flag-5'>ACAP</b>) 的電源 PCB layout 設計

    快訊 | 熱烈歡迎嘉興市政協一行領導蒞臨總部調研指導工作!

    近日,嘉興市政協一行領導蒞臨總部調研指導工作,副總經理王文濤、田永和全程陪同。嘉興市政協一行領導蒞臨
    的頭像 發表于 05-17 13:22 ?527次閱讀
    <b class='flag-5'>賽</b><b class='flag-5'>思</b>快訊 | 熱烈歡迎嘉興市政協一行領導蒞臨<b class='flag-5'>賽</b><b class='flag-5'>思</b>總部調研指導工作!

    西威與長線智能合作共同打造行業領先的車載中央計算平臺

    西威與長線智能簽署合作協議,將基于新一代高算力中央計算平臺芯片,集中各自技術資源優勢,共同打造行業領先的車載中央計算
    的頭像 發表于 04-30 11:39 ?820次閱讀
    德<b class='flag-5'>賽</b>西威與長線智能合作共同打造行業領先的車載中央<b class='flag-5'>計算</b><b class='flag-5'>平臺</b>

    深入了解目標檢測深度學習算法的技術細節

    本文將討論目標檢測的基本方法(窮盡搜索、R-CNN、FastR-CNN和FasterR-CNN),并嘗試理解每個模型的技術細節。為了讓經驗水平各不相同的讀者都能夠理解,文章不會使用任何公式來進行講解
    的頭像 發表于 04-30 08:27 ?347次閱讀
    深入了解目標檢測深度學習算法的<b class='flag-5'>技術細節</b>

    聊聊50G PON的技術細節

    今天給大家詳細說說50GPON的一些技術細節。我盡量用通俗易懂的方式解釋,相信大家看了一定會有收獲。█50GPON的技術指標PON(無源光網絡)是一個接入網技術。它的核心作用,就類似一個“有線”基站
    的頭像 發表于 04-30 08:05 ?223次閱讀
    聊聊50G PON的<b class='flag-5'>技術細節</b>

    給我一個FPGA,可以撬起所有顯示的接口和面板

    ,HDR因為可以非常清晰的還原更多圖像的細節,從而受到從面板企業到電視行業甚至消費者的廣泛關注。 在之前的一場“電視與顯示
    發表于 04-25 18:10

    FPGA flash操作原理

    FPGA flash操作原理分享
    的頭像 發表于 04-09 15:03 ?1007次閱讀
    主站蜘蛛池模板: 亚洲天天在线| 1024手机免费看| 看视频免费| 亚洲人成77777在线观看网| 欧美性视频一区二区三区| 97色在线视频观看香蕉| 456影院第一| 午夜精品福利在线观看| 黄色小毛片| 高清成年美女黄网站色大| 在线观看你懂得| 国产资源在线播放| 久久草在线视频播放| xxx久久| 狠狠色网| 国产黄大片在线观看| 亚洲成熟| a级毛片网站| 一区二区免费播放| 欧美日韩一区二区三区视视频| 窝窝午夜看片免费视频| 中文字幕一区二区三| 欧美激情亚洲色图| 欧美成人全部费免网站| 永久免费看www色视频| 国产一级爱c片免费播放| 2022天天干| 日本香蕉视频| 奇米网在线观看| 亚洲欧美在线精品一区二区| 成年人网站在线| 一级片一级片一级片| 免费日韩三级| 寡妇影院首页亚洲图片| 四虎一影院区永久精品| 天天色成人| 夜夜橹橹网站夜夜橹橹| xxxx欧美69免费| 色综合视频一区二区三区| 久久涩精品| 好骚综合在线|