我欲封天耳根小说零,唐家三少,盗墓笔记小说下载

本文翻譯自Synopsys的官方文章：

在數字設計的Implementation過程中，從RTL到GDSII的每一步都是高度計算密集型的。在SoC層面，為了最小化互連的延遲，我們需要評估數百個partition的各種布局方案。一旦確定了布局方案，接下來就是進行每個partition內的其余步驟，以實現全芯片的implementation和signoff。由于每一步的計算需求已經很高，并且還要乘以partition的數量，這就引發了一個問題：傳統用于數字設計的CPU是否已經達到了容量極限？GPU是否能夠滿足計算需求？

如今，GPU以其處理人工智能、機器學習、游戲和高性能計算等要求最為苛刻的工作負載而聞名。隨著芯片越來越大、越來越復雜，也許也是時候考慮用GPU來完成數字芯片設計的Implementation了。

CPU在EDA工作負載中的容量挑戰

CPU長期以來被認為是計算機的“大腦”。擁有數十億個晶體管和多個處理核心，如今的CPU非常適合完成廣泛的任務，并且能夠快速完成。另一方面，GPU最初是為特定目的設計的，但隨著時間的推移，它們也轉變為通用的并行處理器。

一般來講，EDA工具都是在基于x86處理器的CPU上運行的。然而，隨著多芯片設計等復雜架構變得越來越普遍，我們正在接近CPU計算容量的限制。考慮到芯片設計團隊始終面臨的上市時間壓力，利用額外的工具和技術來加速芯片設計過程的任何方面都是有意義的。在驗證和分析方面，新思科技的PrimeSim和VCS仿真流程已經從GPU加速中受益。雖然數字設計流程中的每個任務并不是都非常適合GPU，但有些任務確實可以加速。

最先進的高性能數據中心x86 CPU核心平均有64到128個核心，每個box最多約有200個核心。需要更多核心的任務需要分布在許多box上；如果網絡不夠快，這會產生一些開銷。RTL到GDSII流程和優化技術包含許多相互依賴性。為了使流程中的每個任務能夠成功并行執行，作業分布在CPU box之間的數據共享必須非常快速，延遲要小。然而，實際上，網絡延遲會妨礙周轉時間，使得完整的RTL到GDSII流程的分布式并行化變得不那么有吸引力。

另一方面，GPU核心可以輕松擴展。每個核心執行的操作更少，而且非常微小，以至于你可以在一個插座中擁有數萬個核心，以提供巨大的處理能力，同時保持可管理的占用空間。能夠從大規模并行性中受益的任務非常適合GPU。然而，這樣的任務也必須是主要單向的，因為任何決策和迭代都會減慢進程和/或需要回到CPU進行“如果那么”決策。這排除了許多RTL到GDSII數字implementation流程中的任務，盡管并非所有任務都不適合。

使用GPU加速加快布局過程

在數字設計流程中，自動布局是已經展示出在GPU上運行前景的一項任務。在商業環境中運行的原型中，新思科技的Fusion Compiler GPU加速布局技術相比CPU，已經展示出顯著的周轉時間優勢：

使用GPU放置一個3nm GPU流處理器設計，包含1.4M個可放置的標準單元和20個可放置的硬宏，僅需38秒，相比之下，CPU驅動的布局需要13分鐘

使用GPU放置一個12nm汽車CPU設計，包含2.9M個可放置的標準單元和200個可放置的硬宏，僅需82秒，相比之下，CPU驅動的布局需要19分鐘

結合新思科技DSO.ai的AI驅動自動設計空間優化，我們預計將在相同的完成時間線上將AI驅動的搜索空間擴大15倍到20倍。這樣做可以使設計團隊實現更好的功耗、性能和面積（PPA）結果。

在許多方面，由于對最終設計PPA的高影響，布局和 floorplanning 是涉及最廣泛探索的implementation步驟。我們可以想象，即使GPU計算資源通常與強大的CPU計算集群分開，單個designer使用基于GPU的布局技術也能具有很高的生產力。然而，在RTL到GDSII 的implementation流程的其余部分中，通過CPU和GPU集群之間移動設計數據引入的延遲可能會限制吞吐量優勢。

新的數據中心SoC正在設計中，CPU和GPU資源之間具有統一內存，用于TB級工作負載。這些新興架構消除了利用GPU加速所需的設計數據移動，并將允許我們考慮在數字設計流程中應用GPU加速的其他位置，特別是當設計師可以將GPU與AI驅動的implementation工具配對時，可以進行更快、更廣泛的探索和更好的結果。隨著像新思科技.ai這樣的AI驅動的全棧EDA流程解決方案產生更好的PPA結果、更快的達到目標時間和更高的工程生產力，人們只能想象GPU加速的加入將如何進一步改變芯片設計。

總結

雖然芯片設計過程中的仿真部分對于在GPU上運行并不陌生，但很快數字設計流程的各個方面也將有機會利用GPU加速。對于大型芯片或復雜架構（如多芯片設計），CPU在運行RTL到GDSII流程時所需的計算容量正在耗盡，無法達到期望的速度。憑借其可擴展性和處理能力，GPU有可能提供更快的周轉時間和更好的芯片結果。使用GPU驅動的放置器進行的原型實驗已經將布局速度提高了多達20倍。隨著AI集成到EDA流程中，加入GPU可以形成一個強大的組合，以提高PPA（功耗、性能和面積）和上市時間。

審核編輯：劉清

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴