從草圖到產品,“半導體器件在制造前后往往面臨諸多危害,這將導致它們過早失效”?!?a href="http://www.xsypw.cn/v/tag/137/" target="_blank">芯片的工作環境惡劣,半導體行業已經學會了如何應對這些挑戰。但隨著制造尺寸越來越小或采用了新的封裝技術,新的問題隨之出現?!痹O計、制造、靜電處理、關聯問題、操作……諸多細節都是導致芯片故障的元兇,本文就將具體介紹導致芯片之死的五大原因。
以下為譯文:
半導體器件包含數億個晶體管,它們在極端溫度和惡劣環境下工作,因此,許多器件未能如預期那樣工作或壽命有限,這并不奇怪。有些器件永遠無法走出實驗室,還有許多器件則死于車間。人們希望發布到產品中的大多數器件在過時之前都能存活下來,但很多事情都可能發生,讓它們無法走到那一步。即使是運行正常的器件也會受損,導致它們不能產生正確的結果。
器件失敗及其原因可以列出一大長串。但它們通常分為幾個類別,具體如下。
死于設計
Mentor/Wilson 的功能驗證研究結果指出,2018 年 ASIC 芯片的一次投片成功率只有 26%,這個值低于之前的研究結果。成功率低的部分原因是新的工藝節點引起了一些尚未完全理解的問題。在此之前,已經存在了一段時間的問題被整合到工具和流程中,使這些已知的問題不那么具有威脅性。然而,在 2018 年,混合信號接口、串擾(Crosstalk)、時序和 IR-Drop,所有這些已知的問題導致了芯片改版的比例大大上升。
導致芯片改版的 ASIC 缺陷類型 | 來源:2018 年功能驗證研究報告,由 Wilson Research Group 和西門子 Mentor 事業部發布
“一些客戶的芯片之所以失敗,是因為它們的設計過程較為特殊?!盨ynopsys 的產品經理 Kenneth Chang 說道?!耙晃豢蛻暨M行了 block 級功耗分析,然后進行了集成。他們認為在那個階段他們可以修復問題,但是事與愿違,芯片也就失敗了——原因在于舊方法不再適用于新的先進技術?!?/p>
并非說一個芯片只有在不能工作時才是失敗。Cadence 公司 Digital 和 Signoff 部門產品管理總監 Jerry Zhao 認為,“如果一個芯片沒有達到性能目標,那也是失敗”,“如果芯片的運行速度比預期低 10%,那么它在市場上可能就沒有競爭力了。”
電源正成為一個挑戰,尤其是當電源是在芯片上的時候。ARM 公司的物理設計團隊高級解決方案營銷經理 Lisa Minwell 表示,“電力傳輸網絡(PDN)是一個分布式 RLC 網絡,可以分為三部分:片上、封裝和板上”,“片上需要更快的時鐘頻率、更低的工作電壓和更高的晶體管密度。雖然先進的 finFET 技術實現了性能的持續提升,但功率密度的增加使 IR Drop 閉合成為一個挑戰。精確建模和最小化電壓裕度對于平衡能量效率和魯棒性至關重要?!?/p>
但裕度可能是悲觀的,從而限制了競爭力。盡管發現了問題,一些公司還是冒著風險繼續前進。 “一家大型存儲器公司在明知有大量的 IR Drop 問題的情況下照樣出帶(tape out)”,Kenneth Chang 說道 ,“只要看起來不太糟糕,他們就會選擇 tape out,因為日程表對他們來說更加重要??蛻粽趯W習,在這種情況下,他們的芯片并沒有失敗。如果他們不失敗,他們就會繼續做他們正在做的。當它們到達更具進取性的節點時,它們就需要變得更加受指標驅動,并執行 EMIR 分析。”
越來越多的問題也開始并發出現,例如功率、IR Drop、發熱、時序、電遷移都是相互聯系的,但對大部分問題的分析都是分開進行的。Jerry Zhao 指出,“電源噪音是個問題”,“電壓供應正在下降,同時用戶希望獲得更高的性能。電池沒有提供太多動力,也許有 850 毫伏,但你仍然想要 3GHz 的性能。電源噪聲會產生重大影響,尤其是當晶片中存在變化時,這種噪聲會隨時間和位置而變化。因此,不同位置的同一個電池可能會因電壓下降而失效,從而導致時序延遲。你必須在電壓下降的背景下分析電池,并進行靜態電壓感知時序分析。有些路徑對電壓變化非常敏感。”
隨著問題得到更好的理解,工具可以執行更好的分析,并且可以使用設計方法來規避問題。 “復雜性導致更大的功率密度,這反過來又在芯片內產生局部加熱(熱點)?!?Moortec 公司的營銷副總裁 Ramsay Allen 解釋道,“柵極密度的增加也會導致供電電壓更大的下降。在整個設計中,高精度的溫度傳感器和電壓監控器使系統能夠管理和適應這些條件,通過為熱管理和電源異常檢測提供解決方案,提高設備可靠性并優化性能。這在數據中心和人工智能設計中尤其重要,因為性能要求的提高使設計在溫度和電壓方面承受了巨大的壓力?!?/p>
死于制造
半導體器件的制造涉及到僅有幾納米的結構。作為參照,人類的 DNA 鏈直徑為 2.5 納米,而人類的頭發直徑為 80000 至 100000 納米。一粒灰塵可以摧毀晶圓上的幾個單元裸片。如果裸片的尺寸變大,隨機失效的幾率就會增加。對于成熟的工藝節點,可以獲得 80% 到 90% 的出片率。然而,對于較新的節點,出片率可能顯著低于 50%,盡管實際的數字是嚴格保密的。
晶圓缺陷圖案 | 資料來源:Marvell Semiconductor,ITC 2015。
即使是不受災難性影響的裸片也可能不被劃在可工作的范圍內。制造步驟不完善時,即使只有一個原子的工藝變化也會產生顯著的差異。雖然這可能不會對設計的某些部分產生影響,但如果工藝變化恰好與關鍵的時序路徑相吻合,則可能會使器件不符合規范。
ANSYS 公司的 ESD/Thermal/Reliability 產品經理 Karthik Srinivasan 表明,“隨著設計演變為具有先進封裝的深亞微米技術,現有的模擬工具和設計方法不能很好地捕捉到變異性及其對可靠性的影響”,“這會導致設計流程中出現漏洞,從而引發一些故障?!?/p>
設計流程越來越多地允許在開發早期就考慮到變化,以最大程度地減少其影響,而冗余等設計技術可以減少需要丟棄的“幾乎可以工作”的芯片的數量?!皫缀蹩梢怨ぷ鳌钡男酒诖笮蛢却骊嚵兄蟹浅3R?,按照它們在測試中表現出的性能進行相應的分類(binning)是常用于處理器的另一種做法。也就是,在高頻率下運行的優良器件可以以更高的價格出售,而那些只有在低頻率時才能成功工作的器件則以折扣價出售。
測試的作用是找出哪些裸片功能完好。那些處于臨界狀態的裸片通常會被丟棄,但是一些有功能缺陷的裸片也會被漏檢,并最終進入正式產品中。
死于靜電處理
有很多種方法可以殺死芯片。如果將 0.5V 的電壓施加到芯片的外部,就會在 1 納米的電介質上產生 0.5MV/m 的電場。這足以使高壓電線起弧。現在想象一下當你接觸芯片的引腳時會發生什么。
“通常情況下,這是一個很高的電壓,根據引腳的接觸方式,會有不同的模型,例如人體模型或電荷分布模型(CDM)?!盝erry Zhao 解釋說,“這些模型定義了電流如何被引入引腳,這是一種隨時間變化的動態波形。”
通常,芯片都會有靜電放電(ESD)保護。“對于封裝內的單個裸片,它們的目標是像 2KJ 這樣的標準,”Karthik Srinivasan 指出,“像 HBM 這樣的多芯片解決方案的標準稍低一些。采用 2.5D 或 3D IC 的一個原因是為了性能,而 ESD 是性能的障礙。你試圖最小化 ESD,甚至在這些 Wide I/O 接口或任何類型的多芯片接口通道上消除它,這意味著你不能真正地按照針對單個裸片的相同標準來測試每個裸片。它們必須通過更專業的測試方法,因為它們的 ESD 保護非常小,甚至可能沒有 ESD 保護。”
即使在操作過程中,靜電放電事件也會引起問題。ARM 公司的 Minwell表示:“在便攜式電子產品中,ESD 可以導致許多類型的軟錯誤。”在 ESD 事件期間,由于某些集成電路(振蕩器集成電路、CPU 和其他集成電路)的靈敏度,或由于其與配電系統(PDN)的場耦合,都可能導致在配電系統上產生噪聲。
死于關聯問題
“軟錯誤可以以多種方式發生,如果是系統性的設計錯誤,它可以使芯片看起來好像不工作。三維集成電路(3D IC)正在增加對電磁感知設計方法的需求,”Helic 公司的營銷副總裁 Magdy Abadir 指出,“這是因為產生的功率密度更高,疊加層的數量也在增加,從而引發了增加天線的風險,這會放大整個設計過程中產生的磁場?!?/p>
供電不足也會帶來問題。Jerry Zhao 指出,“芯片的功能取決于晶體管的躍遷”,“這取決于供電電壓。如果它能在 1V 電壓下工作,它可能會再下降 10% 或 20% 也仍然可以正常工作。但時序會有所不同,因此可能需要降低最大時鐘頻率?!?/p>
隨著電壓的降低,電路更容易受到噪聲的影響?!半姶鸥蓴_(EMI)是芯片對環境產生的噪音,”Ansys 公司的半導體事業部首席技術專家 Norman Chang 表示,“噪聲源來自有源電路,它將在電源地線和信號線上產生電流。電源線/接地線將通過封裝到 PCB,如果它看到封裝或 PCB 有天線結構,就會引起空中輻射,然后通過天線結構輻射到環境中并產生干擾?!?/p>
但出去的東西也會進來?!半姶琶舾行裕‥MS)是人們不得不擔心的一個新問題,” Norman Chang 指出,“電力注入測試是從 150kHz 開始注入 1W 電量,一直到 1GHz。在每個頻率,你將向系統注入 1W 的電量。如果你沒有足夠的保護,就會破壞沿路徑進入芯片的電路。測試的目的不是為了破壞芯片,而是測試這種噪聲是否會影響電路?;蛘咭_處的電壓可能過高,如果電壓過高,則會產生過電應變?!?/p>
死于操作
此時,芯片已經到達“現場”并被認為是可以工作的?!翱煽啃允莻€大問題,”Microchip 公司模擬電源和接口部門的首席產品營銷工程師Fionn Sheerin 指出,“在很多情況下,糟糕的熱設計并不會導致瞬間災難性的故障,甚至不會產生平庸的產品。但是它會使器件的使用壽命縮短。觀察布局中的熱點或最佳布局實踐以及良好的層次規劃可能會產生不同的效果。這也是驗證和可靠性測試真正重要的地方,同時也是汽車應用的功能安全問題。”
西門子 Mentor 事業部的產品營銷總監 Joe Davis 也贊同這一觀點,“發熱導致的問題不僅僅是你的手機在口袋里變熱。它會導致晶體管和它們之間的連接退化。這會影響性能和可靠性?!?/p>
熱量由兩個來源產生,“首先是路由層,” Jerry Zhao 分析表示,“這是與導線中的電流有關的熱量。模擬電路的電流比數字電路大。因此,模擬電路的設計人員不得不擔心的一個問題就是,如果溫度過高,會使電線熔化;第二個來源是晶體管。當我們遷移到 finFET 時,其中一個新的現象是自熱。熱量沿著弱電阻路徑運動,然后從晶體管的散熱片中垂直逸出,這會增加電線中的熱量?!?/p>
當高電流和高熱量聚集在一起時,電遷移效應會慢慢損壞導線。同樣地,負偏壓溫度不穩定性(NBTI)等物理效應也會有同樣的效果。當電流很大時會對器件產生應力,如果持續足夠長的時間,則會導致永久性損傷。
結論
本文僅僅包含了芯片從設計到產品,再到產品的整個生命周期中所面臨的一些挑戰。
芯片的工作環境惡劣,半導體行業已經學會了如何應對這些挑戰。但隨著制造尺寸越來越小或采用了新的封裝技術,新的問題隨之出現。有時,這些新的影響會導致器件失敗故障。但從歷史上看,該行業很快學會了規避新的問題或將問題最小化的方法。
-
芯片
+關注
關注
456文章
51037瀏覽量
425486 -
靜電
+關注
關注
1文章
507瀏覽量
36441
原文標題:誰殺死了芯片?
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論