先進節點設計的靜態資料損毀注意事項

英文原文:Silent Data Corruption Considerations For Advanced Node Designs

2024年3月12日於《Semiconductor Engineering》刊登

偵測劣化缺陷(degrading defects)何時會對晶片的有效壽命造成影響

確保可靠性、可用性和可維護性(RAS)與晶片設計息息相關,長期以來一直是許多類型電子系統的重要考慮因素。顯而易見地,軍用硬體必須非常可靠,而伺服器和汽車系統也被預期需要具備能持續提供服務的效能。然而某些程度的故障是不可避免的,因此能夠修復、避免或減輕故障也是非常重要的。近年來,對於RAS的需求不斷增加,達成目標指標的能力成為一個日益增長的挑戰。

這個演變是由很多因素造成的。如今大型晶片的龐大規模增加設計複雜性,而製造它們所需的先進製程具有極高的電晶體密度和更大的製造變異性。在最大化性能的任務中,內在和外在的劣化(degradation) 對晶片生命週期的不同階段的健康狀況造成的影響比預期更嚴重,成為現階段更大的問題,;而越來越廣為採用的多晶粒封裝也增加更多跟散熱相關的問題。

在系統層級上,硬體與軟體的緊密整合導致新的漏洞,並增加威脅。各種應用程式的工作負載是不可預測的,且對峰值要求越來越高。儘管面臨這些挑戰,對RAS的期望值正在增加,目標也不斷變得更加嚴格。用者對設備、軟體和系統的可靠、安全和穩定執行要求更好的保證,傳統的製造測試和執行時進行診斷已經不再足夠。

對於超大規模晶片設計而言,首要的RAS問題是靜態資料損毀(Silent Data Corruption, SDC),即整個系統未能檢測到的數據資料錯誤。錯誤可能被掩蓋並且沒有造成問題,但一旦錯誤擴增,可能導致系統或應用程序損壞或當機,或是導致應用程序的結果不正確。這些結果中的任何一個都可能嚴重損壞RAS指標。不可用性和錯誤答案都是高度不理想的結果。

SDC的來源包括永久性、間歇性、暫時性和劣化性故障。根本原因可能是外部製造缺陷、內在的矽晶老化或輻射誘發的瞬間錯誤。嚴重的缺陷很容易被製造測試偵測到,但微小的缺陷可能會產生電路邊緣效應,只在某些操作條件的特定組合下發生故障。一些潛在缺陷在晶片已經在現場運作一段時間後才會出現。微小缺陷和潛在缺陷在製造過程中不容易偵測到。

在20奈米以下製程中使用finFET技術的驚人特性凸顯強在晶片執行任務期間,偵測錯誤並避免現場SDC事件的重要性。如上圖所示,劣化缺陷會轉移到晶片的可用壽命中。防止這些缺陷引起SDC事件非常重要。幸運的是,可以通過監控關鍵時間和電壓參數是否超過預定的臨界值(threshold)來偵測此類缺陷並預測即將發生的故障。

由於關鍵的錯誤機制在現場是以時序問題顯現,因此對於潛在錯誤的最佳預測因子之一是減少時序餘裕。監控晶片中的環境變化、應用程序壓力,並隨著時間的推移追蹤關鍵速度路徑的時序餘裕變化,可以對SDC事件進行預測。在任務模式下監控時序路徑的預測解決方案可以用於偵測劣化缺陷,並在故障發生之前預測剩餘的使用壽命(remaining useful life, RUL)。RUL是根據與參考基線的相較之後測得的定時劣化率計算得出的數值。

在現場操作期間監控電壓和時序是關注晶片內部發生什麼情況的兩個重要範例。這是晶片生命週期管理(SLM)的關鍵部分,從設計、製造、現場部署延伸到生命週期的結束。在晶片的現場部署期間成功使用SLM技術需要軟體對個別晶片和大量的晶片進行分析,進而偵測到異常值。收集有關晶片狀態的數據需要一組IP來監控Vmin、時序及更多的參數。

新思科技晶片生命週期管理套件提供SLM各階段的完整解決方案,包括晶片內監測,以預測即將發生的故障並避免SDC。使用新思科技 SLM IP的過程包括四個步驟:

  • 監測:在設計階段早期整合嵌入式監控器
  • 傳輸:從監控器收集的數據被集中傳輸到統一的SLM資料庫
  • 分析:在整個設備生命週期中分析監測數據
  • 行動:根據分析,在任何生命週期階段即時做出明智的決策

由於監控器驅動整個四步驟流程,因此需要各種嵌入式SLM IP以達成預期的所有效益。解決方案的關鍵元素包括路徑邊緣監控器(PMM)、時脈和延遲監控器(CDM)、製程、溫度和電壓(PVT)監控器、信號監控器、AXI匯流排監控器、環形振盪器和錯誤校正碼(ECC)邏輯。這些IP以及支援的分析軟體讓我們能夠:

  • 監測晶片的健康狀況
  • 檢測出劣化缺陷的症狀
  • 在發生之前預測SDC錯誤
  • 採取必要的修正措施以提高可用性 

根據計算出的RUL,SLM解決方案可以識別元件或系統可能失敗的時間點,並採取行動來預防。透過在它們導致SDC事件之前識別潛在問題,來提高系統的可靠性和可用性。這有助於應用於汽車和超大型數據中心等要求嚴格的應用來達到目標指標,同時降低維護成本,提高整體營運效率。除了前面提到的種種挑戰之外,這也滿足了消費者對更好RAS的需求。

總之,傳統的製造測試無法找到所有缺陷或在現場防止SDC事件的發生。利用加強的RAS功能,高性能和關鍵應用的需求提高硬體組件的韌性。大型、複雜、深次微米的設計增加因應這一挑戰的難度,需要在整個晶片生命週期中採取設計、架構和測試方面的緩解措施,並遵循最佳操作執行方式。

一個有效的晶片生命週期管理解決方案可以通過改善晶片健康和營運指標來因應這些挑戰。包括SLM IP在內的新思科技 SLM套件,能夠滿足針對嚴苛應用的性能和RAS要求,並提供必要的監測和檢測功能,以增強現場製造品質和產品完整性。欲瞭解更多關於Synopsys晶片生命週期管理解決方案的資訊,可前往新思科技SLM專頁查詢。