由人工智慧驅動的設計應用
英文原文:Silicon Lifecycle Management Advances With Unified Analytics
2023年4月25日於《Semiconductor Engineering》刊登
將晶片設計到晶片製造的資料全部整合於單一平台
產品工程師的一天通常是怎麼度過的呢?他們先在製造過程中完成必要的晶圓分類測試,然後選出良好晶粒組裝至各別封裝中。在最終測試期間執行一系列參數測試時,會碰上良率(yield)問題,並開始尋找問題根源。好消息是,借助良好的資料分析解決方案,人們可以透過先前的大批量測試製程階段(如:組裝、晶圓分類、晶圓驗收測試)以及前期NPI製程階段來追溯晶片生命週期。在設計方面,則可運用診斷資料、矽前(pre-silicon)時序及矽後(post-silicon)故障分析(Failure Analysis, FA)等工具。
透過早期組裝、晶圓分類和晶圓驗收測試(Wafer Acceptance Test, WAT)資料對不良的封裝晶粒(die)進行追溯,我們發現這些晶粒未通過最終測試的原因互不相關。然而,與診斷資料的關聯性則說明,晶圓圖(wafer map)上未通過晶圓分類特定掃描測試的晶粒,與無法通過最終測試的封裝晶粒,在地理空間上十分相近。此外,人們並未對未通過特定掃描測試的晶片進行故障分析,理由在於它們不被認為是初期生產(In-Ramp) 期間的主要系統良率問題之一。但診斷資料清楚表明,未通過掃描極有可能是晶片當中幾處關鍵路徑的時序問題所致,肇因於數次轉態延遲障礙(Transition Delay Fault, TDF)掃描測試失敗。
迅速解決此類時序問題的其中一種方法,就是回歸到矽前時序模型並降低所有元件的降額(derate)值,同時重新進行合成及佈局繞線以滿足實際晶片的時序需求。然而,這將導致非必要的晶片區域需使用更大且更快的元件,並耗費更多功率,從而造成電池壽命問題或可能讓設備的使用壽命隨著時間縮短。
除了上述方法外,其實還有更好的解決方案。首先,工程師可將前期 NPI測試晶片(test chip)的實際監控與感測器(sensor)資料發送到計時工具,使其重新校準計時模型以提升精度;接著評估診斷報告提出的數個失敗路徑,以查詢相關路徑中是否有任何元件存在時序問題,意即確認是否有任何元件包含「負」值的時序餘裕(slack),以解釋掃描測試失敗的原因。假設發現多個故障路徑內所有元件中有某一特定資料庫元件(library cell)產生顯著延遲,因而導致時序問題—在此範例中,為能確認結果,我們需要將最終測試中的數份未通過測試的封裝晶粒及詳細診斷資料發送到故障分析工具,以執行進一步電性(electrical)及物理性(physical)故障分析;此時我們發現,該問題元件的速度確實很慢,可以將其視為在實際晶片上造成時序問題的原因。
為何未通過最終測試的元件數量,會高於晶圓分類期間未通過掃描測試的元件數呢?這是因為測試環境條件的不同所致。進一步分析(如:自動Vmin分析)顯示這些晶粒運行時所需的電壓。此範例指出,允許元件通過的最小工作電壓可能超出此晶片規格的功率/效能規範配置要求,因而需要進行設計變更。
本範例中的設計變更僅需要降低慢速資料庫元件的降額值,以便在合成、佈局和繞線期間選擇不同但更快且更大的替換元件。晶圓代工廠也會收到緩慢且不準確的原始元件模型通知。雖然選用的新元件將產生比特定設備所需更高的功率,但可識別能夠降級(較慢且較小)的其他元件,以補償新元件所需的額外功率,藉此保有相同的整體功率和效能。
這只是產品工程師經常遇到的問題之一。若缺乏合適的分析解決方案提供有別於傳統的獨特見解、晶粒到晶粒(die-to-die)的可追溯性以及跨生命週期所有階段資料類型的關聯性,要找出並解決上述問題可能需要數月的時間—而不僅僅是數天或幾週。不幸的是,即便好不容易找到並解決此問題,其最終成果可能伴隨潛在收入損失、報廢意外故障設備和昂貴封裝,導致製造成本增加。而測試人員也會因為耗費大量工時,進而衍生經常性成本(recurring cost)。
新思科技SLM解決方案
如下圖1所示,晶片生命週期管理(Silicon Lifecycle Management, SLM)的產業發展願景是提供監測矽晶整體生命週期健康狀況的能力,從早期設計到製造,乃至於矽晶的現場(in-field)使用。然而,它不僅可以監控矽晶的健康狀況,更可優化晶片的功耗和效能等運作指標,對其產生直接的正面影響。此外,它也能快速執行根本原因分析(root cause analysis),以側錯並排除晶片製程中任何特定節點的重大良率或品質問題。
圖1:新思科技SLM-生命週期階段
然而,對於當今的先進晶片、SoC 和多晶粒系統(multi-die system)而言,其規模和複雜性仍在顯著增加,因此在整體晶片生命週期內進行監控、優化和偵錯實屬不易。此外,設計、製造和測試過程也相當繁複,需要許多不同的資料類型來支持,使得這項挑戰更加艱鉅。
此解決方案以來自晶片的資料為中心,並能滿足以下要求:
上述要求都是當今IC設計公司和垂直整合製造商(IDM)的首要考慮因素。下圖2顯示生命週期階段的相關流程步驟,以在矽晶整體生命週期中對其進行監測、優化和偵錯。
圖2:新思科技SLM-執行步驟
統一平台的優勢和必要性
晶片生命週期各階段都有其獨一無二的挑戰,包括設計中的設計裕度、初期生產(Ramp)階段的系統良率問題、生產階段的品質偏差和新發現的良率問題,以及現場使用(in-field)時的可維護性和可靠性。上述每項挑戰都需要各別的解決方案。然而,除非這些挑戰能在生命週期各個階段被發現,否則隨著生命週期階段的進展,它們將越來越難被識別並隔離。
正如上述範例所示,鉅細靡遺審視不同生命週期階段以確定根本原因並非易事。這需要矽晶層級的可追溯性以及諸多不同資料類型之間的自動關聯功能。因此,對於複雜的先進節點設計而言,擁有統一整合的晶片生命週期解決方案至關重要,可以快速識別根本原因,並盡量減少該問題造成的影響與嚴重後果,例如:產品收入損失、製造成本增加或公共安全問題。
新思科技已投入資源建立新的SLM分析解決方案解決此類重要問題,該解決方案將設計及產品製造階段全面整合於統一平台,如圖3所示。
此統一解決方案可在以下三大關鍵重點領域帶來優勢:生產力、效率及可擴展性。
生產力
現今,大多數資料不是由於資料量過於龐大而未被工程師善用,就是缺乏查找資料本身存在的議題的自動化功能。借助此一解決方案,工程師能夠從彙整至同一解決方案的所有資料中即時獲取數值。自動問題分析和識別功能
圖3:從設計到製造的整合式SLM分析解決方案
以「見解」形式呈現。元件層級(part-level)的可追溯性和偵錯,能提供快速根本原因分析並回饋成為供應鏈的更正措施。次晶粒(sub-die)分析也可用於早期NPI產品階段以識別系統問題,並執行進一步故障分析,以排除良率問題和大批量生產阻礙。
效率
將監控器納入設計中,可反饋監控器資料以執行設計校準,進而實現晶片功耗和效能優化。此一功能於製造供應鏈的生產控制過程中,能提供用於品質優化的自動配置流程,包含異常值檢測技術。藉由良率趨勢分析、診斷和故障分析與設計和/或製程改良的整合,可達成全面良率提升。另外,測試機群整體設備效率(Overall Equipment Effectiveness, OEE)分析可優化晶片生產量。而ATE 測試元件可提供即時資料收集和生產控制,以快速糾正潛在問題,進而節省測試成本和預防品質缺失。
可擴展性
此解決方案的進階產品架構可容納千兆位元組(petabyte)的各種資料類型,涵蓋設計、監控、診斷、製造和生產測試,而大多數分析工具無法處理具備如此廣度或深度的資料。擁有能夠處理大量資料的解決方案對於及時執行根本原因分析至關重要,尤其是在下游製造流程中的矽晶片問題偵錯、商品退貨授權(Return Merchandise Authorization, RMA)偵錯或執行歷程記錄分析等階段。此外,為用戶提供雲端處理和資料儲存的彈性選項也有其重要性。
關於SLM和此統一解決方案的詳細資訊請至新思科技Silicon Lifecycle Management Platform (synopsys.com)查詢或發送電子郵件至 SLM@synopsys.com洽詢。