適應性測試加速數據智能時代的到來

英文原文:Adaptive Test Ramps For Data Intelligence Era

2024年2月8日於《Semiconductor Engineering》刊登

即時改變測試程式會加速處理能力,但仍存在一個很大的障礙

廣泛可用且幾乎無限的運算資源結合先進演算法,開啟通往適應性測試(adaptive test)的大門。然而,由於對數據共享、潛在的IP竊取和數據洩露風險的持續擔憂,導致採用這種測試方法的速度也將繼續產生變數。

適應性測試就是利用測試數據和其他輸入來即時改變測試程式,以提高每個待測設備(DUT)的品質或降低成本。其核心包括改變製造測試條件、測試內容或測試限制等各種方法,以增加半導體設備的出廠品質和可靠性。基本理念是根據測試儀器產生的數據、晶片內感測器的數據或從前一個步驟獲得的相關數據來預測測試需求,只將適合的測試內容應用到儀器上。可以增加測試項目以確保有風險的零件符合可靠性要求,或是在沒有發現任何故障時取消測試。

GlobalFoundries的PostFab開發中心專家John Carulli表示,適應性測試的異常值篩檢,在2000年代汽車設備領域首次出現,至今仍被認為是適應性測試的基本驅動因素。而在製程後處理階段,晶圓級適應性測試是最具效益、最容易部署的。藉由最新的軟體和數據系統,現在有更多機會在晶圓和嵌入模組操作以及為系統測試提供數據以進行決策。

雖然目前適應性測試已經用來測試設備,並利用基於機器學習的演算法和數據分析來提高設備品質,但這主要還是以離線的方式進行。

PDF Solutions的Exensio Solutions總監Greg Prewitt指出,適應性測試決策是根據大量數據訂定的。歷史上,人們會回顧歸納的數據特徵和迄今為止收集到的大量生產數據,並查看那些從未失敗的測試,然後憑藉良好的工程判斷說,『對於把這個測試從這個設備上移除,我感到放心。』測試程序會被修正,並簡單地省略某些測試以達到縮減測試時間(TTR)。適應性測試不同於這種歷史方法,它是根據基於規則或以機器學習驅動的動態測試計劃,以自動化的方式,即時做出測試覆蓋率的決策。

圖 1:利用適應性測試優化3D-IC封裝。 來源:PDF Solutions

這是一個不容忽視的過程。Prewitt表示,當前最先進的適應性測試要求採用者精心安排從地理多樣性測試操作、多重測試步驟及潛在的多個設備中收集到的數據在複雜的生態系統中的動向。PDF的Exensio平台使客戶能夠自動收集、轉換和傳遞這些數據,以供後續測試操作使用。

適應性測試實作的技術障礙似乎是可以克服的,真正的問題在於本來就存在於邏輯流程的複雜性。來自艾默生電氣公司測試與量測部門(Emerson Test & Measurement)的NI研究員Michael Schuldenfrei表示,適應性測試很大一部份的複雜性在於能在正確的時間將數據傳送到正確的地方的協調和管理過程。例如,假設零件具有電子晶片識別碼(electronic chip identifier, ECID)或其他可追蹤的方法,則可以在最終測試時利用晶圓級測試(wafer sort)的測試數據,在一個範圍內的參數中確認參數漂移(parametric drift)。這需要將歷史數據即時提供給測試程序,而不會對測試時間帶來負面的影響。

Schuldenfrei指出,這個產業所面臨最棘手的挑戰與其高度分散的基礎設施息息相關,尤其當晶圓級測試和最終測試在不同的設備中進行時更具挑戰性,數據在設備間的轉移需要安全可靠的協調。

分享是種體貼

讓必要的數據在需要的時間和地點可以被使用是一個巨大的障礙,這主要是肇因於晶片設計及晶圓廠代工分工模式。Advantest America 的策略內容業務經理Ken Butler表示,對適應性測試來說,數據安全是一個重要議題,特別是在分散的製造和測試流程中,設備所有者和製造夥伴分屬不同公司的情況下。當數據和應用程式必須跨公司共享時,這些資訊的安全性就非常重要。Advantest 的 ACS 實時數據基礎設施(Real-Time Data Infrastructure, RTDI)解決方案具有多項功能,可以確保數據能夠安全地共享,以完成適應性測試流程和即時推論,毋需要將專有數據資料揭露給未經授權的實體。

圖2:在任何測試插入即時適應性測試的數據基礎架構,確保開發的測試數據、測試程序及第三方數據分析的安全。 來源: Advantest

安全的數據共享始於強大的加密技術。Butler表示,Advantest使用大量的加密技術來傳輸信息,但系統本身的架構在物理上是安全的;因為計算平台上沒有連接鍵盤,不允許使用 USB 隨身碟,而且它被存放在一個上鎖的匣子裡,以防止被任意存取。在測試過程的最後,所有數據都會被清除。因為數據被刪除了,後台也沒有保留任何可被人攫取的數據。

然而,當涉及從設計到製造測試,甚至是在現場數據測試中進行數據共享時,需要更多的作業來將數據置入到各種不同的設計背景脈絡中。Teradyne智慧製造產品經理Eli Roth指出,數據的可用性可能仍然是我們必須就此達成共識的關鍵部分,工程師需要了解晶片的前後脈絡以有效地降低測試成本;特別的是測試數據的前後關係有時對上下游設計人員來說是沒有意義的。

Roth強調,確定數據共享協議是 SEMI 智慧 AI 產業諮詢委員會的主要目標之一;要如何讓這些數據不僅可用,還可以看出前後脈絡,是當前我們面臨的挑戰。

Teradyne 已經投資開發自有的平行計算平台,近期更強調反饋和前饋(feed-forward),或是雙向數據串流。有鑑於實時適應性測試即將到來,我們專注於確保測試儀器輸出的數據是真實的,沒有被任何人假造,並且不需要在測試儀器上用另一個軟體適切地擷取數據。Roth提到,假設一家晶片設計公司的設計元件可以跟競爭對手的元件用相同生產線來製造生產,那麼公司的競爭優勢在哪裡?它就在於數據。所以我們的想法是將數據打包成標準格式。這在我們所有的測試人員來說都是一樣的。數據的結構是相同的,可以輸入到任何你想要的數據來源。然後,再藉由一個標準將這些數據轉換成你所屬的數據模型,這比嘗試從頭開始為適應性測試構建所有不同的解決方案更有效率。

現有的A4 TEMS SEMI 標準已在很多公司被使用,這是一項針對半導體自動測試設備的測試機事件訊息傳遞的規範,描述這個數據資料串流協定以及數據資料的結構。然而,這個標準並未延伸到數據資料的儲存或封包方式;它採用發布-訂閱模型來顯示用戶可以訂閱的可用數據。

適應性測試的最佳插入點

大多數業內專家都同意,適應性測試可以在多個測試插入點使用。在所有情況下,越早識別出潛在故障,對於設備的品質和製造效率都是越好的。

NI 的Schuldenfrei表示,在晶圓級測試、最終測試、burn-in測試和系統級測試都能執行適應性測試。在晶圓級測試中,常常以縮短測試時間來提高測試效率、降低成本,同時將測試逃脫(test escapes)的風險降到最低。在最終(封裝)測試也有相同的好處,但在最終測試中使用適應性測試有更具說服力的理由。在晶圓級測試中,透過統計或基於人工智能的演算法進行的元件重分配後處理(例如,異常檢測),可以在晶圓完成測試後離線進行。這些演算法更新的分配結果可以透過無墨(數位)晶圓圖應用。相較之下,在最終測試中,待測設備的最終分配決策需要在它從插槽中被移除之前進行,而這需要即時決策。

適應性測試的最早版本都是關於測試時間的縮短。適應性測試促使測試時間的縮短,包括更少的burn-in應力測試。但要從單純的測試時間縮短進展到基於離線機器學習建模和大規模品質改善各方面取得重大進展,整個生態系統和數據共享的執行都需要進行改變。

Schuldenfrei提到,我們的大多數客戶不再談論DPPM甚至DPPB。任何測試逃脫都被認為是極度棘手的問題。目前有幾種普遍應用的適應性測試,包括適應性測試時間縮短(ATTR)、適應性測試增強、適應性異常值檢測,以及各種相關應用,如倚賴測試程序與外部服務之間的準確及即時數據交換的漂移檢測(drift detection)。

適應性測試限制調整的最常見例子是零件平均測試(PAT)和動態零件測試(DPAT)。PAT是一種可追溯到1990年代的統計流程,並由汽車工程委員會(AEC)於2011年進行更新。在這個流程中,根據測試期間收集的數據,可以根據正在測試的批次零件的行為來調整(通常是緊縮)一項或多項測試的規格限制。這種調整是為了能更完善地篩選潛在的異常設備,這些設備在技術上符合操作規格,但可能於最終應用中存在早期故障的風險。

Advantest的Butler指出,雖然PAT和DPAT多年來一直被業界所使用,但透過現今先進的計算能力和分析能力,會有更好的方法來辨別具有潛在風險的元件設備,同時減少與這種篩選形式相關的產量損失。

圖3: (上)含有異常值的分布圖。 來源: YieldHUB
(下) 基於機器學習的演算法可以更完善的辨別真正的異常值及有產能的設備。來源: Synopsys

先進的混合訊號晶片或系統單晶片(SoC) 可能會使用由新思科技(Synopsys)、proteanTecs 及其他公司提供的多種晶片感測器或監控器 IP。普遍的做法是在晶片上嵌入各種感測器,例如環形振盪器(ring oscillator)、溫度感測器、老化感測器等,來調整晶片的效能並監控晶片的健康狀況。ProteanTecs 提供稱為Agents的片上(on-chip)監控器,和以雲端為基礎的軟體,將監控數據與數據分析進行關聯。

GlobalFoundries的Carulli指出,常見的感測器和測量數據包括 Vmin、Fmax、Iddq、Idd、製程環形振盪器、IR 壓降檢測器、抖動(jitter)檢測器、熱感測器—任何在類比/混合訊號/射頻設計中的類比量測數據等。在晶圓層級的典型異常情況可能是將Vmin用於近鄰殘值演算法。而在模組層級的典型情況可能是將雙變量(bivariate)模型用在 Iddq 對照Fmax來檢測異常行為。

Carulli 表示,Advantest 的一個更先進的案例是使用他們的 ACS 系統改進數位預失真(pre-distortion)測試,將主要輸入數據轉移到相鄰的伺服器系統進行建模和優化,然後將優化條件發送回測試儀器以獲得更好的結果。

Butler 提到,另一個例子是調整測試限制以改善元件品質。在製造半導體元件時,會分開進行多次製程程序,這時候工程師會刻意變更製程以找出該元件在最壞情況和最佳情況的效能。客戶會根據製程廣度設定限制,但現實情況是,晶圓廠將盡可能嚴格控制材料。因此,需要收集資訊以得知如何緊縮這些規範。

其他人也指出類似的演變。新思科技 SLM 分析解決方案資深產品經理 Guy Cortez 指出,例如,Vdd 消耗測試結果(如圖 3所示)可以與內嵌的晶片內監控器或感測器數據資料相關聯,並從演算法中得到雙變量相關性;該演算法根據個別即時運行的晶片,推導生成適應性測試的限制。這種全新的更完善的DPAT方法能夠更好地識別真正的異常值,以提高品質,同時不僅不會犧牲產量,而是提升產量。

Cortez 接著表示,這個例子所展示的晶片內監控器或感測器數據需要在設計階段將監控器或感測器IP 實例化 (instantiation) 到設計中。新思科技提供這些監控器和感測器的 IP,而在 Silicon.da 分析解決方案中顯示的分析結果可以透過新思科技或任何其他第三方 IP 供應商獲取監控器和感測器數據。

結論

自動測試設備(ATE)供應商正在構建基礎設施,以支持即時適應性測試的使用,並結合先進的異常檢測方法和更嚴格的測試限制來提高設備品質。晶片上感測器已證明能夠捕捉個別晶片的行為,而基於機器學習的演算法則提供了先進的模型。但是,適應性測試相關的邏輯流程運作取決於業界在加密和處理關鍵數據的標準方法,同時保護晶片製造商和晶片設計公司開發IP的進度。