eMRAM 用于先进工艺节点中的低功耗 SoC

Synopsys 高级技术营销经理 Mingchi Liu

简介

在提高性能的同时降低功耗是先进工艺节点面临的一大挑战。随着工艺尺寸缩小,动态和漏电功耗标度也不同。然而,工艺、IP 和系统级实现中的创新正在解决这一挑战。例如,IP 设计人员正在开发具有长沟道、低 VDDmin 和读/写辅助的新型基础 IP,用于 SRAM、反向偏压和不同的低功耗模式,以降低功耗。最新的创新举措是采用嵌入式 MRAM (eMRAM) 来降低片上系统 (SoC) 和系统的功耗。本文介绍了如何利用 eMRAM 大幅降低针对 22nm 和更小工艺尺寸的 SoC 设计的功耗。

什么是 eMRAM?

嵌入式磁阻式随机存取存储器 (eMRAM) 不同于传统的嵌入式存储器(如 SRAM 和 Flash),后者使用电荷来存储信息。eMRAM 使用其旋转来存储数据(即“自旋电子”)。eMRAM 的自旋性核心由许多称为“磁隧道连接 (MTJ)”的铁磁和非磁材料制成。MTJ 在未通电时可以几乎永久保持其极化,使 eMRAM 成为一种非易失性存储器 (NVM),就如闪存、FeRAM 和 EEPROM。

对于 20 世纪 60 年代和 20 世纪 70 年代的系统设计师来说,标准思维方式是“在寻求易失性存储器去满足性能和密度的要求,而放弃功耗”,以及“在寻求非易失性存储器来实现低功耗的要求,但把密度和性能置之一边”。然而,在当今具有如此多样性的存储器格局,让如此严格的区分不再可能。任何给定设计的“理想存储器”都可以结合多种技术的优势。下一代 eMRAM 便是这样一个候选方案,其基于自旋扭矩技术(称为 STT-MRAM)。eMRAM 具有结合闪存的非易失性、DRAM 的密度、SRAM 的速度以及任何其他现有存储器技术中都不具有的写入耐久性。

为何为 SoC 选择嵌入式 MRAM?

先进节点 SoC 设计中使用了一些存储器技术,包括 SRAM、eFlash、eMRAM、PCRAM 和 ReRAM(表 1)。随着摩尔定律的继续推进,eFlash 在先进节点上的开发正在放缓,目前停留在 28nm。利用闪存的唯一方式是在 22nm 及以下进行晶粒堆叠,或系统级封装 (SiP)。相较于 PCRAM 和 ReRAM,就替代 SRAM 和闪存而言,eMRAM 是更有前景的候选方案。相较于 SRAM,eMRAM 具有更小的面积、更低的动态功耗、更低的泄漏、更高的容量、更好的辐射抗扰性、更低的成本,并且具有非易失性。相较于 PCRAM 和 ReRAM 相比,eMRAM 具有更简单的制造工艺、更长的耐久性和生产良率。与外部闪存相比,eMRAM 在系统级别上外形小巧、性能更高、电池寿命更长、具有与 SRAM 类似的界面、用户体验更好、系统设计周转时间 (TAT) 更短、良率更高、产品成本可预测、供应稳定,从而可避免因闪存市场的特性而带来的闪存短缺。与嵌入式闪存相比,eMRAM 可使设计与从 22nm 到 FinFET 流程的先进节点中的摩尔定律保持一致。

 

SRAM

DRAM

闪存

(NAND)

PCRAM

RRAM

MRAM

(STT-MRAM)

架构

平面

离散 3D

单片 3D

平面

平面

平面

设备

6T

1T/1C

1T

1T ǁ 1BJT/1R

1T ǁ 1BJT/1R

1T/1MTJ

形体尺寸

7 纳米

18 纳米

19 纳米

20 纳米

27 纳米

40 纳米

单元尺寸

40-60 平方英尺

6-8 平方英尺

4 平方英尺

4 平方英尺

4-6 平方英尺

8-14 平方英尺

容量

16Mb

16Gb/Die

1Tb/Die

16Gb

16Gb

1Gb

耐久性

1016

105

109

109

1016

写入能量

8pW/bit/Mhz

100fJ/bit

10fJ/bit

5pJ/bit

5pJ/bit

5pJ/bit

漏电功耗

 

 

~0.8 倍

0.01 倍

 

0.01 倍

成本

1 倍

0.1-1 倍

0.01 倍

0.1 倍

0.1 倍

1 倍

来源:Synopsys

表 1:标准存储器类型的比较。

eMRAM 优势

面积较小,功耗较低

SRAM 的位单元由 6 个晶体管组成,而 eMRAM 的位单元只需要 1 个晶体管,因而面积大幅缩小。由于现代 SoC 设计需要更多内存,因此更小的面积更为重要。SRAM 面积的百分比可占到 SoC 的 30% 至 45%。在边框缓冲应用的情况下,该面积可增长高达 50%。对于 AI(人工智能)的应用,它可高达晶粒的 70%。AI 应用在使用 eMRAM 替代 SRAM 时,可以将内存所需面积减少25%。eMRAM 非常适合有大内存需求的应用。

图 1:比较 SRAM 和 eMRAM 位单元架构

当 SRAM 中有写入操作时,共有 6 个激活的晶体管(图 1)。如果现有的位单元值与写入内容相反,则最多翻转四个晶体管。必须打开两个传送门,以允许数据从位线内容传入锁存器。另一方面,eMRAM 只需要一个晶体管即可进行读写操作,从而降低动态功耗。另外,SRAM 中的漏电功率在阵列和外围逻辑中均可发生,例如行/列解码器、字线驱动器、灵敏放大器、读/写辅助电路、电平变换器、功耗门控单元、自我时序路径等。对于 eMRAM,阵列处于关断状态,因此任何漏电只会发生在外围逻辑中。无需供电即可维持 MRAM 中的内容。

这对数字设计师来说是一个好消息。他们不再需要采取传统方法来降低待机功耗,例如使用深睡眠和阵列后偏置。SRAM 需要几个步骤进入和退出其保持(深度睡眠)模式,如果睡眠时间不够长,会导致响应时间更长,功耗更高。SRAM 阵列偏置还需要额外的电源,这还会增加 SoC 设计的成本和复杂性。利用 eMRAM 阵列,设计人员有望实现更低的漏电。

工艺成熟度和市场接受度

eMRAM 可从许多代工厂获得,因为在给定的工艺技术中,它的开发比 RRAM 或 PCRAM 要简单得多。例如,如图 2 所示,在线路后端 (BEOL) 工艺中,对于 eMRAM,只需要三个额外的掩膜。线路前端 (FEOL) 工艺与我们目前的流程相同,这使得 IP 开发更加容易。另外,目前还可提供独立的非嵌入式 MRAM 芯片。eMRAM 的市场接受度远远领先于 RRAM。

图 2:STT-MRAM 的 MTJ 单元。 来源:Lam Research

降低系统功耗

eMRAM 的非易失性特性对于低功耗设计或电池供电物联网应用是理想之选。如果休眠或断电后需要重新使用数据,CPU 首先需要将 SRAM 数据写入到闪存中。恢复通电时,CPU 再次读取数据。使用闪存需要两倍的操作时间,来沿着路径以及 IO 的访问,对经过的电阻和电容进行充电和放电。例如,当从 0 到 1 的 RC 充电时,大约 50% 的能量被转换,其余通过热消散。但是,当从 1 到 0 的 RC 放电时,100% 的能量被完全浪费。通过利用 eMRAM,存储器不需要经历充电/放电过程,从而降低系统级功耗(图 3)。

图 3:不同组合的系统功耗比较。来源:Qualcomm & TDK,IEDM,2015 年

更大容量

eMRAM 的最大容量可达 1Gb,而 SRAM 的最大容量通常约为单个模块 2Mb。使用 eMRAM 时,单芯片可以使用更多存储容量,或者也可以使用跟 SRAM 容量一样的 eMRAM,来实现更小的芯片面积。

辐射抗扰性

SRAM 位单元易受 α 粒子攻击。与其逻辑相比,SRAM 位单元内部的电容非常小。因此,由辐射引起的电荷沉积更低,可能会改变存储在位单元中的值,从而导致软错误。eMRAM 使用 MTJ(图 2)来存储数据,并且具有天然抗辐射能力。考虑到围绕 MRAM 位单元的外设电路,MRAM 的总体抗辐射性要高得多。

外形尺寸更小,消费者体验更好

智能手机、无线音频耳塞和可穿戴设备等应用需要更小的外形尺寸,以便为更时尚的设计提供灵活性或为更大的电池节省空间。使用闪存 SiP 时,芯片高度不能降低。或者,不使用 SiP,PCB 尺寸会更大。使用 eMRAM,设计师可以使用 flip chip 封装。Flip chip 封装在所有封装选择中高度最小,所以具有低 IR 的特性,从而提高了性能,这对于 SoC 设计极为重要。对于需要频繁固件更新的应用,eMRAM 可以存储操作过程中生成的引导代码和中间数据,如 GPS 卫星地图、来自发动机的传感器数据等。存储此数据可提供更流畅的消费体验。eMRAM 性能远高于闪存,可以实现更高的芯片性能或更快的远程固件更新。

易于集成

eMRAM 利用 SRAM 接口,无需 SPI 接口。使用 eMRAM 不需要新的总线协议。数字设计师可以轻松地集成 eMRAM 模块,就像图 4 所示的常规 SRAM。

图 4:将带有片上 SRAM 的 SoC 和外部闪存转换为带有 eMRAM 的非易失性 SoC

汽车微控制器单元 (MCU) 需要嵌入式存储器,而典型的 MCU 已经使用嵌入式闪存。但是,嵌入式存储器目前在 22nm 及以下的应用中尚未推出,这使 MCU 设计师无法充分利用较小尺寸工艺的优势。eMRAM 是 MCU 设计师寻求迁移到先进节点的完美解决方案。它很稳定,可满足汽车温度等级要求。

DesignWare 嵌入式 MRAM 编译器 IP

MRAM 已经进入嵌入式领域,正在取代 SRAM 的多样化配置。Synopsys 提供 eMRAM 编译器 IP,而不是单纯硬核。使用 eMRAM 编译器,可在几分钟内为设计师提供 eMRAM 硬核的即时编译。通过从编译器提供 eMRAM 实例的完整前端 view,设计师可以立即评估和启动设计。这大大缩短了周转时间,并加快了上市时间。

eMRAM 的 STAR Memory System 测试、修复和诊断

Synopsys TestMAX STAR Memory System® (SMS) 解决方案测试、修复和诊断片上存储器(单/双/两/多端口 RAM/寄存器/ROM,包括 CPU 和 GPU 缓存、CAM、eflash)和片外存储器(DDR/LPDDR/HBM)。通过与领先的代工厂合作,Synopsys 增强了 SMS,来支持 eMRAM 架构特有的算法,并具有调整/校准功能。Synopsys 还提供经过 ISO 26262 认证的 STAR ECC 解决方案,可用于提高 eMRAM 的生产良率,以及提高应用领域(如汽车、军事和航空航天)存储器的现场可靠性。eMRAM 的 SMS 解决方案已经过硅验证,具有高速测试、使用 march 算法的高测试覆盖率以及通过 JTAG 的可编程性等功能。STAR Memory System 的 eMRAM 算法,针对的是嵌入式 MRAM 和其他类型的非易失性存储器,在生产和现场测试期间的故障机制。支持多种背景模式和复杂寻址模式,可加速自动测试设备 (ATE) 矢量生成,从而为 eMRAM 提供最高的测试覆盖率,使制造良率最大化,并提高 SoC 的可靠性。此外,STAR Memory System 中的增强设计加速功能可实现嵌入式 MRAM 的自动执行测试和修复逻辑的规划、生成、嵌入和验证步骤,从而减少整体集成工作量。

STAR Memory System ECC

虽然 eMRAM 技术具有足够的耐久性和读/写延迟,但易受工艺变化的影响可能会导致可靠性问题。MTJ 位单元的缺点之一是读取窗口小,即,高电阻状态和低电阻状态之间的差异通常就是 2-3 倍。在 MTJ 位单元的灵敏放大值上,会比 SRAM 位单元困难得多。eMRAM 切换是一个随机过程。这意味着,减少写电流可提高能效,但会增加写错误的可能性,并降低良率。

为了达到可接受的良率并保持现场可靠性,设计人员需要实施复杂的纠错码 (ECC) 解决方案。ECC 逻辑表明,要达到一定的芯片故障率 (CFR),代工厂必须达到的存储器位故障率 (BER) 在更大的阵列尺寸下变得越来越严格。假设对于 64Mb 存储器阵列大小存在随机缺陷,针对最严格的汽车 ASIL-D 级别(相当于 SoC 级别 FIT 率为 10)的应用至少需要一个 DECTED(双重错误纠正,三重错误检测)级别的 ECC,如今,MTJ 位单元的代工厂所能达到的 BER 水平。图 5 显示,64Mb eMRAM 模块如果要达到 99% 的良率,在没有 ECC 的情况下,代工厂位单元 D0 需要达到 0.1ppm 以下。在添加 1bit 或 2bit 纠错 ECC 时,位单元 D0 可分别放宽到1ppm 或 10ppm。STAR Memory System ECC 为单端口和多端口 eMRAM 存储器自动生成 ECC Verilog 代码、测试平台和脚本。这样可以大大提高 eMRAM 的良率。

图 5:为了在无 ECC 时使 64Mb eMRAM 良率达到 99%(蓝线),代工厂位单元 D0 需要达到 0.1ppm 以下。但是,通过添加 1bit 或 2bit ECC,位单元 D0 能够分别放宽到 1ppm 或 10ppm。

DesignWare eMRAM 编译器 IP 可用性

Synopsys 与领先的代工厂合作,提供 DesignWare® eMRAM IP,在批量生产中采用经硅验证的 28nm。22nm 中的 DesignWare eMRAM IP 也经过硅验证,FinFET 节点的eMRAM IP 正在开发中。

总结

对于那些需要耐久性和小面积,低功耗 SoC,eMRAM 是具有前景的存储器技术。离散 MRAM 已经可用,设计师正在利用嵌入式 MRAM 提高 PPA 效率。由于任意两个 SoC 的配置要求都各有不同,因此 Synopsys 提供 eMRAM 编译器 IP,可用于生成各种配置,以满足您的特定设计要求。

如需更多信息,请访问:DesignWare 基础 IP