AI驱动的设计应用
半导体行业的 IP 和工艺创新不断发展,以满足未来应用的计算需求,如今多晶粒系统变得很普遍。然而,随着每一代硬件设计为了赶上未来的 AI 工作负载,工作负载需求正在影响 DDR、HBM、UCIe 等的计算阵列、内存和带宽。
SoC性能持续升级,并且由于 Denard 缩放比例定律被认为即将结束(图 1),因此人们对多核设计在推动性能升级方面的重要性进行了大量讨论。
图 1:SoC 性能的代际升级
包括深度技术文章、白皮书、视频、即将举行的网络研讨会、产品公告等等。
无论这种现象如何,为了满足性能需求,代工厂不断推动下一代工艺节点,使更高的频率和更高的逻辑密度能够包含更多的处理元件,所有这些都降低了功耗。 这种持续的创新如图 2 所示。
图 2:最新的 IMEC 潜在工艺节点路线图
除了工艺节点创新之外,多核架构和处理器元件阵列还继续积极解决代际性能提升问题。然而,无论是多核创新还是工艺节点代际升级,都需要新的多晶粒系统架构。 内存墙显然是多晶粒系统的关键驱动因素之一(图 3)。 该图表显示,内存密度每 2 年翻一番,相应的工作负载则增加了 240 倍。有关详细信息,请参阅 Medium.com 上题为《AI 和内存墙》的博客文章。
图 3:为不同的 CV、NLP 和语音模型训练 SOTA 模型所需的以 Peta FLOP 为单位测量的计算量,以及转换器模型的不同扩展(750x/2 年);以及所有组合模型的扩展(15x/2 年)。
为了满足内存带宽方面的性能需求,我们已经看到当前的片外存储器市场受到诸如高带宽存储器 (HBM) 等新技术的颠覆。 该行业已经看到 HBM3 成为 HPC 市场的主流。 随着 HBM 为未来性能提升确立良好的路线图,这种颠覆将继续。
遗憾的是,上述内存墙只关注片外存储器,而片上存储器系统在当今大多数 SoC 设计中发挥着关键作用,因此在不久的将来,这一行业的颠覆可能不可避免。
AI 和安全工作负载的急剧增加推动了除频率增加之外的许多片上性能创新。 其中许多创新都集中在这些工作负载所需的处理器上。AI 算法推动了大规模乘积累加并行性的设计以及创造性的嵌套循环,从而可以减少周期并增加每个周期完成的工作。然而,这些工作负载还需要更大的内存密度来存储权重、系数和训练数据。 这推动了更大容量和更高带宽的片上和片外存储器。 对于片外存储器,业内已经迅速采用下一代 HBM、DDR 和 LPDDR。然而,正是片上存储器配置提供了供应商的差异化。 例如,对于 AI 加速器空间,每个供应商都在全局 SRAM 和缓存方面以更高的带宽集成更高的内存密度。 用于优化每个处理元件的内存配置的独特方法也是创新难题的关键部分。
从 SoC 特定的性能提升中退后一步,一个关键的行业问题是这些 AI 系统在云中的功耗。 图 4 显示了 Google Data Center 的功耗。 显然,使用更高效的 CPU 构建 SoC 的设计活动至关重要,已有多家 SoC 初创公司公开提升 AI 处理器效率以解决此问题。 但整体系统性能还包括片外存储器,如占总功耗 18% 的 DRAM 功耗所示。 由于 pJ/bit 性能是其他技术所无法比拟的,因此针对低功耗的设计使 HBM 采用率得以提高。
图 4:Google Data Center 功耗
回到性能难题,在讨论更广泛的 SoC 系统时,在芯片上,AI 加速器在每一代中集成更多的 SRAM 和缓存,特别是比竞争对手集成更多的 SRAM 和缓存,这是一场竞赛。 例如,英伟达等市场份额领导者已积极采用最新的工艺技术,并集成了每代的更大 L2 缓存和全局 SRAM 密度,以适应 AI 工作负载的更好性能。
为 AI 工作负载设计时,需要以下几项考量。 经常讨论的一项是内存带宽。 许多 AI SoC 供应商使用内存带宽作为其性能关键信息传递。 但是,内存带宽需要更多的环境。 例如,从全局内存访问数据的周期数可能比从 L2 缓存访问数据的周期数多 1.9 倍,而从 L2 缓存访问数据的周期数则比从 Nvidia Ampere GPU 博客中描述的从 L1 缓存访问数据的周期数多 6 倍左右。
因此,为了提高这些工作负载的性能,与前几代相比,在这些系统中增加 L1 和 L2 缓存至关重要。 对于具有大规模处理器并行性的 AI 工作负载,提高处理元件旁边使用的缓存密度是最有效的设计改进之一。
另一种用于片上系统存储器优化的方法涉及 AI 算法特定知识。 例如,将本地存储器设计成这些 AI 算法中发现的最大中间激活值的大小。 这消除了片上数据传输中的任何瓶颈。 这种方法将更常部署在边缘,因为效率将由软件和硬件协同设计决定。 遗憾的是,这需要对最终应用有深刻的了解。 同样,对这些系统进行建模可以在提高硬件性能方面发挥关键作用,Synopsys 在为开发人员提供解决方案方面处于非常独特的地位。
我们探讨了采用 DDR/LPDDR 和 HBM 等片外存储器接口来提高内存带宽,但这些技术无法跟上在晶粒内集成 AI 工作负载处理器的能力。 片外存储器轨迹差距正在明显增大。Meta 在近年来的 OCP 峰会演讲中指出了这一趋势(图 5)。
图 5: 片外存储器轨迹差距不断增大
Interface IP 标准最近在推进下一代标准方面有所提升,以跟上这一性能差距。 例如,下一代标准接口通常每四年发布一次,最近已经加速到每两年发布一次。 AI 和安全工作负载的出现促成了新一代技术的更快采用。
图 6:为了跟上性能差距,下一代标准正在更频繁地发布
这种对内存差距的处理不仅关注片外存储器的进步,还关注片上存储器的进步。 仔细研究工艺节点的进步,我们看到了三类持续创新(表 1)。
|
TSMC 7nm 与 16nm 对比 (来源:TSMC) |
TSMC 5nm 与 7nm 对比 (来源:TSMC) |
TSMC 3nm 与 5nm 对比 (来源:TSMC) |
三星 GAA 3nm 与 TSMC 3nm FinFET 对比 (来源:三星) |
性能提升 |
30-40% |
20% |
15% |
30% |
功耗降低 |
60-65% |
40% |
30% |
50% |
逻辑减少 |
70% |
45% |
70% |
45% |
SRAM 减少 |
64% |
22% |
0% |
? |
表格 1. 工艺节点进步带来的创新
然而,正在放缓的创新是代工厂提供的片上 SRAM/缓存等的密度改善。 减少的幅度可能会放缓。 这种放缓甚至表明,从 5nm 节点迁移到 3nm 节点可能会看到 SRAM 密度的轻微降低或没有降低。 这对于未来的计算来说是一个问题,其中的 AI 工作负载需要每个处理元件有更高效和更高密度的内存。 Synopsys 专注于这一市场挑战,以确保每次节点迁移时内存的密度得到改善。
除了改进片上存储器之外,另一种提高计算与存储器比率的方法是在分布式计算和存储器系统架构内扩展这些片上存储器。 为了提高性能,未来的架构必须基于满足单个晶粒上正确的处理器和内存比率这一需求而利用多晶粒系统,并将该性能扩展到复杂系统中的多个晶粒。
UCIe 和 XSR 标准的出现正在填补标准、可靠解决方案的空白,可连接多个晶粒以扩展性能。 AI 加速器行业几乎普遍对这些工作负载采用一些晶粒间互连。 UCIe 是一款标准并行晶粒间接口,正在迅速成为当今性能领先的多晶粒系统的业内领先的接口。 最重要的是,这些晶粒间连接标准扩展了嵌入式存储器,这些存储器明显优于外部存储器对特定处理元件的访问。这就是为什么各家公司争相嵌入最高性能、最密集 的内存阵列,以满足未来无法满足的工作负载。
性能显然正在推动下一代单片 SoC 和多晶粒系统架构的发展。 为了扩展性能,我们开发了独一无二的、创新的 AI 处理器。 未来的工艺节点使更密集的处理阵列能够提高性能。 但内存也必须扩大。 最有效的内存是最接近处理元件的那些内存。 为了最好地扩展这些未来的 SoC,除了接口 IP 标准外,还将采用多晶粒系统架构,以增加带宽、工艺节点改进和创新的多核处理器实现。 HBM3 和 UCIe 等下一代接口 IP 将被用于扩展带宽,但也必须能够使用创新的嵌入式存储器来扩展每个工艺节点生成时的性能。
多晶粒系统是业内最热门的话题之一。然而,与内存相关的技术挑战(满足当前的 AI 和安全工作负载)显然正在推动下一代 SoC 架构创新。 随着技术工艺节点的进步,这些架构需要更高的性能,每个处理元件需要更多的内存。 如果内存的扩展速度低于处理元件的扩展速度,但工作负载要求每个处理元素有更多的内存,则会引发技术颠覆。 一个明确的解决方案是多晶粒系统,利用更多具有更高带宽和更高密度的片上存储器。 这些存储器和 IO 创新将得到迅速采用,以满足未来工作负载的需求,并可能开启未来的行业颠覆机会。
深度技术文章、白皮书、视频、网络研讨会、产品公告等等。