AI驱动的设计应用
Synopsys 高级产品营销经理 Manuel Mota
在设计 multi-die SoC 时,系统架构师面临多种设计选择和权衡。或许最基本的就是选择最佳的 SoC 封装技术:
图 1 显示了设计师可以使用的各种封装选项。
图 1:封装选项
2.5D 封装采用 RRL 扇出技术,由于其能够桥接 2D 技术的低成本和硅中介层的密度,因此成为一种有吸引力的选择。许多代工厂以及传统的外包半导体组装和测试 (OSAT) 提供商都可提供 RDL 扇出,从而提高了可及性,并可能进一步降低成本。
用于诸如数据中心、人工智能 (AI) 训练或推理、服务器和网络等高性能计算 (HPC) 应用的高端 multi-die SoC,为了使用并行 die-to-die 接口,都充分利用了 2.5D 封装技术的密度和 RDL 扇出优势。
并行 die-to-die 接口基本上都包含了大量的(上千个)IO 引脚,来驱动跨晶粒的单端信号。由于每个引脚的数据速率仅为几个 G 字节/秒 (Gbps)(8 至 16 Gbps),且晶粒之间的距离仅为几毫米(3 至 5 毫米),因此驱动器和接收器都可以简化,同时实现远低于 1e-22 至 1e-24 的系统误码率 (BER)。不需要额外的纠错机制,例如前向纠错 (FEC) 和重试,系统 BER 就可以满足要求,从而避免增加链路复杂性和延迟。
通过简化 IO、消除串并转换 (SerDes) 步骤,并避免超高速信号传输,并行 die-to-die 接口能够实现极高的能效和较低的延迟,同时支持整个链路的极高吞吐量。因此,并行 die-to-die 接口对于不受封装成本和装配限制的高性能计算应用 SoC 非常有吸引力。
行业已为并行 die-to-die 接口部署了许多专有架构。然而,multi-die SoC 市场旨在开发一个稳健的生态系统,使得不同供应商开发的、实现不同功能的晶粒(即小芯片)可以互操作。
因此,行业正在制定标准,为先进封装(硅中介层、硅桥或 RDL 扇出)中的并行 die-to-die 接口提供不同的特性。表 1 显示了主要特性的比较。
标准 |
数据速率 [Gbps] |
Bump 区[um] |
功率效率 [pJ/bit] |
边缘密度 [Tbps/mm] |
面积密度 [Tbps/mm2] |
FOM-1 [Tbps/mm / pJ/bit] 越大越好 |
FOM-2 [pJ/bit / mm] 越小越好 |
AIB 2.0 |
6.4 |
55 |
0.5 |
1.64 |
- |
3.28 |
0.1 |
OpenHBI 1.0 |
8 |
40 |
0.4 |
2.29 |
2.04 |
5.71 |
0.1 |
OpenHBI 2.0 |
12~16 |
40 |
0.5 |
3.34 |
3.06 |
6.86 |
0.06 |
BoW – 基本 |
8 |
40 |
0.5 |
1.78 |
1.07 |
3.56 |
0.1 |
表 1:先进封装的并行 die-to-die 接口标准(来自 OCP Tech Week 全球技术峰会,2020年 11 月)
类似版本的标准支持有机基材,可实现物理层或封装类型的系统设计抽象,如表 2 所示。然而,用于先进封装的凸块间距要大得多,封装路由密度要高得多,从而以相似或更好的能效实现更佳的外形尺寸和边缘效率。对于那些需要极高的 die-to-die 数据吞吐量的 HPC 和网络应用而言,所有这些都是关键指标。
标准 |
支持有机基材的版本 |
BoW |
BoW-快速,BoW-基本 (C4) |
OpenHBI |
OpenHBI-L |
AIB |
AIB 2.1(层压) |
表格 2:支持有机基材封装的并行 die-to-die PHY 标准的版本
OpenHBI 已成为提供最高边缘密度的标准,非常适用于必须在两个晶粒之间传输极高带宽的应用。
OpenHBI 利用 JEDEC 的 HBM3 电气特性和 IO 类型来降低风险。它使用低电压和未端接的单端 DDR 信号来传输晶粒之间的数据。
OpenHBI 标准具有许多关键特征:
OpenHBI 标准主要针对图 2 所示的下层(PHY 和逻辑 PHY 层)。然后将适配器层用于与上层(协议层)进行连接。因此,系统实现不依赖于各个应用所用的协议。
图 2:OpenHBI 接口逻辑划分
PHY 层执行下列功能:
如果需要,逻辑 PHY 层将执行以下功能:
图 3 阐述了可能的 OpenHBI PHY 实现方案,其中可以将不同的功能分割到不同的实现中。
图 3:OpenHBI PHY IP 模块图
OpenHBI PHY 使用与 HBM3 类似的基于 DWORD 的数据路径组织。每个 DWORD 由 42 个数据信号和附加信号加上 2 个冗余通道(用于通道测试和修复)和差分前向时钟组成,如表 3 所示。
符号 |
描述 |
TX 侧 |
RX 侧 |
D<41:0> |
数据 |
输出 |
输入 |
WDQS p/m |
TX 前向时钟(差分) |
输出 |
- |
RDQS p/m |
RX 前向时钟(差分) |
- |
输入 |
RD<1:0> |
冗余通道 |
输出 |
输入 |
表 3:DWORD 信号描述
数据信号是输出还是输入取决于 DWORD 的操作方向 - 发送还是接收。其中一些数据引脚有 OpenHBI PHY 专门用途,例如数据总线反向 (DBI)(一种节能和降噪功能)、奇偶校验(一种简单的错误检测功能)和成帧(一种数据对齐功能)。OpenHBI 独立支持每项服务,如表 4 所示。如果未使用服务,则上层可以复用不用的引脚进行数据传输。
位 |
全部 |
DBI |
帧 + 奇偶校验 |
成帧 |
旁路 |
模式 |
0 |
1 |
2 |
3 |
4 |
载荷 |
36 |
38 |
40 |
41 |
42 |
DBI |
4 |
4 |
0 |
0 |
0 |
奇偶校验 |
1 |
0 |
1 |
0 |
0 |
成帧 |
1 |
0 |
1 |
1 |
0 |
表格 4:OpenHBI 载荷与服务启用
DWORD 还管理其自身引脚的训练、测试和修复程序。
PHY 使用时钟转发技术,其中传输时钟和数据也在晶粒之间传输。接收端基于 DLL 的简单数据恢复电路,可节省功耗和面积。
除了有效载荷数据路径外,PHY 还实现低速 CCT,可供锚芯片和小芯片用于传达配置和状态参数以及控制 DWORD 初始化、校准和测试过程。OpenHBI PHY 实现 I3C、JTAG 和供应商自定义信号。
此外,CCT 将参考时钟从锚芯片传播到小芯片晶粒,以便它们共享相同的时钟参考。
OpenHBI PHY 的其他主要功能包括:
图 4:使用 Synopsys HBI+ PHY 的 Die-to-Die 链路的眼图
设计师有多种 Die-to-Die 接口选择来满足其设计需求。基于 SerDes 的或并行的 Die-to-Die 接口都有其独特的优势,如数据速率、引脚数量和成本。设计师还必须从多种 muiti-die 封装技术中做出选择,如 2D、2.5D、3D 或前面几种的组合。对于那些对封装成本和复杂度不敏感的高性能计算 SoC,并行 Die-to-Die 接口已成为首选技术。为了让不同的供应商开发的 Multi-Die SoC 实现互操作,业界正着力于建立 Multi-Die 的互连标准,以维护一个成功的生态系统。其中一个标准是 OpenHBI,可达到每引脚 8Gbps 的速度,在最大的数据速率下可以达到 3mm 的最大互连长度,并实现小于或等于 0.5pJ/bit 的功耗目标。
Synopsys 可提供一系列 Die-to-Die IP,包括高带宽互联 (HBI) 和基于 SerDes 的 PHY 和控制器。DesignWare® HBI PHY IP 支持多种标准,包括 AIB、BoW 和 OpenHBI。