AI驱动的设计应用
高级产品营销经理 Manuel Mota
半导体行业正在向多晶粒 SoC 进行重大战略转变,对 SoC 的架构和设计方式具有深远影响。
这一转变由几种收敛趋势推动:
然而,多晶粒技术的新颖性和缺乏设计生态系统,使得 SoC 架构师暂停甚至推迟其多晶粒 SoC 项目。全行业的参与者已携手提供全面、集成的多晶粒设计和验证产品以及全套先进封装选项。
早期采用者已开始开发自己的专用晶粒间接口,但业界很快意识到,这种方法不利于组装不同供应商开发的晶粒。该行业需要标准化的晶粒间互连。多个行业联盟已共同定义此类标准,如图 1 所示。
图 1:多个组织已定义并制定了晶粒间互连标准
本文将详细探讨 UCIe 规范及其主要优势。
UCIe 是最近公布的规范,继承了最初发起者积累的多项关键技术方面的大量工作和经验,如图 2 所示。UCIe 是一个全面的规范,可以立即用作新设计的基础,同时为未来的规范演变奠定坚实的基础。
图 2:各公司携手建立完整的标准化晶粒间互连
与其他规格相反,UCIe 定义了完整的晶粒间互连堆栈,确保兼容设备的互操作性,这是实现多晶粒系统市场的必要要求。
从一开始,UCIe 就包含支持多个当前和趋势用例的功能。UCIe 支持当前所需的数据速率(从 8Gbps/引脚到 16Gbps/引脚)。UCIe 还有望支持高达 32Gbps/引脚的灵活数据速率,这将是未来高带宽网络和数据中心应用的要求。
UCIe 以两种方式支持所有类型的封装技术:
两种方式共享相同的架构和协议。唯一的区别在于 bump map 和 PHY 组织。这种差异意味着无论为特定 SoC 选择何种封装类型,都可以重复使用系统架构、系统验证和软件开发。
UCIe 支持数据中心中的新型资源聚合(或汇合)架构,无论是在刀片内配备灵活的 PCIe/CXL IO 晶粒,还是在机架到机架内配备支持 UCIe 的光学 IO 晶粒。
最重要的是,UCIe 通过利用流式传输(用户定义)协议,在同一封装内的多个服务器(或 AI)片上网络 (NoC) 之间创建低延迟连接,从而支持计算扩展。
如图 3 所示,UCIe 规范分为三个堆栈层:物理层、晶粒间适配器层和协议层。
图 3:UCIe 规范分层
UCIe 接口使用时钟转发和单端、低电压 DDR 信号来提高能耗效率。通过在 PHY 级别扰乱数据,可以减少电源干扰。与其他技术(如 DBI)相反,数据扰乱不会影响带宽效率。
由于时钟与数据并行转发,接收器数据恢复大大简化,从而实现了更多的功耗节省和延迟缩短。图 4 显示了 UCIe PHY 架构框图。
图 4:UCIe PHY 架构框图
UCIe 将模块定义为最小的接口单元。每个模块包括一个主带“总线”,最多 64 个用于先进封装(或 16 个用于标准封装)的发送和接收 IO、时钟转发 IO、一个有效(成帧)和跟踪 IO。边带“总线”也如图 5 所示实现。
图 5:UCIe 模块实现主带和边带总线
为减少先进封装组件中由于 ubump 质量导致的良率损失,UCIe 提供依赖于 6 个冗余引脚(用于 TX 和 RX 数据、时钟、有效和跟踪)和 2 个冗余引脚(用于边带 TX 和 RX)的测试和修复机制。
由于 C4(或铜柱凸块)凸点良率和完整封装过程良率非常高,因此 UCIe 不为标准封装实施引脚冗余。对于这些封装,UCIe 支持“降级”操作模式,在另一半检测到故障后,只有一半模块处于活跃状态。
测试和修复流程在链路初始化时实施。PHY 测试每个晶粒连接以确定是否存在任何故障。如果发生故障,相应的信号将重新路由到冗余引脚,如图 6 所示。
图 6:物理层测试每个晶粒连接以确定故障,并将信号重新路由到冗余引脚
表 1 显示了先进封装和标准封装的 UCIe 规范之间的主要差异。
UCIe PHY 变体 |
先进封装 |
标准封装 |
数据速率 |
16Gbps |
16Gbps |
每个模块的 TX/RX 引脚 |
64 |
16 |
冗余 (T&R) |
是 |
否 |
总带宽(双向) |
4Tbps |
1Tbps |
带宽效率(总) |
5.2Tbps/mm |
0.9Tbps/mm |
能效 |
0.3pJ/bit |
0.5pJ/bit |
延迟 TX+RX |
12 UI |
12 UI |
BER |
< 1e-15 |
< 1e-27 |
凸块间距 |
45um |
110um |
信道距离 |
> 2mm |
> 10mm |
低功耗模式 |
空闲模式 |
空闲模式 |
终端 RX |
否 |
50 欧姆 |
信号摆幅 |
0.4V |
0.4V |
表 1:用于先进封装与标准封装的不同 UCIe PHY 功能
如前所述,这些差异仅在电气层面上可见,并且不影响上层协议。这些差异源于标准封装 (110u) 与先进封装 (45u) 所需的明显更大的最小凸块间距,以及源于需要在标准封装中支持更长的信道距离以增加灵活性。
晶粒间适配器层是将任何协议连接到 UCIe PHY 层的中间层。晶粒间适配器层管理链路本身。在链路初始化时,它会等待 PHY 完成链路初始化,包括校准、测试和修复,此时会启动两个晶粒的发现功能。它会商定将使用哪个协议(如果实施了多个协议)来移交给任务模式活动的协议层。
晶粒间适配器层和协议层之间的接口称为 FLIT 感知晶粒间接口 (FDI),是一种基于 FLIT 的接口。为了适应不同的协议,它支持各种 FLIT 模式:
UCIe 还定义了 CXL 协议和 PCI Express 协议的原始模式。这些模式适用于 UCIe 流量在光纤链路上运行时的重定时器应用。在重定时器模式下,延迟和错误率不由 UCIe 链路本身定义,并且假设协议层将处理所有纠错机制,包括 CRC、重试和可能的 FEC。晶粒间适配器层不会将 CRC 代码添加到协议 FLIT 中,也不会检查是否出错或在接收器上应用重试机制。
UCIe 映射 PCI Express 和 CXL 等通用协议,使开发人员能够利用之前在软件堆栈上的工作,并使用多晶粒架构让采用封装内集成变得更加简单。UCIe 预计会在其未来的版本中实现其他协议映射的标准化。
UCIe 还支持通过流模式映射其他协议。例如,在流模式下,CXS 或 AXI 桥接到 FDI 接口,支持两个计算晶粒上的 NoC 架构之间的低延迟连接。利用物理层和晶粒间适配器层链路管理功能,可以以相同的方式实施其他由用户定义的协议。
在实施 UCIe 互连时,架构师可以选择支持这些协议中的一个或多个。实施多个协议可增强晶粒在不同用例中的适用性,这在开放式多晶粒系统市场中具有真正的优势。晶粒间适配器层负责发现和选择在给定互连中使用哪个协议。
UCIe 规范为多晶粒 SoC 设计人员带来了极具竞争力的性能优势,包括高能效 (pJ/b),高边缘使用效率 (Tbps/mm) 和低延迟 (ns),支持最受欢迎的 IO 协议以及任何用户定义的协议,与从有机基材到先进硅中介层的各种封装技术兼容,并涵盖接口的所有关键方面(初始化、边带、协议、测试和修复、纠错、等等)。
UCIe 的优势使其成为一项非常引人注目的技术,通过确保互操作性,轻松实现真正开放的多晶粒系统的生态系统。
UCIe 发起者勾勒出了一个令人信服的路线图,以支持行业的新用例和要求。发起者预计 UCIe 会支持更高的数据速率和新的协议、3D 封装以及多晶粒系统设计的其他方面,例如外形尺寸、安全性、可测试性,等等。
Synopsys 提供全面的多晶粒系统解决方案,使设计人员能够轻松过渡到多晶粒 SoC 架构。