AI驱动的设计应用
Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片),开发者可以针对特定任务优化每个组件,进而显著提高效率和能力。这种模块化策略对数据中心特别有利,因为数据中心需要高性能、可靠且可扩展的系统来处理大量数据和复杂的AI工作负载。
超大规模数据中心不断发展的复杂架构可以使用各种类型的Multi-Die设计:
本文深入探讨了PCIe和以太网以及UCIe IP的多芯片设计如何最大限度地提高带宽和性能,助力现代化AI数据中心基础设施实现纵向和横向扩展。
互连是构建AI基础结构的一大挑战,我们应如何将多个数据中心的数万台服务器连接在一起,形成能够处理AI工作负载的庞大网络?AI数据中心的复杂性不言而喻,涵盖多个CPU和加速器、各种交换机、大量NIC以及其他设备。无缝连接这些组件离不开高效的网络。因此,纵向和横向扩展技术就显得至为关键。IO分解为这两种扩展策略提供了契机。在纵向扩展场景中,PCIe和UCIe利用UCIe IP实现Die-to-Die连接,构建内部网络结构;同时,对于横向扩展场景,以太网和UCIe IP则可以在服务器间建立高速、低延迟链路。
纵向扩展(或垂直扩展)指的是通过添加CPU数量、扩展内存或增强存储容量增加单台服务器的资源。这种方法将所有资源集中在一台机器内,可以简化架构、降低延迟。纵向扩展的核心在于用来构建内部网络结构的PCIe技术。最新的PCIe 7.0标准可连接CPU、GPU、NIC、存储驱动器等外设,提供低延迟和高带宽接口,确保服务器内的高效通信。
横向扩展(或水平扩展)是将工作负载分配到多台服务器上,创建协同工作的机器网络。这种方法经济高效、具备冗余能力,并能灵活应对不断增长的工作负载。然而,这也增加了网络配置与管理的复杂性,因为多台机器间的通信可能会增加延迟。因此,以太网技术和即将推出的超级以太网标准便显得尤为重要,它们为数据中心内的服务器提供了高速、低延迟通信链路。目前,业界正在积极探讨新标准,旨在实现AI加速器与交换机之间的高速链路,确保数据传输与协调工作更加高效。
图1:数据中心架构扩展所需关键互连技术一览
如图1所示,Multi-Die设计为实现纵向与横向扩展提供了诸多可能。Multi-Die设计采用了PCIe、以太网和UCIe IP,对缩短上市时间、降低成本和风险至关重要,同时提供了全面的架构灵活性。接下来,本文将详细介绍Multi-Die设计的几个主要IO小芯片类型,包括超大型AI训练芯片、交换机SoC以及重定时器。
1. 超大型AI训练芯片
为了处理庞大的数据模型,AI芯片必须能高效执行计算和数据管理任务。AI训练专用芯片旨在满足这些巨大的计算和数据处理需求,在单个芯片上集成多个处理单元、内存和互连,以提供优越的性能和效率。因此,集成了40G UCIe和224G以太网的Multi-Die设计应运而生,为AI的高效训练带来了实现方案。数据中心不再需要依赖于数千个庞大的GPU,而是可以通过更加小巧的SoC来执行AI训练,这大幅减小了延迟和功耗,进一步改善了带宽和传输距离。
224G以太网PHY IP提供了强大且可定制的接口。CEI-224G还在不断发展,对AI训练操作来说,实现每通道224Gbps,同时保持生态系统互操作性并降低功耗至关重要。此外,UCIe IP可以在多个芯片上提供高速、低延迟、节能的数据传输,速度高达40Gbps,显著增强这些芯片的可扩展性和模块化。
图2:适用于AI训练芯片的224G/UCIe Multi-Die设计
2. 具有电或光合封接口的100T交换机SoC
AI加速器当然非常重要,但怎么将它们连接到一起呢?这需要很多交换机。交换机SoC正成为横向扩展AI和HPC数据中心并保持低功耗的另一种解决方案,电传输距离为3-4米,光传输距离为10-100米。这些SoC将电和光互连直接集成到CPU和GPU中,有助于增强网络优化的可扩展性和效率,对缓解集群规模迅速扩张时的连接性瓶颈非常重要。电I/O虽支持高带宽密度且功耗低,但传输距离有限;而光互连则能显著延长数据传输范围。可插拔光收发器模块能增加传输距离,但大规模AI工作负载难以承受其高昂成本与整体能耗。相比之下,共封装光I/O方案支持更高带宽,其功耗更低、延迟更小且传输距离更远,恰好能够迎合AI/ML基础结构的扩展需求。
光和电IO可支持以224Gbps运行的多条高速通道,且相比传统可插拔QSFPDD或OSFP收发器模块,其功耗显著降低。此外,集成UCIe和高速以太网等先进标准,可促进与主芯片的高速、低延迟通信,突破传统互连的局限性。
图3:用于重定时器或扩展传输范围的高带宽IO
3. 用于重定时器或扩展传输范围的高带宽IO
重定时器和扩展传输范围解决方案也同样不可或缺,可以维持信号完整性、减少长距离延迟。重定时器支持PCIe和CXL等高级协议,可无缝集成到现代数据中心架构中,并实现大量内存扩展,无需彻底改造现有系统。这种兼容性对于处理内存密集型AI推理操作以及克服PCIe 7.0等新标准带来的信号完整性挑战至关重要。
PCIe和CXL协议的融合正通过实现内存池和动态、经济高效的内存分配重塑数据中心架构。为了使重定时器在新环境中发挥作用,它们必须具有协议感知能力,并能够适应快速发展的CXL标准。片上诊断、安全启动功能和低功耗等特性对于确保安全、易于调试和可持续性至关重要。业界向Multi-Die设计的转变进一步强调了通用、高带宽I/O解决方案的必要性,从而简化了系统设计并加快了上市时间。这些技术进步不仅对于满足当前AI与高性能计算的需求至关重要,也确保了数据中心能够轻松应对未来不断攀升的算力与带宽需求。
图5:Multi-Die设计框图
这种Multi-Die设计支持双向224G数据传输的可配置通道数,能应对高达45dB的插入损耗。其目的是满足AI基础结构对更高带宽、更低功耗和更远传输距离的需求。该示例增强了CPU/GPU集群连接和创新计算架构的可扩展性,包括一致性内存扩展和资源解耦。
集成PCIe和以太网等高速接口以及UCIe IP和链路健康监控功能,有助于扩展Multi-Die设计的带宽。新思科技为UCIe提供高达40Gbps的高质量、完整IP解决方案,集成信号完整性监视器和可测试性功能、224G以太网及PCIe 7.0,能够大幅提高带宽、降低延迟并改善可扩展性。新思科技的Multi-Die设计IP解决方案遵循不断演变的行业标准,可以与生态系统内的产品互操作,其多项前沿技术已经应用到芯片中,是实现下一代数据中心AI芯片的低风险解决方案。
新思科技提供全面且可扩展的Multi-Die解决方案,包括EDA和IP产品,以助力早期架构探索,加速软件开发与验证,实现高效的芯片/封装协同设计,强化Die-to-Die连接,以及优化制造工艺和可靠性。
In-depth technical articles, white papers, videos, webinars, product announcements and more.