AI驱动的设计应用
AI模型的复杂度每4到6个月就会翻一番,比摩尔定律还快四倍。受此推动,数据中心基础设施也在快速发展。处理和存储万亿参数模型需要超高速度和低延迟,而当前的超大规模数据中心基础设施则显得力不能及。新的基础设施需要更大的存储容量、增强的计算资源和更快的互连。PCIe 7.0应运而生,它是PCI Express标准的最新版本(规范的0.5版)。PCIe 7.0可提供最高达512 GB/s的带宽和超低延迟,让互连能够满足AI工作负载的海量并行计算需求,帮助缓解数据瓶颈
图 1: 多年来,AI集群不断扩展以增强C2C连接能力,从而提供处理数万亿LLM参数所需的计算能力、存储空间和网络带宽。摘自:
Includes in-depth technical articles, white papers, videos, upcoming webinars, product announcements and more.
当今的AI工作负载需要专门的架构,其中集成多个加速器,它们与中央处理器协同工作。一些先进架构需要在单个计算单元中集成多达1024个加速器。因此,计算扩展结构需要尽可能快的互连来连接到成百上千具有高带宽I/O网络的加速器,从而高效训练AI模型。
PCI-SIG于2022年宣布了PCIe 7.0技术,并计划于2025年发布完整规范(目前提供的是0.5版)。这项技术旨在满足数据密集型应用和市场的巨大带宽需求,包括AI/ML、1.6T/800G以太网网络、HPC和HPC数据中心中的量子计算。PCIe 7.0将在加速器、处理器、NIC和其他组件之间提供低延迟、低功耗、可靠的链路,确保在高性能计算环境中实现高效连接。
图2:PCIe 7.0将大幅提升AI/ML扩展结构中所有关键互连的带宽,并确保数据传输安全可靠,以满足AI需求
PCIe 7.0是AI和HPC硬件基础设施领域的一项重大进步,它带来了多项关键优势,能够满足对持续创新和海量数据的需求:
PCI-SIG于2000年推出的卡式机电(CEM)连接器,是主板与附加卡(AICs)及转接卡连接的关键部件。这类连接器支持多种模块,包括存储用的SSDs、图形处理的GPU、网络连接的NICs,以及机器学习/深度学习或混合计算模块。针对PCIe 7.0 CEM连接器,其核心在于降低反射与串扰、确保线缆低损耗、实现优质的导体终端处理,以及减少偏斜和周期性共振现象。PCIe 7.0连接器和线缆对信号完整性有着严苛的要求,目前正在探讨诸如回波损耗偏差等新指标,旨在进一步提升高速传输下的信号质量和可靠性。
此外,PCI-SIG成立了PCIe光学工作组,这表明行业正在积极探索超越铜线传输的限制,尤其是CopprLink外部电缆的局限性,转而采用光学解决方案。光缆技术最近被引入到PCI-SIG,引发了业界对于扩展计算网络物理覆盖范围的热烈讨论。该技术具备多项优势,例如延迟更低、热管理能力更强等。
对光学PCIe链路的双重关注包括:在协议层调整逻辑通信方案,同时在物理层引入热管理更好、光学链路经优化的新外形。这些进展旨在满足高性能计算和网络对速度、可靠性和效率日益增长的需求。过渡到128Gbps PCIe标准标志着芯片设计的一次重大演进,这将带来更强大的功能和缓存一致性,同时也会提出新的设计挑战:
虽然标准仍在不断变化,但新思科技最近宣布了全球首个针对PCIe 7.0的完整IP解决方案,包括控制器、IDE安全模块、PHY和验证IP。该解决方案为生态系统连接实现闪电般的速度铺平了道路。
在DesignCon 2024上,新思科技展示了具有出色RLM的全开128 Gbps TX PAM4眼图。TX到RX环回在长距离信道上以128 Gbps的速度运行,证明了该IP的鲁棒性,其FEC前BER比规范要求高出多个数量级。
为了进一步突出这项技术的先进性,我们还在PCISIG DevCon 2024上展示了PCIe 7.0,包括:环回配置中的TX和RX性能,业界首次PCIe 7.0与电缆信道(如DAC)、背板信道的互操作,以及直接驱动和均衡光学损耗。此外,我们还进行了世界首次PCIe 7.0控制器演示,成功实现了根联合体到端点的连接,展示了使用EQ旁路模式的FLIT传输。
PCIe 7.0提供更高的带宽、更低的延迟、更高的能源效率以及与现有基础设施的兼容性,让开发者能够应对AI和HPC环境不断提升的需求。系统开发者迫切需要提高数据吞吐量,以帮助推进在数据中心部署人工智能推理引擎和协处理器拓扑。这需要新的仿真技术和流片后验证技术。PAM-4拐点需要创新的仿真、设计、测试和测量方法来应对。仿真和验证之间的相关性,PCIe光缆传输和电缆传输的设计实践,信号完整性问题导致需要降噪,保持信号完整性和尽可能减少反射与串扰等问题的技术。
向128Gbps PCIe转变代表了高速互连技术的范式变革。对于旨在提高现代计算和网络环境的性能、效率和可靠性的IP设计,它带来了新的挑战和机遇。新思科技凭借业界首个完整的预验证PCIe 7.0 IP解决方案,走在了这场技术革命的前沿。该解决方案基于标准构建,由PHY、控制器、IDE安全模块和验证IP组成,x16配置支持高达512 GB/s的双向安全数据传输以缓解数据瓶颈。新思科技在PCI Express领域深耕二十余年,能够为设计下一代HPC和AI SoC的开发者提供先发优势,帮助他们更快速地将设计投入生产。
In-depth technical articles, white papers, videos, webinars, product announcements and more.
Read More →