随着芯片制程技术的持续进步和摩尔定律的逐渐减缓,多die(多芯片)架构已成为高性能计算领域的重要发展趋势。据新思科技预测,到2025年,50%的新高性能计算芯片设计将采用2.5D或3D Multi-Die技术。这种架构在数据中心、AI和服务器应用中尤为显著,因为这些应用场景的芯片复杂度已超出单一die的处理能力。
多die架构通过将不同功能模块拆分为独立的die,再通过先进的封装技术集成,实现了计算性能与工程效率的突破。以AMD EPYC处理器为例,其采用“分布式计算+集中式I/O”的Chiplet架构,其中CCD(Core Complex Die)专注于核心计算,IOD(I/O Die)负责系统互联与外设接口。这种设计不仅解决了先进制程下单片大芯片的制造瓶颈,还通过资源的精准分配与工艺的差异化应用,构建了成本与性能的动态平衡体系。
然而,多die架构在带来性能提升和成本优势的同时,也面临许多技术挑战。其中,多个die之间的PCIe同步初始化问题是关键技术难题之一。在多die系统中,如何确保所有die的PCIe控制器能按照统一的时序和标准完成初始化,直接关系到整个系统的性能和稳定性。特别是在高性能计算场景下,任何微小的时序偏差都可能导致严重的系统问题。
PCIe(Peripheral Component Interconnect Express)作为现代计算机系统中最重要的高速串行总线标准,其初始化过程的可靠性直接影响整个系统的功能完整性。在多die架构中,PCIe同步初始化的重要性体现在以下几个方面:
首先,系统一致性是多die PCIe同步初始化的核心目标。在多die系统中,每个die可能包含多个PCIe控制器,这些控制器需要在相同的时序和参数配置下工作,以确保整个系统的PCIe拓扑结构的一致性。例如,在AMD EPYC架构中,中央IO Die需通过Infinity Fabric向各个计算Die下发统一的PCIe初始化指令,包括PCIe控制器配置、链路训练参数等,确保所有计算Die的PCIe指令都能符合总线规则。
其次,性能优化依赖于精确的时序同步。PCIe链路的性能很大程度上取决于链路训练过程中的参数配置,包括链路宽度、数据速率、信号质量等。在多die系统中,如果各die的PCIe初始化时序不一致,可能导致链路训练失败或性能下降。研究表明,PCIe链路训练通常按Detect → Polling → Configuration → L0的顺序进行,首次进入L0状态时,链路会切换到PCIe Gen1模式,然后根据双方设备的支持情况进行更高速率的训练。
第三,系统可扩展性要求标准化的初始化流程。随着多die架构的复杂化,系统的可扩展性变得越来越重要。统一的PCIe初始化流程不仅有助于简化系统设计,还能提高不同厂商产品之间的互操作性。UCIe(Universal Chiplet Interconnect Express)协议的出现正是为了满足这一需求,该协议支持流模式、PCIe和CXL等多种模式,允许设计者根据性能、功耗或成本进行优化。
最后,可靠性与容错需要严格的同步机制。在关键任务应用中,系统的可靠性至关重要。多die PCIe同步初始化不仅要确保正常情况下的正确初始化,还要具备处理异常情况的能力。例如,在UCIe协议中,规定了严格的时序规则:配对的die必须在定义的毫秒级窗口内上线,否则链路超时,这种机制防止了die之间的无限等待,减少了不可预测的延迟。
AMD EPYC处理器系列采用了独特的中央IO Die主导的多die架构,这种设计充分体现了“分布式计算+集中式I/O”的设计理念。在这一架构中,中央IO Die扮演着整个系统PCIe初始化的核心角色,负责协调和管理所有计算Die的PCIe初始化过程。
EPYC处理器的Chiplet架构通过模块化拆分与协同设计,实现了计算性能与工程效率的突破。以Genoa为例,其最高配置包含12个5nm工艺CCD与1个6nm工艺IOD:每个CCD集成8个Zen 4核心及32MB L3缓存,通过Infinity Fabric与IOD通信;IOD则集成12通道DDR5内存控制器、PCIe 5.0接口及SerDes组件,采用台积电N6工艺实现28亿晶体管密度。
在具体的架构实现上,EPYC处理器采用了不同的晶粒配置策略。EPYC 7000系列采用四晶粒架构,其中两个晶粒旋转180度,每个晶粒直接连接到封装中的所有其他晶粒。这种全面互联的拓扑结构确保了任意两个晶粒之间的单跳通信,显著减少了延迟。每个晶粒支持两个x16 PCIe链路,总共提供128条PCIe通道,其中64条在双路系统中用于Infinity Fabric处理器间链路。
Infinity Fabric是AMD多晶粒架构的核心互连技术,它不仅是一个简单的互连总线,更是一个支持缓存一致性的智能互连系统。AMD将Infinity Fabric定义为一个接口集合,其应用范围从晶粒内到晶粒间,再到插槽间。
在Genoa架构中,Infinity Fabric通过第三代Global Memory Interface(GMI3)实现了带宽、延迟与扩展性的三维突破。GMI3总线将互连吞吐能力提升至36Gbps,较上一代GMI2的18Gbps实现翻倍,这一提升源于每周期32位数据读取与16位数据写入的优化设计,以及20:1的FCLK频率比(最高1.8GHz)。
Infinity Fabric的关键特性包括:
中央IO晶粒的PCIe初始化流程是整个多晶粒系统同步初始化的关键环节。这一过程主要包括以下几个阶段:
UCIe(Universal Chiplet Interconnect Express)协议是一种开放的晶粒互连标准,专门用于封装内的chiplet互连。UCIe 3.0版本于2025年8月5日发布,将峰值链路速度提升一倍,引入了48 GT/s和64 GT/s模式,同时增加了可管理性、功耗效率和可靠性特性,旨在为AI、HPC和网络应用扩展多晶粒系统。
UCIe协议的核心特点包括:
多模式支持:UCIe兼容流模式、PCIe和CXL等不同模式,使设计者可以根据效能、能耗或成本进行优化。这种灵活性确保UCIe能适应各种应用场景,无论是高性能计算还是低功耗嵌入式系统,都能找到适合的配置方案。
标准化接口:UCIe设定了RDI(接收数据接口)到PHY的接口以及FDI(织物数据接口)在die-to-die适配器层和协议层间的接口。这些接口涵盖了两个die间协议发现和协商所需的全部旁路信号,保证了链路初始化和操作的顺利进行。
UCIe协议规定了标准的四阶段初始化流程,确保多die系统中各die的PCIe初始化过程有序进行:
第一阶段:复位与解除复位(Stage 0)。在此阶段,每个die分别完成复位和解除复位操作。这是初始化的基础步骤,确保所有die均处于一个确定的初始状态。在实际应用中,复位操作通常涉及硬件复位、软件复位和功能复位等多个层面,每个层面都有严格的时间要求和状态验证机制。
第二阶段:检测与训练(Stage 1)。利用旁路信号进行检测与训练,建立基本通信。此阶段的核心在于通过旁路通道实现die间的初步通信,包括设备发现、能力协商、链路参数设置等。新思科技的40G UCIe IP能够利用旁路通道传输初始化指令,并依赖100MHz单参考时钟校准各die时钟,无需额外的高频时钟,使多die的PCIe初始化节奏保持一致。
第三阶段:主带宽链路训练与修复(Stage 2)。进行主带宽链路训练与修复,建立高速数据传输通道。这是整个初始化过程中最为复杂的一部分,需要完成主带宽链路的训练、信号质量优化、错误修复机制设置等关键任务。在UCIe 3.0中,新增了运行时重新校准功能,链路可以在操作期间重新调整(重用初始化状态),以在环境变化时维持效率。
第四阶段:参数协商(Stage 3)。各die的适配器层协商参数,完成最终配置。在此阶段,不同die的适配器层将就具体的协议参数进行协商,包括数据格式、传输模式、错误处理策略等。通过这种协商机制,确保了不同制造商的die能在同一系统中协同工作。
UCIe协议中的旁路信号和时钟同步机制是确保多die PCIe同步初始化的关键技术:
旁路信号机制:旁路通道是UCIe协议的重要部分,用于传输控制信息和状态信息。在UCIe 3.0中,旁路通道的范围扩大至100mm,以支持更大或更灵活的SiP拓扑结构。旁路信号的主要作用包括:设备发现与识别、链路训练控制、错误检测与恢复、电源管理控制等。新思科技的40G UCIe IP能够利用旁路通道传输初始化指令,显著提高了通道利用率。
时钟同步机制:UCIe系统使用100MHz单参考时钟校准各die时钟,无需额外的高频时钟。这种设计简化了系统的时钟架构,降低了能耗,同时确保了多die的PCIe初始化节奏保持一致。在具体实施中,UCIe控制器IP实现了RDI接口到PHY和FDI接口在die-to-die适配器层和协议层间的连接,这些接口包含了两个die间协议发现和协商所需的所有旁路信号。
时序同步要求:UCIe规定了严格的时序规则,配对的die必须在规定的毫秒级窗口内上线,否则链路超时。这种机制避免了die间的无限等待,减少了不可预见的延迟。在实际应用中,这种时序要求通过硬件计时器和软件超时机制共同实现,确保了系统初始化的可靠性。
N1SDP(Neoverse N1 System Development Platform)是基于ARM架构的多芯片开发平台,采用了主核统一调度的多die PCIe初始化模式。在此架构中,主核SCP(系统控制处理器)负责整个系统的初始化协调,通过统一的指令序列控制各个从die的PCIe初始化过程。
N1SDP平台的架构特点包括:
N1SDP平台的主要内核SCP初始化流程是一个严谨的顺序执行过程,每个阶段都有明确的指导和验证机制:
第一步:主要内核自我初始化。主要内核SCP通电启动后,首先完成自我相关配置,包括CPU初始化、内存控制器配置、通信接口初始化等基础任务。这是后续所有操作的前提,只有主要内核自我配置完成后,才能开始协调其他从die的初始化。
第二步:系统资源请求。主要内核完成自我配置后,通过PPU(电力和性能单元)请求SYSTOP通电,这是启动整个系统的关键步骤。随后进行CMN700发现和CMN RNSAM配置,构建系统的基本通信框架。
第三步:本地配置初始化。接下来进行本地DDRC(DDR控制器)和DDR PHY的配置初始化,确保主要内核有稳定的内存访问能力。然后进行PCIE CTRL配置,为主要内核自身的PCIe功能做准备。
第四步:多芯片协调初始化。完成本地配置后,主要内核通过专用通道给从die依次发送一系列PCIe初始化指令。这些指令包括:
PCIe POWER ON命令:激活从die的PCIe电源
PCIe PHY INIT命令:初始化PCIe物理层
CCIX CONFIG命令:配置CCIX(Coherent CXL)协议
PCIe CTRL INIT命令:初始化PCIe控制器
PCIe LINK TRAIN命令:进行PCIe链路训练
PCIe RC SETUP命令:设置PCIe根节点
PCIe VC1 CONFIG命令:配置PCIe虚拟通道1
CMN600 SET命令:配置CMN600互连
CMN600_XCHANGE_CREDITS命令:交换信用信息
CMN600_ENTER_SYS_COHERENCY命令:进入系统一致性模式
CMN600_ENTER_DVM_DOMAIN命令:进入动态电压频率域
GET_SLV_DDR_SIZE命令:获取从die的DDR大小
TIMER_SYNC命令:同步计时器
第五步:状态验证与同步。每发送一个指令后,主要内核都会等待从die的执行反馈,只有当所有从die都完成相应操作并返回成功状态后,才会发送下一个指令。这种同步机制确保了所有从die的操作都按照相同的速度进行,避免了时序混乱导致的系统问题。
主要内核统一调度模式的核心在于其精细的指令分发与状态反馈机制:
指令分发策略:主要内核采用顺序分发的策略,按照预设的指令序列依次向从die发送初始化指令。这种策略的优点是逻辑清晰、易于实现和调试,缺点是可能存在等待时间,影响初始化速度。在实际应用中,可以通过批量指令分发和并行执行来优化这一过程。
状态反馈机制:从die在执行完每条指令后,都会通过专用通道向主要内核反馈执行状态。状态信息包括指令执行成功/失败、执行时间、错误代码等。主要内核会根据反馈信息判断是否需要重新发送指令或进行错误处理。
超时处理机制:为了防止从die因故障或其他原因无法返回状态,系统设置了超时机制。如果主要内核在规定时间内没有收到从die的反馈,会重新发送指令或进行相应的错误处理。这种机制确保了系统的健壮性。
同步控制机制:在发送时钟同步指令之前,主要内核会等待所有从die完成前面的所有操作并同步状态。只有当所有从die的状态都达到预期后,才会发送时钟同步指令,实现所有die的PCIe初始化同步。这种严格的同步机制是确保系统正常工作的关键。
在多die系统的PCIe同步初始化中,不同的Die-to-Die互联技术各有特点,下面对Infinity Fabric、UCIe和CXL三种主流技术进行详细对比分析:
Infinity Fabric技术特点:
Infinity Fabric是AMD专有的互连技术,主要用于AMD处理器的多die和多插槽系统。其核心优势在于与AMD处理器架构的深入集成,能够提供最佳的性能表现。在Genoa架构中,Infinity Fabric通过GMI3总线实现了36Gbps的互连吞吐量,支持缓存一致性协议,通过目录式一致性机制减少跨Die访问延迟。在双路系统中,4条IF总线配置可提供128GB/s的总带宽,支持CXL 1.1+标准,可将系统内存扩展至6TB。
UCIe技术特点:
UCIe是一个开放的、跨厂商的die-to-die互连标准,由UCIe联盟管理,代表超过150个成员公司。UCIe 3.0支持48 GT/s和64 GT/s的高速模式,具备运行时重新校准、扩展的边带范围(100mm)、快速启动和控制平面等先进特性。UCIe的分层架构设计使其能够支持多种上层协议,包括PCIe、CXL和流模式,提供了极大的灵活性。
CXL技术特点:
CXL(Compute Express Link)是一种基于PCIe架构的高速连接协议,主要用于实现CPU、加速器和设备之间的一致性内存访问。CXL与UCIe的结合可能实现芯片级缓存一致性(Die-to-Die Coherency)。在多die系统中,CXL主要用于实现不同die之间的内存一致性访问,这对于高性能计算和AI应用非常重要。
| 技术特性 | Infinity Fabric | UCIe | CXL |
|---|---|---|---|
| 标准化程度 | 专有技术 | 开放标准(150+成员) | 开放标准 |
| 最高速率 | 36Gbps(GMI3) | 64 GT/s(UCIe 3.0) | 基于PCIe 5.0 |
| 一致性支持 | 支持缓存一致性 | 可支持CXL一致性 | 支持内存一致性 |
| 应用场景 | AMD处理器内部互连 | 跨厂商chiplet互连 | CPU-加速器互连 |
| 灵活性 | 与AMD架构深度绑定 | 支持多种协议模式 | 专注内存一致性 |
| 边带支持 | 专用Infinity Fabric链路 | 100mm边带通道 | 基于PCIe边带 |
从对比可以看出,Infinity Fabric在AMD生态系统内具有最佳的性能和集成度,UCIe提供了最好的开放性和灵活性,而CXL则专注于内存一致性这一特定需求。在实际的多die PCIe同步初始化中,这些技术通常结合使用,例如AMD EPYC处理器使用Infinity Fabric进行内部互连,同时支持CXL协议;而遵循UCIe协议的系统则可以同时支持PCIe和CXL协议栈。
不同的Die-to-Die互联技术适用于不同的应用场景,理解这些差异对于选择合适的技术方案至关重要:
Infinity Fabric的专有特性使其在AMD平台上能够实现最佳的性能表现,但也限制了其在其他平台的应用。在多die PCIe同步初始化中,Infinity Fabric通过其专用的控制通道和协议,能够实现非常精确的时序控制和状态同步。
UCIe的开放性和标准化特性使其成为构建开放生态系统的理想选择。在多die PCIe同步初始化中,UCIe提供了标准化的四阶段初始化流程和边带信号机制,确保了不同厂商产品之间的互操作性。
CXL专注于内存一致性这一关键需求,在需要共享内存的多die系统中具有不可替代的优势。在PCIe同步初始化中,CXL协议需要与其他互连技术结合使用,例如通过UCIe传输CXL协议栈。
在多die PCIe同步初始化中,时钟同步是确保所有die协调工作的基础。PCIe协议规定标准的参考时钟为HCSL电平的100MHz时钟,Gen1~Gen4要求收发端参考时钟精度在±300ppm以内,Gen5要求频率稳定性±100ppm。
100MHz参考时钟是PCIe系统的基础时钟,所有的PCIe Serdes都基于这个参考时钟生成所需的高速时钟。在多die系统中,所有die都必须使用相同的参考时钟源,或者使用经过精确同步的参考时钟,以确保PCIe链路训练和数据传输的准确性。
在UCIe协议的多die系统中,使用100MHz单一参考时钟校准各die时钟,无需额外高频时钟。这种设计的优势在于:
新思科技的40G UCIe IP在这方面提供了很好的实现范例,该IP能够复用边带通道传输初始化指令,并且依靠100MHz单一参考时钟校准各die时钟,让多die的PCIe初始化节奏保持同步。
PCIe标准对时钟精度有严格要求。根据PCIe规范,Gen1到Gen4要求参考时钟精度在±300ppm以内,而Gen5则要求更高的±100ppm精度。这种精度要求对于多die系统来说是一个挑战,因为不同die之间可能存在温度差异、电源波动等因素,影响时钟的稳定性。
为了达到这些精确度需求,现代多die系统通常采取以下技术:
在多die系统中,不同的die可能运行在不同的时钟域,因此时钟域转换和同步精度控制是确保PCIe同步初始化成功的重要技术:
多die系统中的时钟域转换面临以下难题:
影响多die系统时钟同步精度的主要因素包括:
为了确保多die系统的时钟同步精度,行业采用了多种技术:
链路训练和状态机(Link Training and Status State Machine, LTSSM)是PCIe协议中负责建立和维护链路连接的核心机制。在多die系统的PCIe同步初始化中,理解和掌握LTSSM的工作原理至关重要。
PCIe LTSSM共有11个顶层状态,包括:Detect、Polling、Configuration、Recovery、L0、L0s、L1、L2、HotReset、Loopback和Disable。在链路训练期间,主要完成以下任务:
正常情况下,LTSSM按照以下顺序进行状态转换:
当首次进入L0状态时,链路会切换到PCIe Gen1模式。如果双方设备都支持更高的数据传输速率,链路会立即进行Gen2、Gen3或Gen4速率的训练,确保最佳性能。
在多die系统中,LTSSM的协调面临特殊挑战:
为了解决这些问题,多die系统通常采用以下策略:
PCIe初始化参数协商是多die系统中确保所有die协调工作的关键过程,这个过程涉及多个层次的参数配置和协商:
物理层参数协商主要包括:
时钟参数:包括参考时钟频率、相位等参数的调整
在多芯片系统中,这些参数通常由主要芯片统一配置,然后通过D2D互连分发给各从属芯片。每个芯片在接收到参数后,会依据自身能力进行验证和调节,并将结果回馈给主要芯片。
协议层参数协商:
协议层参数协商涵盖:
? PCIe版本协商:确定使用的PCIe协议版本(Gen1至Gen5)
? 电源管理功能:协商支持的电源管理状态(L0s、L1、L2等)
? 错误处理机制:设定错误检测和修正机制
? 虚拟通道配置:设定虚拟通道数量和优先级
这些参数的协商通常通过PCIe配置空间的寄存器读取和写入操作来完成。在多芯片系统中,主要芯片会通过统一的配置接口对所有从属芯片进行批量配置,确保参数的一致性。
高级特性协商:
对于支持高级特性的系统,还需协商以下参数:
? CXL协议支持:若系统支持CXL,则需协商CXL相关参数
? 缓存一致性:对于支持一致性的系统,需配置一致性协议参数
? QoS(服务质量):配置服务质量参数,确保关键数据流的优先级
协商过程的同步机制:
为了确保所有芯片的参数协商过程同步,多芯片系统采用以下机制:
分阶段协商:将参数协商分为多个阶段,每阶段完成后进行状态同步
超时机制:为每个协商阶段设定超时时间,避免死锁
回滚机制:如果协商失败,可以回滚到先前的状态
重试策略:定义重试次数和重试间隔,提高协商成功率
在实际实现中,参数协商过程通常由主要芯片发起,通过D2D互连向各从属芯片发送协商请求。从属芯片接收到请求后,进行本地协商,并将结果返回给主要芯片。主要芯片会收集所有从属芯片的反馈,进行一致性检查,如果发现不一致,会重新发起协商过程。
实际应用案例分析
4.1 AMD EPYC系列处理器实现分析
4.1.1 EPYC 7000/9000系列架构演进
AMD EPYC处理器系列的发展充分展示了多芯片架构在PCIe同步初始化技术上的持续进步。从2017年推出的第一代EPYC(Naples)到最新第四代EPYC(Genoa),AMD在多芯片互连和PCIe初始化技术上取得了显著的技术突破。
EPYC 7000系列(Naples/Rome/Milan):
第一代EPYC 7001系列(Naples)采用了创新的四芯片设计,每个CPU封装包含四个芯片,不论启用的核心数量如何。AMD采用对称禁用模式,例如32核心处理器在四个芯片上均启用8个核心,24核心处理器则每个CCX禁用1个核心(每个芯片禁用2个核心)。
第二代EPYC 7002系列(Rome)在架构上进行了关键改进,中央采用14纳米IO芯片,集成了所有IO和内存功能,包括内存控制器、插槽内Infinity Fabric链路和插槽间连接,以及PCIe。单路服务器可支持多达130个PCIe Gen4通道,双路系统可支持多达160个PCIe Gen4通道。
第三代EPYC 7003系列(Milan)继续沿用了相同的基本架构,但在制造工艺和性能上进行了优化。每个插槽提供128条PCIe 4.0通道,其中64条在2P平台中用于Infinity Fabric处理器间链路。
EPYC 9004/8004系列(Genoa/Siena):
第四代EPYC处理器在多芯片架构上实现了重大突破。EPYC 9004系列(Genoa)采用了"Zen 4"核心设计,最高可配置12个CPU芯片,每个芯片包含8个核心,总计可达96个核心。EPYC 8004系列(Siena)则采用"Zen 4c"核心设计,最高可配置8个芯片,每个芯片包含16个核心,总计可达128个核心。
在制造工艺方面,Genoa实现了显著的技术进步:
? CPU芯片采用5nm工艺,晶体管密度达1.71亿/mm,比7nm提高了80%
? I/O芯片采用6nm工艺,实现28亿晶体管,支持12个CCD的高速互连
? 在保持609mm封装面积的同时,实现了96核心与1.152GB L3缓存的集成
Infinity Fabric技术演进:
从Naples到Genoa,Infinity Fabric技术实现了以下重要改进:
带宽提升:从第一代的18Gbps(GMI2)提升到第三代的36Gbps(GMI3),带宽增加一倍
延迟降低:通过优化的拓扑设计和协议改进,跨芯片访问延迟降低18%
能效提升:功耗从3.5pj/bit降低到2pj/bit,能效提高43%
一致性支持:从非一致性互连演进为支持CXL 1.1+的一致性互连
4.1.2 多芯片PCIe初始化的具体实现
AMD EPYC处理器在多芯片PCIe初始化方面采用了高度优化的实现方案,以下是具体的技术细节:
初始化流程的时序控制:
EPYC处理器的PCIe初始化采用了严格的时序控制机制。在系统上电后,中央IO芯片首先完成自身的初始化,包括:
统一的启动流程:整个超级芯片作为一个整体进行启动,而非CPU和GPU分别启动。
一致的内存启动:在启动过程中建立CPU和GPU之间的一致内存关系。
简化的PCIe设置:因大部分通信通过NVLink-C2C进行,PCIe主要负责外部设备连接,因此设置较为简便。
先进的电源管理:支持更细致的电源管理策略,可根据工作负载动态调整各die的能耗。
性能优化考量:
在PCIe启动过程中,Grace Hopper超级芯片还考虑了以下性能优化因素:
带宽预留:为NVLink-C2C预留充足的带宽,确保CPU-GPU通信不被PCIe流量干扰。
优先级管理:为不同类型的数据流设定不同的优先级,关键控制数据流享有最高优先级。
QoS保障:通过数据流整形和带宽分配,确保关键应用的性能。
热插拔支持:尽管主要用于固定配置,但仍支持部分组件的热插拔。
Intel Xeon Sapphire Rapids处理器采用了突破性的MCM(多芯片模块)设计,包含4个die,通过EMIB(嵌入式多芯片互连桥接)互连技术连接。这种设计将完整的多核处理器功能分布到4个die上,包括核心、集成北桥、内存接口、PCIe和其他I/O连接。
架构的创新设计:
Sapphire Rapids的MCM架构具有以下特征:
EMIB互连技术:
EMIB是Intel专有的die-to-die互连技术,通过在硅桥之间使用微细密集布线来减少互连延迟并增加带宽。在Sapphire Rapids中,4个die通过5个EMIB桥接器互连,这种设计确保了任意两个die之间的低延迟通信。
每个die内部采用类似前代的设计:网格互连和多个IP块在由环形总线网络连接的网格上。这种设计提供了良好的可扩展性和性能平衡。
Intel Sapphire Rapids在多die协同启动方面采用了独特的机制,以下是详细分析:
启动的复杂性挑战:
与AMD EPYC的中央IO Die架构不同,Sapphire Rapids的4个die在功能上更加均衡,每个die都包含完整的处理器子系统。这种设计带来了启动的复杂性挑战:
EMIB互连的启动:
Sapphire Rapids的启动过程中,EMIB互连的启动是关键步骤:
EMIB链路训练:在系统通电后,首先进行EMIB链路的训练和校准,确保die之间能够建立可靠的通信通道。这包括信号质量检测、时序校准、错误纠正机制配置等。
主从关系建立:在EMIB链路建立后,系统需要确定一个主die来协调整个启动过程。这个主die通常是具有特定功能的die,例如包含系统代理(System Agent)的die。
同步机制建立:通过EMIB互连建立die之间的同步机制,包括时钟同步、复位同步、状态同步等。这些机制确保了所有die能够按照统一的时序进行启动。
PCIe启动的分布式特性:
Sapphire Rapids的PCIe启动具有明显的分布式特性:
分布式PCIe控制器:4个die中的每个都有自己的PCIe控制器,总共提供128条PCIe 5.0通道。这种设计提供了更好的可扩展性和负载均衡。
统一的拓扑管理:尽管PCIe控制器分布在4个die上,但系统通过统一的拓扑管理机制,将所有PCIe设备组织成一个统一的层次结构。
并行启动:在主die的协调下,4个die的PCIe控制器可以并行进行启动,提高了整体启动效率。但这种并行需要严格的同步机制,避免资源冲突。
与AMD EPYC的对比:
Sapphire Rapids的多die启动机制与AMD EPYC有显著差异:
| 特性 | AMD EPYC | Intel Sapphire Rapids |
|---|---|---|
| 主导die | 中央IO Die | 动态指定主die |
| 互连技术 | Infinity Fabric | EMIB |
PCIe控制器集中在IO Die,分布在4个die。
初始化方式为主从模式,分布式协同。
一致性支持:支持CXL 1.1+,支持CXL 3.0。
内存控制器集成在IO Die,分布在4个die。
这种差异反映了两家公司在多die架构设计理念上的不同选择:AMD倾向于集中式控制,而Intel则选择了更为分布式的架构。
高级特性支持:
Sapphire Rapids还支持一系列高级特性,这些特性对初始化过程提出了额外要求:
技术发展趋势与展望
UCIe 3.0标准的发布标志着die-to-die互连技术进入了新的发展阶段。该标准于2025年8月5日正式发布,在性能、功能和可管理性方面实现了重大突破。
性能提升:
可管理性增强:
物理层改进:
应用前景分析:
UCIe 3.0的应用前景非常广阔,特别是在以下领域:
CXL(Compute Express Link)3.0标准的发展为多die系统带来了新的可能性,特别是在内存一致性和系统架构方面。
CXL 3.0的关键特性:
CXL 3.0标准带来了多项重要改进:
与UCIe的融合前景:
CXL协议与UCIe的深度整合代表了未来多die系统发展的重要趋势。这种融合可能实现以下技术突破:
对多die PCIe初始化的影响:
CXL 3.0与UCIe的融合将对多die PCIe初始化产生深远影响:
多die系统的高速互联技术正朝向更高带宽、更低延迟、更佳能效的方向发展,以下是几个重要的技术进步方向:
带宽提升趋势:
当前的技术进步显示了显著的带宽提升趋势。UCIe 3.0已经达到了64 GT/s的速度,而未来的目标是实现100 GT/s乃至更高。这种带宽的增长不仅表现在单个连接的速度上,也体现在连接数量的增多和并行处理能力的加强。
在具体的实施中,未来的高速互联技术将采用:
延迟优化技术:
延迟优化是高速互联技术的另一关键发展方向。未来的技术将通过以下方法减少延迟:
能效改进:
能效是多die系统设计中的一个关键考量点,未来的互联技术将在保持高性能的同时实现更优的能效:
5.2.2 多die系统集成方案
未来的多die系统集成方案将朝着更为灵活、高效、智能的方向发展:
异构集成趋势:
未来的多die系统将展现出更加明显的异构集成趋势:
这种异构集成将为系统设计提供更大的灵活性,能够根据应用需求选择最合适的组件组合。
3D堆叠技术:
3D堆叠技术将成为未来多die系统的一个重要发展方向:
智能化集成方案:
未来的多die系统集成将更加智能化:
标准化与生态系统:
未来的发展还将重视标准化和生态系统的建设:
结论与建议
6.1 多die PCIe同步初始化技术总结
通过对多die系统PCIe同步初始化技术的深入研究,我们可以总结出以下关键技术要点和发展趋势:
技术架构的多样性:
多die PCIe同步初始化技术呈现出三种主要架构模式:
关键技术机制的重要性:
多die PCIe同步初始化的成功依赖于以下关键技术机制:
100MHz参考时钟是PCIe系统的核心,多芯片系统需确保所有芯片的时钟精确度符合PCIe标准(Gen1-4为±300ppm,Gen5为±100ppm)。借助统一的参考时钟和精准的时钟校正机制,确保多芯片的PCIe初始化过程同步。
LTSSM状态机的准确实现和参数协商过程的稳定性直接影响PCIe链路的建立。在多芯片系统中,需实现复杂的协调机制,确保多个链路的训练过程不互相干扰。
不同的应用场景对多芯片PCIe同步初始化提出了不同的需求:
基于对多芯片PCIe同步初始化技术的深度分析,我们提出以下技术选择建议:
高性能计算场景:
嵌入式和边缘计算场景:
异构计算场景:
性能需求:
成本约束:
功耗要求:
标准化需求:
设计阶段:
实现阶段:
优化阶段:
关注技术标准演进:
加强生态系统建设:
重视人才培养:
通过合理的技术选择和精心的系统设计,多芯片PCIe同步初始化技术将为未来的高性能计算、人工智能和异构计算系统提供坚实的技术基础。随着技术标准的不断完善和产业生态的日益成熟,我们有理由相信,多芯片系统将在未来的计算架构中扮演越来越重要的角色。
扫码加好友,拉您进群



收藏
