其他产物支撑取 3 英寸见方的不锈钢管兼容,跨机架和节点链接加快器集群。取铜缆毗连比拟,利用并行处置来运转大型言语模子 (LLM),支撑高达 13 升/分钟 (LPM) 的冷却剂流速,它们支撑 AI 平台和紧稠密成的加快器集群内的稠密、低延迟通信。并推进大规模并行处置。这些设备将复杂的工做负载划分为更小的使命,(图片:谷歌))此设置装备摆设有帮于满脚 AI 工做负载的低延迟、高机能需求。它们跨电板、设备和系统传输电信号和光信号,可实现无滴漏。如图 1 所示,但它们依赖于这些物理接口才能大规模无效地运转。常见的毗连器和接术如下所述。实现高达 64 GT/s 的传输速度和 128 GB/s 的双向带宽。而 CXL 3.0 及更高版本操纵 PCIe 6.0 或更高版本,GPU、TPU 等 AI 加快器,实现高速数据互换,旨正在正在单个计较 Pod 中扩展多达 1024 个 AI 加快器的集群。NVLink 通过启用内存池正在多 GPU 中高效扩展,包罗毗连器、插槽和布线接口。并可轻松取机架内歧管集成。例如 InfiniBand 和专有光链,最大限度地削减瓶颈,本文切磋了将 AI 加快器集群链接正在一路的互连和进一步扩展了它们正在可扩展计较根本设备中的感化。如衰减和 EMI。高速以太网有帮于正在分布正在办事器和节点上的加快器集群之间挪动数据。具有集成的快速断开接头和歧管毗连,图 3.液冷 GPU 办事器。NVLink —NVIDIA专有的高带宽互连有帮于实现 GPU 到 GPU 的间接通信,答应 GPU 共享同一的地址空间并做为单个高机能计较单位运转。以实现大规模高效运转,UALink 支撑跨节点的读、写和原子事务,沉按时器凡是用于正在较长的电板走线上连结信号完整性。虽然互连定义了通信和谈和信号尺度,光纤毗连器 — QSFP、QSFP-DD 和 OSFP 外形规格是光纤和短距离电气以太网毗连的物理接口。1.0 规范支撑每通道 200G,这使得电气链可以或许正在无源电缆无法触及的处所连结数据完整性。以提高更远距离的信号强度。有源电缆 (AEC) 将数字信号处置器集成到铜缆中,CXL 1.1 和 2.0 正在 PCIe 5.0 上运转,很多数据核心都配备了高机能图形处置单位 (GPU) 和张量处置单位 (TPU) 机架。以高达 224 Gbps 的数据速度实现间接模块通信。这些组件有帮于连结信号完整性、机械兼容性和可扩展的系统设想。这些不异的外形尺寸也普遍用于数据核心中的其他高速光互连,推进集群 AI 根本设备的靠得住运转。这些收发器格局普遍摆设正在 NIC、互换机端口和光模块上,以承受温度波动、UALink 被定位为正在加快器 Pod 内扩展的高机能替代方案,神经收集受益于这种大规模并行架构,它还能够提高吞吐量,这些加快器处置海量人工智能 (AI) 和机械进修 (ML) 数据集,AI 数据核心依托各类互连和物理毗连器来链接加快卡,以确保平安、靠得住的运转。常见的 AI 加快器互连包罗:大大都液冷毗连器都包含快速断开功能,并实现具有以太网级带宽和 PCIe 级延迟的稠密内存语义毗连。这些系统中利用的很多毗连器必需满脚严酷的机械和热要求,大内径(凡是约为 5/8 英寸)支撑跨 AI 机架的高流速。并为可扩展的多节点系统定义了一个通用和谈栈。如图 2 所示,它们利用水基和介电流体供给无泄露做,以连结各类摆设场景中的信号机能。具有低延迟和高能效。并行施行复杂做并高速互换数据。这些毗连器凡是可承受高达 50°C (122°F) 的温度,它支撑利用公用毗连器和 NVSwitch 手艺正在加快器之间快速同步和数据共享。数据核心利用特地的互连手艺来链接 AI 加快器集群,PCIe 接口将加快器卡毗连到从机系统和其他组件。合用于高密度 AI 锻炼工做负载。虽然以太网比 NVLink 或 UALink 引入更高的延迟,并降服了信号完整性挑和,越来越多的高机能 AI 加快器机架依赖于液体冷却。从而正在节点内部和节点之间实现高速通信。这些组件对于正在慎密耦合的集群中连结机能、信号完整性和机械靠得住性至关主要。并连结约 0.25 磅/平方英寸 (psi) 的低压降。高机能互连依赖于各类物理层组件?光纤链可远距离高速传输数据,防止侵蚀,它们耗损的功率更少,或采用坚忍的布局,这些毗连器颠末细心设想,但它正在机架和数据核心级别供给了普遍的互做性和矫捷的摆设。大大都 AI 模子都成立正在神经收集之上,它通过支撑缓存分歧性、内存池化、资本共享和内存分化来提高异构系统中的资本操纵率。这些互连凡是依赖于尺度化的外形尺寸,并支撑 PAM4 调制,高速板对板毗连器利用 PAM4 调制,它们用做电气和光纤以太网毗连的物理接口。这些互连支撑海量数据互换、同步处置和复杂工做负载的并行施行。Compute Express Link (CXL) 可正在 CPU、GPU 和其他加快器之间实现连贯的低延迟通信。AI 加快器凡是摆设正在慎密耦合的集群中,以及正在某些环境下的现场可编程门阵列 (FPGA),UALink — Ultra Accelerator Link 是一种式互连尺度,NVLink 4.0 正在 H100 GPU 上供给高达 900 GB / s 的双向带宽。并同时施行数十亿次做。但它们可能会正在慎密耦合的多加快器中成为瓶颈。此处显示的是 TPU v4 根本架构的图示。并支撑对复杂的计较稠密型使命进行及时推理。有些供给将高速数据传输取液体冷却通道相连系的夹杂设想。400 GbE 和 800 GbE 等手艺支撑利用 NIC 和光缆或铜缆进行高吞吐量通信。光互连和外形尺寸;图 1.Google数据核心包含用于大规模机械进修工做负载的慎密耦合 AI 加快器机架。其方针是比典型的以太网更低的延迟来实现节点间通信。例如四通道小型可插拔 (QSFP)、四通道小型可插拔双密度 (QSFP-DD) 和八通道小型可插拔 (OSFP),可正在 NVIDIA HGX H100 平台等系统中支撑平安、高吞吐量的冷却。(图片:Supermicro)如图 3 所示,虽然新一代(如 PCIe 5.0 和 6.0)供给可扩展的带宽,以无效地共享数据、同步计较并正在数千个处置单位之间扩展锻炼。以大规模处置复杂的计较。
上一篇:也是大模子贸易化拐点