AI 驱动下的数据中心布线优化


近年来,人工智能(AI)技术的飞速发展不仅重塑了技术边界,也对支撑其运行的基础设施提出了新的要求。本文将深入探讨AI数据中心的布线策略,分析如何优化性能和效率以应对这些新挑战。

向 AI 驱动的数据中心转变
AI 技术的普及,以 DALL-E 2 和 ChatGPT 等创新为代表,极大地影响了公众对 AI 的看法和期望。随着这些技术对各个行业越来越不可或缺,支持它们的基础设施也必须不断发展。AI 现在是数据中心增长的主要驱动力,因此需要改变这些中心的设计和运营方式。AI计算的核心在于其对高性能图形处理单元(GPU)的依赖,这些GPU专为处理复杂的并行任务而设计。训练和运行 AI 模型所需的处理能力通常超出单台机器的能力,因此需要在服务器和机架之间互连多个 GPU。这种设置在数据中心内形成 AI 集群,带来了独特的布线挑战和机遇。

架构差异:AI 与传统数据中心
传统数据中心,尤其是超大规模设施,通常采用折叠式 Clos 架构,也称为“叶脊”架构。在这种设置中,服务器机架连接到架顶式 (ToR) 交换机,然后通过光纤电缆连接到叶交换机。然而,AI集群的布线需求与传统数据中心大相径庭,这要求我们采用创新的方法来满足其对高速连接和低延迟的苛刻要求。报告中概述道:“GPU 服务器需要更多的服务器间连接,但由于功率和热量限制,每个机架的服务器数量通常较少。因此,与传统架构相比,AI 数据中心架构中的机架间布线更多。”这种布线复杂性的增加对于支持 AI 工作负载所需的更高数据传输速率是必要的,这些工作负载的传输速率范围从 100G 到 400G,而铜缆无法支持这些传输距离。

最大限度地减少 AI 集群中的延迟
在AI和机器学习(ML)算法中,延迟是一个至关重要的性能指标,因为它直接影响到大型训练模型的运行时间。为了最小化这一影响,我们必须优化网络架构,确保GPU服务器之间的连接尽可能紧密且高效。然而,并非所有数据中心都能适应这种配置,尤其是功率容量较低的老旧设施。这些中心可能需要将 GPU 机架隔开,这进一步增加了布线要求。

选择合适的收发器和光纤电缆
在选择光收发器和光纤电缆时,我们必须权衡成本、功率效率以及未来的可扩展性。并行光学技术因其成本效益和简化的部署流程而受到青睐,尤其是在需要大规模部署的AI集群中。