PXle-4143 数据中心正在从风冷向液冷过渡
风冷一直都是数据中心IT机房冷却的主流方式,如果设计得当,可支持十几个千瓦甚至更高的机柜功率密度。但随着对AI训练性能的不断追求,开发人员不断提高芯片的热设计功耗,对这些芯片进行风冷变得不切实际。虽然一些服务器供应商通过重新设计芯片的散热器、增加服务器风量以及进出风温差,以不断突破风冷技术的极限,配置40-50千瓦风冷型的AI机柜,但这会使风扇的功耗呈指数级增加。例如,AI服务器风扇可以消耗高达25%的服务器功率,但传统服务器的典型值只有8%。
施耐德电气观点:
PXle-4143 芯片的冷却才是液冷的主要驱动力,20千瓦机柜功率密度是风冷和液冷相对合理的分界线。当AI机柜功率密度超过这一数值时,应重点考虑采用液冷服务器。
相较于风冷,液冷还带来了诸多好处,包括处理器可靠性和性能提升、能源效率提升、用水量减少以及噪音水平降低等等。目前,对于高密的AI服务器,供应商通常提供风冷和液冷两种方案,但对于下一代GPU,液冷将是唯一选择。
趋势四
PXle-4143 配电的安全可靠在智算中心更加重要
对于传统数据中心,不同工作负载同时达到峰值的概率极低。比如,典型的大型数据中心峰均比通常在1.5-2.0或更高。但在智算中心,由于AI训练负载缺乏变化(峰均比接近1.0),工作负载可以在峰值功率下,运行数小时、数天甚至数周。其结果是增加了上游大型断路器脱扣的可能性,以及宕机的风险。同时,由于机柜功率密度的升高,需要采用更高额定电流值的断路器、列头柜、小母线等。而在电阻变小的同时,可以通过的故障电流也就更大,这意味着IT机房出现拉弧的风险也会升高,保证该区域工作人员的安全是必须解决的难题。
PXle-4143 施耐德电气观点:
在设计阶段采用模拟软件对电力系统进行弧闪风险评估,分析可产生的故障电流,并且对可靠性进行分析,以便为特定场地设计最佳解决方案。
这项研究必须从中压开关柜分析至机柜层面,同时建议如果新建数据中心IT机房的AI训练工作负载超过60-70%,需要根据下游各馈线断路器的总和来确定主断路器的大小,设计时不再考虑同时系数。