数据中心
设计数据中心机架,保证密度、气流和安全
现代数据中心面临着前所未有的压力,这些压力来自人工智能计算、高速光纤、边缘部署以及日益增长的可持续发展限制。其结果是:更热的机架、更多的光纤端接和更快的推出,却没有更多的空间可用。本博客将探讨智能机架设计、气流控制和线缆管理策略如何在保持可维护性和运行稳定性的同时,实现密度的可持续发展。
现代数据中心正在被四股力量重塑。人工智能级计算正在推动机架功率和热密度达到前所未有的高度。爆炸式增长的流量和光互连需求正在推动 400G/800G 网络的快速升级,为每个机架带来更多的光纤终端。工作负载正在向边缘转移,运营商必须在边缘快速部署无数小型、标准化的密集站点。与此同时,不动产短缺、可持续发展要求和电网限制等因素正促使运营商对现有网络进行密集化改造,而不是扩大规模。
其结果是:更多的端口、更热的机架、更快的部署速度,而无需更多的占地面积。要满足这些需求,就必须正确处理物理层,而机架则扮演着核心角色。
机架解决方案和线缆管理
可持续密度的基础是支持高端口数的机架硬件,同时保持完全的前端可维护性。技术人员应该能够在不影响邻近电线或设备的情况下工作。
主要原则包括
- 使用垂直和水平理线器引导结构化布线。
- 保持架空或地板下通道的实际尺寸,以备将来填充。
- 防止大体积电缆侵入气流通道。
- 遵守光纤和铜缆的最小弯曲半径。
- 尽可能将电源和数据分开。
- 提供不妨碍冷却进气口的松弛存储。
操作清晰度同样重要。统一各排的标签、U 型编号和修补做法,并通过仪器、自动文档或 AIM/DCIM 集成提供支持。这将确保端口级的变更能够被检测、记录并反映在工单和票据中。
冷热通道纪律和控制
机架温度不断攀升。根据 Uptime Institute 的 2024 年全球数据中心调查,7-9 千瓦机架的份额继续增长,但人工智能/高性能计算环境已经超过 30 千瓦,而且这一趋势还在加速。AFCOM 的《2024 年数据中心现状》报告显示,平均机架密度从上一年的 8.5 千瓦上升到 12 千瓦。
适应这些负载的第一步是气流控制。布线拥挤或走线不当会导致旁路空气、再循环、热点和能源浪费。
最佳做法包括
- 前后一致地对齐设备。
- 向冷通道送风,向热通道排风。
- 使用全封闭或半封闭(排端门、顶板、遮挡板、毛刷扣眼)。
- 密封电缆开口和缝隙。
- 将穿孔地砖或供气格栅仅用于冷通道。
许多运营商在采用液体冷却之前,只需改善气流和密封性,就能尽早提高密度,不过随着负荷的增加,液体冷却解决方案也越来越普遍。
距离、净空和服务通道
密度的增加不仅体现在功率上,还体现在连接性上。2024 年,400G 和 800G 光模块的出货量几乎翻了两番,51.2T/102.4T 交换机芯片推动了高速端口的爆炸式增长。人工智能服务器进一步扩大了这一规模--每个服务器通常有 12 个以上的以太网端口,而传统 x86 服务器仅有 5-6 个。
连接器技术也在不断发展:
- VSFF 双工连接器(CS、SN、MDC)为每个 RU 提供更多端口。
- 更高密度的 MPO 格式,尤其是 MPO-16,可有效支持 SR8/DR8 应用。
但是,没有空间的密度会带来风险。操作空间不足会导致小半径弯曲、微弯和损耗增加。狭窄的机架会减慢 MAC 工作速度,增加 MTTR,并增加意外断开的风险。
建议
- 为人员、门和工具提供 ~1.2 米(4 英尺)的冷通道间隙。
- 根据设备深度,在机架后留出 0.6-1.0 米的空间。
- 使用可滑动、可上锁的托盘,将工作面靠近技术人员。
- 当密度过大时,将被动修补工作移至上方。
- 保持梯架和托盘的净空高度。
- 确保出口区域干净整洁,以保证封闭性和安全性。
当地法规、抗震要求和无障碍规则可能会提高这些最低要求。
穿孔和散热
柜门必须透气。过少的穿孔会增加压降,迫使服务器风扇加速转动,从而提高入口温度、能源使用和噪音,并恶化 PUE。背压还会促使热量通过未密封的缝隙再循环,形成热点,最终限制了机架的密度。
指导原则:
- 为风冷环境指定开放面积为 70-80% 的前门和后门。
- 在未使用的机架空间安装隔板。
- 如果建模显示有好处,可考虑使用后门热交换器、烟囱或增强隔离装置。
操作员通常试图通过撑开机柜门来解决气流问题,但这样做会破坏密封性、冷却效率和物理安全。适当的穿孔可消除这种变通办法的必要性。
汇聚一切
高密度计算和网络不必以牺牲可维护性或稳定性为代价。当机架、通道、封闭、间隙和机柜选择被设计为一个单一的集成系统时,运营商就可以安全地增加每 RU 的端口数和机架功率,同时保持第二天运行的可预测性。
指定或升级机架时的主要建议:
- 光纤密度:选择支持 ≥144 LC (UHD) 或 96 LC (HD) 的 1U 面板,并配备独立的可滑动、可锁定托盘。
- 电缆布线:使用架空配线架(≥4U)将密集配线移出有源机架;确保导轨保持弯曲半径并提供应力消除。
- 自动化:使用与 DCIM/ITSM 集成的自动化基础设施管理 (AIM),实现实时端口级可视性、工单、审计和警报。
- 铜缆:在需要时,使用 1U 48 端口 Cat6A 面板,并集成后部线缆管理、倾斜正面和铰链式百叶窗。
- 机架封套:确保机架有 19" 和 ETSI 两种规格,宽度从 600 毫米到 900 毫米不等,并有多种高度和门类型,以便与封闭策略和机房布局保持一致。
当所有这些要素共同发挥作用时,运营商就能获得所需的密度、所依赖的气流性能以及团队所需的安心运营。