Julius Neudorfer是北美接入技术有限公司(NAAT)的创始人和首席技术官。北美接入技术有限公司(NAAT)总部位于纽约州威彻斯特,其客户包括财富500强企业和政府机构。在过去的25年中,该公司致力于设计和实施数据中心基础设施及相关技术项目。
如今又到了炎热潮湿的夏季,高温天气考验着数据中心冷却系统的工作极限。尽管许多组织放弃运营内部部署数据中心,并已迁移到托管数据中心和云平台,但仍有许多中小型数据中心和服务器机房在运营。许多组织的数据中心冷却系统达到甚至超过其极限。因此,组织需要为其服务器采取一些有效的冷却措施防止过热。
因此,尽管关于美国采暖、制冷与空调工程师学会(ASHRAE)新的热指南和自然冷却技术的帖子很多,但是对于边缘计算设施的冷却技术却没有什么帮助。对于位于混合用途建筑中的服务器机房来说,这是一个常见问题,这些服务器机房没有部署大型专用冷却系统或在炎热的夏季没有足够容量的冷却系统。实际上,任何冷却系统的性能都会随着室外温度和湿度的升高而降低。许多IT部门希望其服务器在夏季中不会因过热停机而突然崩溃。
以下一些技巧和措施可能无法解决长期冷却问题,但可能会帮助数据中心安然度过夏季。在很多时候,当IT设备的实际热负荷并没有严重超过冷却系统的实际容量时,优化气流可能会改善这种情况,直到安装新的冷却系统为止。
1.如果数据中心温度上升不要惊慌。即使数据中心冷热通道的温度高达80°F,也不要惊慌。虽然这比数据中心标准温度(70°F ~72°F)要高,当然工作人员也不喜欢在这样的环境中工作,但是它对服务器的影响可能并不像人们想象的那么糟糕。如果机柜前部的最高温度为80°F或更高,则在ASHRAE的TC 9.9标准的最新推荐准则范围内,而即使进气温度稍高(高达90°F),仍在其允许范围内。
2.在服务器机柜正面的内部进行温度测量。这是服务器吸入冷空气的地方,实际上是唯一有效且最重要的温度测量方法。在服务器机柜的顶部、中部和底部获取温度读数(假设具有“热通道-冷通道”布局)。机柜顶部的温度通常是比较高的。如果机柜的底部温度较低,并且在可能的情况下,可以尝试将服务器重新布置在机柜底部(或最凉爽的区域)附近。确保使用挡板挡住机柜前面的空间和所有未使用的开放空间。这样可以防止后部的热空气再回流到机柜的前部。
3.不必担心后部温度。即使服务器机架后部温度在100°F或更高(这并不罕见),不要采用风扇对机柜后部进行冷却,这只会使更多的热空气混入冷通道中。
4.如果数据中心采用高架地板,需要确保地板的格栅或穿孔瓷砖正确地位于最热的机柜所在的位置。如有必要,需要重新布置或更换不同的地板格栅,以使气流与热负荷相匹配。注意不要将地板格栅放置在离机房空调太近的位置,这将使冷空气回流。
5.避免旁路气流。检查架空地板在机柜内部是否有开口。地板上的电缆开口将让冷空气从不需要的出口中逸出,并降低冷通道中地板通风口的冷空气流量。使用空气密闭型套件可很大程度地减少这个问题。
6. 如有可能,尽量将热负荷重新分配并均匀地分布到每个机柜上,以避免或减少“热点”。在移动服务器之前,需要检测服务器机柜顶部、中部和底部的温度。在每个机柜或每三个机柜中安装温度传感器,并在可能的情况下安装中央监控器。
7.检查机柜后部是否有阻碍排气的电缆。这将导致IT设备风扇背压过大,甚至在前面有足够的冷空气时也可能导致设备过热。对于装满1U服务器的机柜来说尤其如此,这些服务器通常有较长的电源线和网络电缆。考虑采用较短(1~2英尺)的电源线,并替换大多数服务器原有的较长电源线,并且也要使用尽可能短的网线。对机柜后部采用电缆管理措施,以免阻碍气流。
8.如果有高架管道冷却系统,需要确保冷空气出口直接位于机柜的正面,而回流管道位于热通道上方。也有一些天花板通风口和回风口位置不佳导致机房过热,但冷却系统的容量并没有超出的情况,这只是因为所有的冷空气都没有直接流到机柜的前端或未正确排出热空气。最重要的问题是避免再循环。确保来自机柜后部的热空气可以直接返回机房空间的回流口,而不会与冷空气混合。如果有增压天花板,考虑使用它来捕捉热空气,并从机房空调的顶部回风口向天花板添加通风管道。一些基本的管道工程将会对机房温度产生直接影响。实际上,回风温度越高,机房空调的效率和制冷量就越高。
9.只有在可以将热量排到外部区域时,才考虑添加临时式冷却设备。将排气管安装到可以回到机房空调的天花板上是行不通的。其新加的冷却设备热排气管必须排入受控空间之外的区域。
10.当机房没有人员工作时,需要关掉灯具。这样可以节省1%~3%的电力和热负荷,甚至可以将温度降低1℃~2℃。
11.检查是否仍然有其他设备仍然接通电源,但并没有投入生产(例如僵尸服务器)。这是相当普遍的情况,并且很容易解决,只需将其关闭即可。
12.如果机房部署了刀片服务器,则在冷却系统无法处理全部热负荷时,需要考虑激活“功率上限”功能。这可能会减慢处理器的速度,但是这与由于热关机而发生意外的服务器崩溃相比要好得多。
结语
当然,需要确保冷却系统得到了正确的维修和维护,并且所有的外部排风系统都进行了清洁。当热负荷完全超过冷却系统的容量时,虽然没有真正的快速解决办法,有时只是改善空气流量就可能会使整体效率提高5%~20%。这可能会让数据中心度过夏季最热的日子,直到可以根据需要升级或改造冷却系统为止。无论如何,这会降低能源成本,这总是一件好事。
今年持续蔓延的冠状病毒疫情使IT人员和其他支持人员在现场工作变得更加困难,使远程监视和控制比以往任何时候都更加重要。数据中心管理人员因此需要未雨绸缪,至少要在部分或全部机柜中安装一些远程温度监控器,设置警报阈值,以提供针对出现问题的预警系统。
如果其他所有方法都不奏效,则需要制定备用计划,以关闭最不重要的系统,以便更重要的服务器保持运行(例如电子邮件和财务等)。确保将最关键的IT系统放置在最凉爽的地方。这比收到高温警告或使最关键的系统意外因过热而关机要好得多。