“上云”已是共识,但云计算在自然界的“云”面前依旧脆弱。
7月18日18时开始,河南郑州出现罕见持续强降水天气过程。强降雨导致当地多区域电力、电信基础设施受到影响。云服务需要24小时在线,电力是其基矗断电的直接结果是,云服务受到了不同程度的冲击。
7月21日,中国移动公告称,河南部分地区受极端天气影响,枢纽机房断电,目前无法正常办理移动业务。
当天,河南本地一家名为海腾数据的服务商也在官网挂出数据中心受影响的通知。该公司称,机房由柴油发电带载,附近油站因道路积水导致无法供油到机房。考虑到存储油量有限,市电恢复时间不确定,建议用户紧急备份数据,或远程关机以避免数据受损。
7月22日,《财经》记者致电多位海腾数据人士得知,其服务依旧尚未完全恢复。出问题的郑州机房已有十余年历史,存储了当地政府、企业的数据。
此外,中国联通、中国电信也不同程度受到了影响。部分互联网公司在郑州的服务器节点出现波动。老牌网络原创文学平台晋江文学在7月20日发布公告称,主要网站业务所在的异地骨干机房在郑州市,机房因为暴雨停电暂时靠备用发电机供电,部分线路会有不稳定现象。这意味着,短时间内,晋江文学的一部分服务和用户将受到波及。
在中国企业在“上云”越来越普遍的情况下,云基础设施的7×24小时运转显得愈发重要。公司规模越大,用户越多,宕机造成的服务中断将引发越严重的后果。郑州暴雨前一周,B站、A站、豆瓣、晋江文学也曾因服务器故障服务长时间中断。尤其是中国最大的视频社区平台B站的宕机,在全网引发轰动。
人们对云宕机的容忍度几乎到了无法容忍的地步了。“水电煤”是生活必需品,云作为新一代的“水电煤”,也断不起。数据中心作为云计算的基础设施,和发电厂、自来水厂一样举足轻重。
自然灾害不可抗拒,但除了紧急启动保护措施,数据中心其实在灾害发生前有一整套“容灾备灾”的机制。如何建立这套机制,正是这次暴雨留下的最大教训。
被暴雨冲击的“云”
此次郑州暴雨来的又急又猛。
郑州市气象台数据显示,18日-20日三天降雨量617.1mm。郑州常年平均全年降雨量为640.8mm。这意味着三天下了以往一年的量。
暴雨以及随之而来的内涝直接导致电力设备崩溃了。郑州市区一座110千伏变电站被迫停止运行,部分区域生产生活用电受到影响。通信运营商是重要的受影响对象。郑州暴雨致多处通信网络中断。截至7月21日10时,郑州移动基站停电3563个,基站退服3152个。这还不包括当地的联通和电信。
如此暴雨下,云基础设施也很难独善自身。
事实上,和北京、东部沿海、南部沿海城市相比,位于中部地区的郑州并非云厂商数据中心的集中所在地。阿里云、云、百度云均未在此建设数据中心,也没有关键节点。
但郑州本地有多家云服务代理商,包括景安网络、海腾数据、亿恩网络、腾佑科技等公司。它们通常提供服务器托管、IDC加速等云计算周边服务。它们在中原地区很重要,甚至被一些三方研究报告称为本地IDC龙头企业。
简单理解,大型云厂商在全国重要区域会建设云计算的“大脑”和“骨架”,但在无法全面覆盖的其他区域,这些代理商则是提供了“血管”或是“毛细血管”的服务。
值得注意的是,他们大多位于郑州高新技术产业开发区,也就是这次暴雨核心影响区域之一。
有消息称,暴雨发生后,海腾数据在其官网挂出了数据中心受到影响的通知。该公司建议用户紧急备份数据,或远程关机以避免数据受损。记者致电海腾数据相关人士得知,断电之后,其柴油发电设备随即上线,但供油量不足,无法覆盖所有服务器。
受影响的还有景安网络,《财经》记者致电景安网络人士得知,其机房位于郑州东部的高新技术产业开发区。20日下午16时,断电导致服务器下线。截至7月21日下午18点,该公司已经通过柴油发电机紧急供电,但服务依旧不稳定。
前述的另一家郑州本地IDC服务商情况类似。这家公司也在郑州高新区。该公司有技术人士证实,其服务也因断电受到冲击。好在公司服务器都在二楼,没有被泡,不会因暴雨而不可挽回。
一位头部云厂商资深技术人士解释说,服务器被浸泡会直接导致服务中断,设备受损。严重情况下,IT设备可能直接报废。其中的数据也会遭遇无可挽回的丢失。
该技术人士认为,通常情况下,云厂商对数据中心的选址、建造都有考虑,容灾备灾技术能力相对较强。数据中心用电会有一套三级保护机制,除了正常供电外还有柴油发电、蓄电池,可以保证全年不间断供电。为避免暴雨、洪灾的影响,服务器通常会放在二楼以上。
不过,这次郑州暴雨强度太大,直接导致郑州本地部分服务商三级保护失效了。
首先是城市大规模、长时间断电。中国电网郑州供电公司此前在面对媒体“停电抢修为何这么久”的疑问时回应,大水浸泡过后的受损电力设备都需要抢修后重新做实验,保证安全的情况下才能送电。云服务商机房里的柴电设备、备用电源在长时间断电的情况下,不敢给所有机房同时开足马力。