苏州市干将路303号创意产业园

0512-3565 6563

Jackjones@kuaidata.com

联系客服

数据中心托管服务/管理式网络

服务:

400 651 8888

微软云服务:

400 089 2448

markjune@kuaidata.com

内容分布式网络服务:

400 811 0278

云集成与合作:

cloud@kuaidata.com

公司新闻

从812到新冠战疫,数据中心该如何从自愈到自救?

2020-02-17

我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。

冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。

得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。

地震可以有,只要烈度不超8,能扛;断电、停水,即便两个一起来,两三天内,能扛;台风,有预案,能扛;雷暴,有防雷接地系统呢,能扛……

至于设备级的故障,那更是数据中心设计中“并行维护”的起步要求,甚至允许多台设备故障神奇地同时发生。

数据中心如何智能化运维管理?

数据中心是具备自愈能力的

病毒进入人体,就是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮助,只好选择送人头;自愈能力强,病毒不知不觉就被干掉了。

那么,既然有这么强大的自愈能力,数据中心还怕什么呢?

当然怕。最怕那种不在应急预案覆盖范围内的、起源于外部的不可抗力事件

五年前发生在天津的812大爆炸,以及眼下的新冠病毒之战,就属于这类事件。

关于812事件详情这里就不再赘述了,有兴趣的同学可以通过《没有观众的裸奔》重温一下痛苦记忆。天津数据中心离爆炸核心不到1.5公里,受到极大破坏。

爆炸声落,数据中心内即发现8处故障点,其中包括冷水机组停机、爆管、地下室水浸这样的严重故障。

只要应急预案能覆盖的场景,处理起来就可以有条不紊。80分钟后,8处故障全部处理完毕,各系统运行平稳。当然,光有预案还不够,就像我们在事后反复强调的,应急预案和平时不折不扣的演习,关键时候才是救命稻草。

第一时间处理好故障,是数据中心的本分,也是其自愈能力的展示舞台。但第一天还远不是高潮,随后发生的一系列事情,才让这一天天的值守,变得特别漫长。

绝大多数情况下,数据中心依靠自身的自愈能力来消除风险,是不需要外部帮助的。但到了“大敌当前大局为重”的关口,一旦事件升级,当政府不得不上门来“帮助”你时,问题就来了。

清场之后,偌大的天津数据中心没有一个人影;我们经常挂在口边的“无人值守”,陡然一下成为了现实。

此情此景,如何自救?很显然,有一个完整精确随时随地可登入允许关键运行参数远程修正的数据中心监管控系统,此时显得多么的重要……此处省略666字。关于当年天津是怎么做的,可参阅上述文章《没有观众的裸奔》。

天津数据中心虽然扛过了812的考验,但也暴露出若干问题。尤其是无人值守的全面管控能力。

我们常说,教训比经验更值得珍视。经此一役,腾讯在数据中心自动化系统方面加大投入,集中优势兵力很快推出了“腾讯智维”监管控平台,并开源共享给全行业。详情请了解《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》。

因此,在年前新冠病毒还没有真正爆发的时候,我们在全国每一个数据中心,已经提前做好了无人值守的准备。极端情况下政府干预清场后,可能会有一段不短的时间需要启动“无人预案”。

类似的极端场景,可能还包括化工厂泄漏监狱暴动等只能靠想象预判的不可抗力事件。

这一年的春节,每个中国人都过得不凡。

丑陋的半兽人“新冠”携病毒大军兵临城下,全国的数据中心和中土所有部落一起,都在打一场保卫战。

信息报备、100%跟踪、无死角消杀、内外物理隔离、一级无差别严控……只要能想到的,只要病毒有可乘之机的,一定可以做到极致的严防死守

但也有些地方可能被我们忽视了。比如数据中心值守人员的心理状态。我们说数据中心的自救,除了无人值守能力,其实也包括心理干预。

尤其是时间越拖越长,保卫战变成巷战,甚至进一步变成持久战的情况下。外面谣言满天飞,里面的人这一天天的,就会变得焦虑、敏感、消沉。

当然,“咱们运维团队心理素质过硬着呢,请全国人民放心”。这是两回事。“扛”是决心,可对数据中心来说,主观上要保证团队每一个人的健康完好,客观上更要保障数据中心的安全运行;毕竟,人在焦躁状态下,很容易出现误操作……

至于怎么做心理干预,我党我军有很多行之有效的办法,就不在这里班门弄斧了。该政委上场了。

战疫之下的数据中心自救,自然是各有各的做法,各自各精彩。腾讯数据中心友情提醒各位同行:做好无人值守技术准备;关注值守人员心理健康