从3月1日到3月29日,极限仓促停站近一个月的时间,这是极限近年来发生的最严重的事故了。这次事件对极限的影响现在不想提,我想在这里给大家做一个解释说明,让大家知道究竟发生了什么事。
先说一下极限的服务器。极限使用的是一台 DELL 2950 2U机架式服务器,CPU是 XEON E5150*2,16G内存,硬盘是8块73G的SAS盘,用 DELL PERC 5i 阵列卡组成RAID5,7+1个热备,另外还加了两个1T的SATA盘组成RAID1专门做数据备份,服务器上线以来一直运行正常。
3月1日,我们对服务器进行例行检查的时候,发现有一个备份盘不知道为什么掉线了,于是让机房停机检查(因为是远程托管,所以对硬件的全部操作都要靠机房 的技术人员来实施)。按照我们服务器的配置,即便备份盘出问题,服务器也仍然可以正常运行,所以,在一开始并没有当作是太大的问题。没想到,这一停机却真 给停出问题来了。备份盘的情况还没搞清楚,机房就已经反馈说服务器无法启动,先是判断为CPU故障,后来说是主板故障,再后来又说是RAID卡故障,总之 折腾了很久,想尽各种办法,服务器就是无法正常运行。
以机房那边的技术能力,他们能做的也只有这么多,最后我们判断服务器出现的故障在机房是无法解决了。联系DELL的售后,因为机器已经过保,他们开出了高 昂的报价,我们无法接受,万般无奈,只好联系了第三方维修,又因为无法判断故障部件,只能把整台服务器发过去进行检修。为了数据的保险,在服务器发走之 前,我们特意让机房把所有硬盘卸了下来,保管在机房,恰恰是这个步骤,直接导致了后来事态的严重化。
服务器发到维修方,检查竟然没发现任何问题!之前机房跟我们所说的各种故障,都没有出现。为了以防万一,我们不得不让维修方耗费更多的时间进行运行测试, 最后的测试结果是一切正常。服务器再重新回到机房的时候,极限已经停站半个多月了。这个时候我们已经不想再去研究当时出现各种故障现象的原因了,只想着能 够尽快让服务器恢复正常运行。
机器回到机房,果然没有再出现故障现象,我们都松了一口气。既然硬件没有任何问题,那么只需要接上硬盘,让磁盘阵列原样运行起来就可以一切复原了。可意外 再一次发生,当机房重新插上8块硬盘,我们尝试导入原来的RAID配置信息时,却发现无法找到正确的阵列信息了,询问机房,这才知道遇上了更大的麻烦。
我们万万没想到的是,机房的技术人员对磁盘阵列居然没有任何处理经验,在将8块硬盘从服务器上卸下来的时候,没有做任何标记,也没有记录硬盘的插拔顺序, 而是直接把8块硬盘随意堆成了一摞。这样硬盘再插回机器上的时候,顺序已经和之前的不同了。磁盘的排列顺序对RAID5来说是很关键的因素,顺序不对,不 但阵列无法正常运行,连阵列里的数据都有可能会损毁。也就是说,现在所面临的情况比之前的服务器硬件故障更为严峻。
牵涉到了硬盘数据,而且又是很敏感的磁盘阵列,一个不慎就是灾难性的后果,我们只能找到专业人士来处理。总算幸运之神还是关照了我们,经过几天的煎熬等待,专业人士的努力再加上运气,磁盘阵列被成功找回,所有的数据没有任何损失!
在这一个月期间,我们反复检讨了造成这次事故的原因,同时做出了一些具体的举措,来避免类似情况的再发生。
最直接的,我们增加了一台新的服务器,现在论坛和极限网站群就是在这台新服务器上恢复试运行。老服务器因为硬盘还没有回来,所以暂时还没有上线。等老服务 器硬盘回来之后,两台服务器会并联运行,形成双机热备的机制,同时再加上异盘数据备份,三道保险,这样即便一台服务器彻底崩溃,网站仍然能够继续运行,数 据也无丢失之虞。
因为新服务器上线,接下来马上需要进行两台服务器的并联,所以在短时间内,极限仍然可能会出现临时性的无法访问,大家不需要担心了。
这次这么长时间的停站,对极限的负面影响不可估量,不过请大家相信,极限不会倒下,我们会继续走我们自己的路,也请大家能够继续支持极限。
非常抱歉这段时间给大家带来的困扰。





极限玩