本文为虚构的故事,但如何规避在极端环境中的持续运维stratus或许能给到您更好的选择。
一阵急促的手机铃响起,正在吃午餐的小王急忙放下手中的碗筷,按下接听键。
“喂,是it部负责运维的小王吗?我是综合管理部的陈xx,公司erp系统宕机,请尽快帮忙处理下...”。
这是小王今天接到的公司打来的第三通电话,由于疫情暴发的原因,周边很多小区被封控了,自己去不了公司。不只是他,公司it部所有同事都处于封控状态,出了问题连一个替代的人手都没有。
这次erp系统宕机,从陈经理描述的情况看,问题比较复杂。而生产管理部门又急着等系统恢复,想到这里,小王心头压力更大了。
事不宜迟,小王急忙登录远程运维系统查看,在尝试远程开启erp服务器失败之后,基本可判断是硬件故障,初步分析原因可能是元器件损坏。正寻思着怎么解决,忽然手机铃声又响起。
“是陈经理,干脆我还是和他把情况说清楚吧。”小王一边嘀咕一边接通电话,“陈经理,情况是这样的...”。
听完小王的汇报,陈经理停顿了一会儿,然后接着说,“这个问题需要尽快解决,现在一线生产全部采取封闭管理,安排生产设备运行所需的最低的人员到岗,他们在坚持,你也不能推脱责任,给你半天时间,尽快想出办法恢复系统”,说完就挂断了电话。
沟通完,小王更加焦虑了。
正犯愁间,他忽然想到,去年机房做过一次升级改造,当时有集成商过来配合it部门做it文档迁移工作,当时存过集成商技术人员的电话。现在不妨试试,让他们过去处理行不行?
想到这,小王立马翻电话名录打了过去。终于,功夫不负有心人,集成商知道公司面临的情况,考虑后表示同意,并即刻安排人员到机房现场处理。而通完电话,小王也安排公司机房那边做好对接工作。
下午5点,机房现场的集成商打电话过来,说明了维修的情况——内存条烧毁一根,已做更换,目前erp系统已恢复正常。
集成商技术人员也与生产部门人员确认,数据没有出现丢失,但他提醒到,erp服务器老化问题要重视,已进入到故障高发期,短期内可能还会出现故障,一定要做预防准备,并给了一些建议。
这位技术人员最近经常收到客户公司打来的电话,都是因为疫情封控导致it系统得不到及时维护。而根据他这几年为企业做的系统集成实施,很多企业不再采用传统的服务器作为关键业务系统承载,而是采用stratus公司的高容错服务器平台。它不仅比传统服务器更稳定可靠,而且实施简单,部署成本低。
毕竟随着工业智能化改造升级,智能工业场景的逐渐增多。不允许出现任何非计划外停机,是很多公司对it部门提出的红线。
技术人员告诉小王,stratus的容错服务器本身就是一个具有全双工硬件的单一系统,不仅能避免任何软件和系统层面的故障,还能防止硬件故障带来的意外停机,高达99.9999%的可用性,能在任何情况下保障业务的连续性和可用性。
即使出现硬件故障,也能瞬时切换到镜像系统,保证业务的持续运行,等到解封了再到现场做硬件更换也不迟。
了解到这些,小王也陷入了沉思。他知道做it运维多年,一直都希望通过提升服务器的可用性及自主故障解决能力,来降低自己的工作量。特别是随着企业智能化改造升级的推进,系统越来越复杂,对服务器可用性要求越来越高,这种需求也变得日趋迫切。
无论是对企业还是对it运维人员,这都是非常有利的。
几天后随着疫情封控解除,小王回到公司,并在部门例会上将近期it运维的情况和想法向领导做了一次系统性汇报,说明了当前系统面临的风险,以及如何通过替换更稳定的stratus容错服务器来强化关键业务系统的稳定性。经过公司成员的充分讨论,一致同意小王的意见,而公司高层领导也认可了it部门提交的改造建议。
让业务永远在线。既是企业it运维人员的使命,也是厂商的目标。而作为全球高可用计算平台的领导者,stratus公司一直在朝此方向努力,并致力通过提升产品的可用性,降低it运维的压力,让他们做个轻松的it人。
*本文为虚构的故事,但如何规避在极端环境中的持续运维stratus或许能给到您更好的选择。
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。凯发k8官网下载的联系方式:editor@e-works.net.cn tel:027-87592219/20/21。