接管庞大凌乱的IT系统的四阶段方法

接管庞大凌乱的IT系统的四阶段方法

通过这些战略和工具集为运维团队接管复杂的基础设施提供支持。

每个人都喜欢使用最新技术构建闪亮的新系统,尤其是最现代的DevOps工具。但对于许多运维团队来说,这并不是现实,特别是那些运行拥有数百万用户和旧的复杂基础设施的大型系统的运维团队。

作为公司合并,部门整合或更改托管服务提供商(MSP)的一部分,团队接管现有系统的情况更糟。新团队必须进入并开始运行,同时保持聚焦以使用他们一无所知的混乱系统。

我们花了十年的时间在做MSP,接管和管理拥有1000万到1亿用户的系统,通常信息很少。这可能是一项艰巨的挑战,但我们的四阶段方法和相关工具使其成为可能。如果你发现自己处于类似的位置,你可能会从我们的经验中受益。

第1阶段:止血

正如任何优秀的战斗医生所知,我们的首要任务是在努力挽救病人的同时止血。这意味着与现有团队,尤其是最终用户,讨论系统最紧迫的问题。这些通常是不稳定,性能缓慢和安全问题。

通常还存在严重的隐藏问题,例如备份失败,死RAID磁盘和开放安全端口,所有这些都是我们早期追捕的。因此,除了用户的问题调查之外,我们还会对系统进行快速扫描,以寻找明显的问题。从这些调查中,我们建立了所有问题的列表 - 我们看到的问题以及我们稍后需要解决的问题。

我们还确保包括异地在内的所有备份都能正常运行并进行自己的备份,以防我们在修复问题时破坏某些内容。这种情况经常发生。

然后我们尽可能多地解决阻塞失血的问题,特别是改变配置(如果可以的话,使用我们自己的配置),关闭公共端口,修复Java堆分配,调整Apache工作人员数量等等以及设置基本的日志记录和监控,以便我们更好地了解我们看不到的内容。

我们在此阶段的第一个工具集包括我们的操作系统,服务和云审计/治理工具以及我们的深度配置管理数据库(CMDB)系统,它们为我们提供了关键问题,反模式,过载,错误配置的详细视图,打开端口,配置错误的堆和工作人员,错误的SSL等等。

我们还使用深度监控来查看实际情况。这包括监控站点可靠性工程(SRE)Golden Signals,以查看系统各个级别的速率,错误,延迟和饱和度,从磁盘到数据库,应用服务器,Web服务器以及应用程序中的每个子服务。

这种抗出血期通常需要一周到一个月。

阶段2:发现全身

一旦患者得救并且或多或少稳定,就应该找出我们所拥有的东西,特别是在所有中长期问题都存在的情况下。这一阶段的目标是发现和记录,同时修复更多的事情,并在未来几周内尽可能安全地建立一个真正的大修计划。

这一阶段的关键问题之一是弄清楚所有部件是如何相关的。即使没有微服务,这也是一个真正的挑战,特别是在老式和大型系统中,在单个主机上运行许多服务,各种类型的多个数据库在系统中浮动,加上缓存,负载平衡器,代理,NFS等等这个地方,往往与其他东西翻倍。

这一切都造成了一个非常脆弱的系统,遗憾的是,我们打破了许多系统,同时试图弄清楚它们或进行微小的调整,从而取出看似完全不相关的服务。

我们的工具集包括我们的CMDB,服务和链接发现,自动图表和日志分析系统,所有这些都让我们深入了解正在发生的事情。我们还将使用应用程序性能管理(APM)工具(如果可以的话)进一步查看代码瓶颈的位置,尤其是当我们在数据库中发现问题时。

身体发现阶段通常需要几个月。

阶段3:在比赛期间重建赛车

最后,我们必须重建系统。这通常意味着在最新的操作系统和软件版本上更换每个组件的更新版本,具有最佳实践配置,所有安全,监控和备份都正确。当然,这必须在系统运行时完成,很少或没有停机时间。理想情况下,大部分时间都在白天,因为我们从不兴奋在凌晨3点更新数十个系统,更不用说半睡半醒时发生的错误了。

我们通过精心的排序制定总体规划,以便我们可以逐件改变。理想情况下,我们在早期就添加了高可用性,因此我们可以随时将部分系统脱机。每一点都需要与大量利益相关者进行非常谨慎的协调,包括开发人员,运营,支持,帮助台,甚至营销(以避免促销期)。

我们的重建工具包包括大量精心的手动工作以及我们可以应用的许多自动化工具,包括云自动化(CloudFormation,Terraform等),配置工具(主要是Ansible)等。所有这些都与我们的服务器设计和自动构建系统相关联,使用我们针对各种服务的最佳实践配置。

这通常需要几个月到一年的时间,因为它通常依赖于繁忙的第三方,例如应用程序开发,网络和安全团队以及可能的财务审批。

第4阶段:长期管理

在我们救了病人,解决了所有问题,并在将来重建之后,我们必须保持系统正常运行,全天候管理。 这是一个全新的阶段,我们重建系统的艰苦工作得到了回报,理想情况下,从那时起它一帆风顺。实际上,随着时间的推移,大型动态系统会出现很多问题,但我们在更新架构,版本,配置,监控等方面的工作应该会在未来几年得到回报。

原文链接:

https://opensource.com/article/18/10/phase-approach-IT-systems


分享到:


相關文章: