手机站:/m

网站服务器_中国风实时大数据-ppt模板百度云_优惠

时间:2021-07-11 11:11编辑:淘客樊里来源:淘客樊里当前位置:主页 > CDN >

网站服务器_中国风ppt模板百度云_优惠

你的传呼机响了。您的服务已关闭,自动恢复过程已失败。你需要让人们参与进来才能把事情搞定。但人们反应迟钝,专业知识有限,而且容易恐慌。然而,他们是你的最后一道防线,所以你很高兴你为他们做好了应对这种情况的准备。

在谷歌,我们遵循SRE实践来确保我们服务的可靠性,在这里的客户可靠性工程(CRE)团队中,我们分享我们从帮助客户启动和运行的经验中学到的技巧和窍门。如果您阅读了我们之前关于缩小生产事件影响的文章,您可能会记得,缓解问题的时间(TTM)是指从第一响应者确认收到页面到用户不再因事件而感到痛苦的时间。今天的赛后深入到缓解阶段,重点是如何训练你的第一反应者,使他们能够在压力下做出有效反应。您还可以找到模板,以便开始在您自己的组织中测试这些方法。

了解非托管响应与未经培训的响应

有效的事件响应和缓解需要有效的技术人员和适当的事件管理。如果没有它,团队最终可能会并行地解决技术问题,而不是协同工作来缓解停机。在这种情况下,工程师执行的操作可能会恶化大修状态,因为不同的人群可能会破坏彼此的进度。完全缺乏事件响应管理就是我们所说的"未管理"。

查看现场可靠性工作手册,了解缺乏适当事件管理后果的真实示例,以及向您的组织介绍该事件管理的结构。

解决未经培训的响应问题

什么我们将重点讨论在适当建立的事件响应结构下管理响应大修的人员,但缺乏有效执行响应的培训时出现的问题。在这种"未经培训"的响应中,响应是协调的,响应者知道并理解他们的角色,但他们缺乏解决问题和确定恢复服务的缓解路径的技术准备。即使工程师们已经做好了准备,如果服务的页数非常少,或者某个人的待命轮班时间间隔很长,他们也会失去优势。

其他原因可能是软件开发的快节奏或新的服务依赖性。这些可能导致待命工程师不熟悉在大修期间工作所需的工具和程序。他们知道他们应该做什么,但他们只是不知道怎么做。

我们如何解决未经培训的反应,以尽量减少平均缓解时间(MTTM)?

通过实践活动指导反应小组

人类应对环境中的突然变化(如突发事件引起的变化)并有明确反应的方法是建立有助于模式识别的心智模型。心理学家称之为"专家直觉",它有助于在我们从未面对过的情况下确定潜在的共同点:"嗯,我没有具体认识到这一点,但我们看到的症状让我想到X。"

获得知识的最佳方式,反过来,建立长期记忆和专家直觉,不是通过一次性查看文档或视频。相反,它是通过一系列的练习,包括(但不限于)低风险的斗争。这些情况是从未见过(或至少很少见过)的问题,如果不能解决这些问题,将不会对您的服务造成严重影响。这些大脑挑战通过练习记忆检索和增加访问记忆的神经通路来帮助学习过程,从而提高分析能力。

在谷歌,我们使用两种练习来帮助我们的学习过程:灾难恢复测试(污垢)和不幸之轮。

污垢,我们在谷歌内部进行的灾难恢复测试是公司内部组织的一组协调的事件,在这些事件中,人工智能可以做什么,一组工程师计划并在规定的时间内执行真实和虚构的停机,以测试相关团队的有效响应。这些复杂的、非常规的停机是以受控的方式进行的,因此,如果测试失控,监工可以尽快将其回滚。

为了确保整个公司的行为一致,协调团队发布了一些参与规则,每个参与团队都必须遵守。这些规则包括:

所有测试均由不同于协调小组的跨职能技术小组审查和批准。在这个审查过程中特别感兴趣的一个方面是测试的总体影响。它不仅必须明确定义,而且如果有影响生产服务的高风险,测试必须由一组副总裁级别的代表批准。最重要的是要了解服务中断是运行测试的直接结果,还是某个东西失去了控制,需要停止测试以解决不相关的问题。

一些实际练习的例子包括断开完整数据中心的连接,淘客查询,中断地将流向特定应用程序的流量转移到不同的目标,修改实时服务配置,或使用已知错误启动服务。服务的弹性也通过"禁用"那些可能拥有未被记录的知识或经验的人,或者删除文档、流程元素或沟通渠道来测试。

回到过去,谷歌以不同的方式进行了肮脏的练习,对于没有专门的灾难测试团队的公司来说,这可能更为实用。最初,DiRT包含了一小部分理论测试,这些测试是由从事面向用户服务的工程师完成的,而且测试是孤立的,大数据培训班哪个好,范围非常窄:"如果对特定DNS服务器的访问中断,会发生什么?"或者"这个工程师在尝试提供这个服务时是一个单一的失败点吗?"

如何开始:基础知识

上一篇CDN_银行网站大数据算法-建设_价格

下一篇域名解析_空数据tnrt新零售企业应用中心-库是指_最新活动

云市场知识本月排行

云市场知识精选