管理对讲机的高可用性

已发表: 2022-05-06

Intercom 是一家以产品为主导的公司,专注于最大限度地提高产品创新和开发速度。

这也意味着我们坚持高运营标准:最大限度地降低成本、快速解决现有产品中出现的质量问题以及降低安全风险。

我们运营健康的基础是可用性。 没有坚如磐石的可用性,其他一切都不重要。 为了实现我们的使命,使互联网业务变得个性化并扩展以支持越来越大的客户,我们一直在持续、深思熟虑和谨慎地投资于我们的人员、系统和流程,以保持对讲机的高可用性标准。

“对讲机在这一领域取得成功的秘诀很简单:多年来始终如一、谨慎且多方面的文化、组织和工程工作”

Intercom 在这一领域取得成功的秘诀很简单:多年来始终如一、谨慎且多方面的文化、组织、系统和软件工程工作。 这就是为什么我们的客户——从小型初创公司到大型复杂企业——都信任我们。

这是我们如何做到的。

可用性植根于我们的文化

每个对讲机员工在支持可用性方面所扮演的角色深深植根于我们的文化中。 对于工程团队来说,尽可能快地以小批量将代码投入生产可以让我们学习和迭代。

我们不会放慢我们的工程师的速度,而是投资于系统并围绕快速安全构建的意义建立一种文化。 我们在工程师的整个对讲机职业生涯中,从员工入职到绩效评估,对这些政策和流程进行教育。 安全交付的不仅仅是孤立的代码更改,我们的整个软件交付过程旨在确保在每个阶段,我们都在构建默认情况下可靠且可扩展的产品。

“我们的可观察性工具集是世界一流的,让公司的每一位工程师都能以最细微的细节了解他们发布的代码在生产环境中的行为方式”

我们的可观察性工具集是世界一流的,使公司中的每一位工程师都能以最细微的细节了解他们发布的代码在生产环境中的行为方式。 然而,尽管我们的意图是最好的,但一些代码更改将不可避免地导致问题。 这就是为什么我们还投资于使我们能够比我们部署更快地从问题中恢复的机制。

我们建立强大的技术基础

我们仅使用极少数技术作为堆栈的一部分进行构建,并由特定的“核心技术”支持团队提供支持。 随着时间的推移,我们在这些技术方面积累了深厚的专业知识,我们的架构选择和实施模式简单且经过验证。 这意味着我们知道设计和构建可靠性意味着什么,以及经过大规模验证的解决方案。

“我们投资于构建和维护共享系统和工具,这些系统和工具支持我们安全交付代码的能力,并在出现任何问题时快速恢复”

使用这些核心技术,我们投资于构建和维护共享系统和工具,以支持我们安全交付代码的能力,并在出现任何问题时快速恢复。

这种类型的自动化使我们能够将更改部署到一小部分客户流量或一组特定客户,以了解其影响。 我们可以轻松地打开或关闭任何客户对功能的访问,如果发生事件,这是一个有用的功能。 我们还可以通过简单地选择按下按钮“回滚”到代码的安全工作版本来恢复 - 在不到五分钟的时间内。

我们与我们的主要云基础设施供应商 Amazon Web Services (AWS) 保持着非常密切的关系,以不断共同评估我们基础设施平台的稳健性,并了解是否有机会发展并进一步加强我们的可靠性。

我们管理风险并在出现问题时立即做出反应

该计划战略的一部分旨在识别、优先考虑和减轻可能威胁我们可用性的风险。 在工程组织内,我们有一个专门的可用性技术项目经理 (TPM),负责推动一个致力于不断加强和保护我们的可用性的跨内部通信项目。

“项目团队与工程部门的经理合作,深入了解我们面临的任何风险”

项目团队与工程部门的经理合作,以充分了解我们面临的任何风险。 然后将这些项目优先作为工程路线图的输入,TPM 有助于确保工作按计划进行。

当我们遇到影响客户的事件时,我们广泛的监控和警报平台几乎会立即进行处理,并且我们的事件响应流程会启动。 我们的客户是真正的全球客户,这意味着我们为他们提供持续的 24/7 待命工程和事件管理支持。

我们的应急响应人员在线,并在被寻呼后几分钟内做出响应,并由事件指挥官加入。 指挥官的当务之急是尽量减少对客户的影响,他们协调整个工作,包括问题识别、分类、沟通和解决。 这是一个高度纪律和有组织的过程,以非常明确的角色和操作原则为基础。

“通常我们会在几分钟内解决此类事件,将更新发布到我们的状态页面,同时努力恢复服务正常”

通常,我们会在几分钟内解决此类事件,将更新发布到我们的状态页面,同时努力恢复服务。 不过,恢复正常服务当然不是我们的终点。 我们事件管理流程的一个关键部分是事件审查,我们深入研究事件的原因和促成因素,并寻找经验教训。

在内部开放论坛上,我们将反思我们可能做得更好的地方,并提出短期行动项目以及长期战略变革。 这次会议对我们来说是最有益的会议之一:提醒我们真正伟大需要致力于持续改进。

我们对可用性的关注对我们的客户意味着什么

我们对客户成功的承诺意味着坚如磐石的可用性是必须的。 多年来,我们的整体方法使我们的正常运行时间大大超过了 99.8% 的目标,为我们的所有客户提供了一个可以信任的增长平台。

这是深入探讨 Intercom 在支持企业方面的投资的系列内容中的第二个。 探索该系列中的其他文章。