인터콤에서 고가용성 관리

게시 됨: 2022-05-06

Intercom은 제품 혁신 및 개발 속도 극대화에 중점을 둔 제품 주도 회사입니다.

이는 또한 비용 최소화, 기존 제품 내에서 발생하는 품질 문제의 신속한 해결, 보안 위험 완화와 같은 높은 운영 표준을 준수한다는 의미이기도 합니다.

운영 상태의 기초는 가용성입니다. 확고한 가용성이 없으면 다른 어떤 것도 중요하지 않습니다. 인터넷 비즈니스를 개인화하고 점점 더 많은 고객을 지원하도록 확장한다는 우리의 사명을 달성하기 위해 우리는 Intercom의 높은 가용성 표준을 유지하기 위해 인력, 시스템 및 프로세스에 지속적으로 신중하고 신중하게 투자해 왔습니다.

"이 영역에서 Intercom의 성공 비결은 간단합니다. 수년간 일관되고 세심하며 다면적인 문화, 조직 및 엔지니어링 작업"

이 분야에서 Intercom이 성공할 수 있었던 비결은 간단합니다. 수년간 일관되고 세심하며 다면적인 문화, 조직, 시스템 및 소프트웨어 엔지니어링 작업을 수행한 것입니다. 이것이 바로 소규모 신생 기업에서 거대하고 복잡한 기업에 이르기까지 우리 고객이 우리를 신뢰하는 이유입니다.

방법은 다음과 같습니다.

가용성은 우리 문화에 내재되어 있습니다.

각 Intercom 직원이 가용성을 지원하는 역할은 우리 문화 깊숙이 자리 잡고 있습니다. 엔지니어링 팀의 경우 소규모 배치로 가능한 한 빨리 코드를 프로덕션으로 가져오면 배우고 반복할 수 있습니다.

엔지니어의 속도를 늦추는 대신 시스템에 투자하고 빠르고 안전한 구축이 무엇을 의미하는지에 대한 문화를 구축합니다. 직원 온보딩에서 성과 검토에 이르기까지 인터콤 경력 전반에 걸쳐 이러한 정책 및 프로세스에 대해 엔지니어를 교육합니다. 안전하게 배송되는 것은 격리된 코드 변경 사항일 뿐만 아니라 전체 소프트웨어 제공 프로세스는 모든 단계에서 기본적으로 안정적이고 확장 가능한 제품을 구축하도록 하는 것을 목표로 합니다.

"우리의 관찰 가능성 도구 세트는 세계 최고 수준이며 회사의 모든 엔지니어가 생산 환경에서 코드가 어떻게 작동하는지 가장 세세한 수준까지 이해할 수 있도록 합니다."

당사의 관찰 가능성 도구 세트는 세계 최고 수준이며 회사의 모든 엔지니어가 생산 환경에서 코드가 어떻게 작동하는지 가장 세세한 수준까지 이해할 수 있도록 합니다. 그러나 우리의 최선의 의도에도 불구하고 일부 코드 변경은 필연적으로 문제를 일으킬 것입니다. 이것이 우리가 배포하는 것보다 훨씬 빠르게 문제를 복구할 수 있는 메커니즘에도 투자하는 이유입니다.

우리는 강력한 기술 기반을 구축합니다.

우리는 특정 "핵심 기술" 지원 팀의 지원을 받아 스택의 일부로 매우 적은 수의 기술만을 사용하여 독점적으로 구축합니다. 우리는 시간이 지남에 따라 이러한 기술에 대한 깊은 전문 지식을 개발했으며 아키텍처 선택과 구현 패턴은 간단하고 입증되었습니다. 이는 규모가 입증된 솔루션으로 안정성을 위해 설계하고 구축하는 것이 무엇을 의미하는지 알고 있음을 의미합니다.

"우리는 코드를 안전하게 제공하고 문제가 발생할 경우 신속하게 복구할 수 있는 능력을 뒷받침하는 공유 시스템 및 도구를 구축 및 유지 관리하는 데 투자합니다."

이러한 핵심 기술을 사용하여 코드를 안전하게 제공하고 문제가 발생할 경우 신속하게 복구할 수 있는 능력을 뒷받침하는 공유 시스템 및 도구를 구축 및 유지 관리하는 데 투자합니다.

이러한 유형의 자동화는 영향을 이해하기 위해 적은 비율의 고객 트래픽 또는 특정 고객 집합에 변경 사항을 배포할 수 있는 기능을 제공합니다. 기능에 대한 고객의 액세스를 쉽게 켜거나 끌 수 있으며, 이는 사고가 발생할 경우 유용한 기능입니다. 또한 버튼을 눌러 안전한 작업 버전의 코드 로 '롤백'하도록 선택하면 5분 이내에 복구할 수도 있습니다.

우리는 기본 클라우드 인프라 공급업체인 Amazon Web Services(AWS)와 매우 긴밀한 관계를 유지하여 인프라 플랫폼의 견고성을 지속적으로 공동으로 평가하고 안정성을 발전시키고 더욱 강화할 기회가 있는지 파악합니다.

위험을 관리하고 문제가 발생하면 즉시 대응합니다.

프로그램 전략의 일부는 가용성을 위협할 수 있는 위험을 식별, 우선 순위 지정 및 완화하는 것을 목표로 합니다. 엔지니어링 조직 내에는 가용성을 지속적으로 강화하고 보호하는 데 전념하는 크로스 인터콤 프로그램을 구동하는 전담 가용성 기술 프로그램 관리자(TPM)가 있습니다.

"프로그램 팀은 엔지니어링 전반의 관리자와 협력하여 우리가 직면한 모든 위험을 깊이 이해합니다."

프로그램 팀은 우리가 직면한 모든 위험을 완전히 이해하기 위해 엔지니어링 전반의 관리자와 협력합니다. 그런 다음 이러한 항목은 엔지니어링 로드맵에 대한 입력으로 우선 순위가 지정되며 TPM은 작업이 일정대로 수행되도록 도와줍니다.

고객에게 영향을 미치는 사고가 발생하면 광범위한 모니터링 및 경보 플랫폼이 이를 거의 즉시 감지하고 사고 대응 프로세스가 시작됩니다. 우리 고객은 전 세계에 걸쳐 있으며, 이는 우리가 연중무휴 24시간 상시 대기 엔지니어링 및 사고 관리 지원을 통해 고객을 지원한다는 것을 의미합니다.

비상 대응 요원은 온라인 상태이며 호출을 받은 후 몇 분 이내에 사고 사령관이 합류하여 대응합니다. Commander의 즉각적인 초점은 고객 영향을 최소화하는 것이며 문제 식별, 분류, 커뮤니케이션 및 해결을 포함한 전체 노력을 조정합니다. 이것은 매우 잘 정의된 역할과 운영 원칙에 의해 뒷받침되는 고도로 훈련되고 조직화된 프로세스입니다.

"일반적으로 우리는 이러한 사고를 몇 분 안에 해결하고 상태 페이지에 업데이트를 게시하는 동시에 서비스를 정상으로 복원하기 위해 노력합니다."

일반적으로 이러한 사고를 몇 분 안에 해결하고 상태 페이지에 업데이트를 게시하는 동시에 서비스 복원을 위해 노력합니다. 정상적인 서비스 재개는 확실히 우리에게 종착점이 아닙니다. 사고 관리 프로세스의 핵심 부분은 사고 검토로, 사고의 원인과 기여 요인을 심층적으로 조사하고 학습 내용을 찾습니다.

내부 공개 포럼에서 우리가 더 잘했을 수 있는 부분에 대해 반성하고 장기적 전략 변경뿐만 아니라 단기 실행 항목을 제안할 것입니다. 이 회의는 우리에게 가장 유익한 회의 중 하나입니다. 진정으로 위대해지기 위해서는 지속적인 개선에 대한 헌신이 필요하다는 것을 상기시켜줍니다.

가용성에 대한 우리의 초점이 고객에게 의미하는 것

고객의 성공에 대한 우리의 약속은 견고한 가용성이 필수라는 것을 의미합니다. 우리의 전체적인 접근 방식을 통해 우리는 수년 동안 목표 가동 시간인 99.8%를 크게 초과하여 모든 고객이 신뢰할 수 있는 성장을 위한 플랫폼을 제공할 수 있었습니다.

이것은 기업 지원에 대한 Intercom의 투자에 대해 자세히 설명하는 콘텐츠 시리즈의 두 번째입니다. 시리즈의 다른 기사를 살펴보십시오.