Intercomでの高可用性の管理
公開: 2022-05-06インターコムは製品主導の会社であり、製品の革新と開発の速度を最大化することに重点を置いています。
つまり、コストを最小限に抑え、既存の製品で発生する品質の問題に迅速に対処し、セキュリティリスクを軽減するという、高い運用基準を維持することも意味します。
運用の健全性の基盤は可用性です。 堅実な可用性がなければ、他に何も問題はありません。 インターネットビジネスを個人的にし、ますます大規模な顧客をサポートするためにスケーリングするという私たちの使命を達成するために、私たちはインターコムの高水準の可用性を維持するために、継続的、思慮深く、慎重に人、システム、およびプロセスに投資してきました。
「この分野でのインターコムの成功の秘訣は単純です。何年にもわたる一貫性のある、注意深い、多面的な文化的、組織的、エンジニアリング的作業です。」
この分野でのインターコムの成功の秘訣は単純です。何年にもわたる一貫性のある、注意深い、多面的な文化的、組織的、システム、およびソフトウェアエンジニアリングの作業です。 これが、小規模な新興企業から大規模で複雑な企業まで、お客様が私たちを信頼している理由です。
これが私たちのやり方です。
可用性は私たちの文化に組み込まれています
可用性をサポートする上でインターコムの各従業員が果たす役割は、私たちの文化に深く根付いています。 エンジニアリングチームの場合、コードを小さなバッチでできるだけ早く本番環境に移行することで、学習と反復が可能になります。
エンジニアのペースを落とすのではなく、システムに投資し、迅速かつ安全に構築することの意味を中心に文化を構築します。 従業員のオンボーディングからパフォーマンスレビューまで、インターコムでのキャリアを通じて、これらのポリシーとプロセスについてエンジニアを教育します。 安全に出荷されるのは、分離されたコード変更だけではありません。ソフトウェア配信プロセス全体は、すべての段階で、デフォルトで信頼性と拡張性のある製品を構築することを目的としています。
「当社の可観測性ツールセットはワールドクラスであり、社内のすべてのエンジニアが、出荷するコードが実稼働環境でどのように動作するかを詳細に理解できるようにします。」
当社の可観測性ツールセットはワールドクラスであり、社内のすべてのエンジニアが、出荷するコードが実稼働環境でどのように動作するかを詳細に理解できるようにします。 ただし、最善の意図にもかかわらず、一部のコード変更は必然的に問題を引き起こします。 そのため、展開するよりもさらに迅速に問題から回復できるメカニズムにも投資しています。
強力な技術基盤を構築します
スタックの一部として、特定の「コアテクノロジー」対応チームに支えられた、ごく少数のテクノロジーのみを使用して構築しています。 私たちはこれらのテクノロジーに関する深い専門知識を長年にわたって開発してきました。アーキテクチャの選択と実装パターンはシンプルで実績があります。 これは、大規模に実証されたソリューションを使用して、信頼性を考慮して設計および構築することの意味を理解していることを意味します。
「私たちは、コードを安全に出荷し、問題が発生した場合に迅速に回復する能力を支える共有システムとツールの構築と維持に投資しています。」
これらのコアテクノロジーを使用して、コードを安全に出荷し、問題が発生した場合に迅速に復旧する能力を支える共有システムとツールの構築と保守に投資しています。
このタイプの自動化により、その影響を理解するために、変更を少数の顧客トラフィックまたは特定の顧客セットに展開することができます。 機能への顧客のアクセスのオンとオフを簡単に切り替えることができます。これは、インシデントが発生した場合に便利な機能です。 また、ボタンを押してコードの安全に機能するバージョンに「ロールバック」することを選択するだけで、5分以内に回復できます。

主要なクラウドインフラストラクチャベンダーであるアマゾンウェブサービス(AWS)と非常に緊密な関係を維持し、インフラストラクチャプラットフォームの堅牢性を継続的に共同で評価し、進化して信頼性をさらに強化する機会があるかどうかを理解しています。
リスクを管理し、問題が発生した場合は即座に対応します
プログラム戦略の一部は、当社の可用性を脅かすリスクを特定し、優先順位を付け、軽減することを目的としています。 エンジニアリング組織内には、可用性を継続的に強化および保護するためのクロスインターコムプログラムを推進する専用の可用性テクニカルプログラムマネージャー(TPM)がいます。
「プログラムチームはエンジニアリング全体のマネージャーと協力して、私たちが直面しているリスクを深く理解しています」
プログラムチームは、エンジニアリング全体のマネージャーと協力して、直面しているリスクを完全に理解します。 これらの項目は、エンジニアリングロードマップへの入力として優先順位が付けられ、TPMは作業がスケジュールどおりに実行されるようにするのに役立ちます。
お客様に影響を与えるインシデントが発生すると、広範な監視およびアラームプラットフォームがほぼ瞬時にそれを検出し、インシデント対応プロセスが開始されます。 お客様は真にグローバルであり、24時間年中無休のオンコールエンジニアリングとインシデント管理のサポートでお客様をサポートします。
私たちの緊急対応要員はオンラインであり、インシデントコマンダーが加わってページングされてから数分以内に対応します。 司令官の当面の焦点は顧客への影響を最小限に抑えることであり、問題の特定、トリアージ、コミュニケーション、解決を含むすべての取り組みを調整します。 これは、非常に明確に定義された役割と運用原則に支えられた、高度に統制され組織化されたプロセスです。
「通常、このようなインシデントは数分で解決し、ステータスページに更新を投稿すると同時に、サービスを通常の状態に戻すように取り組んでいます。」
通常、このようなインシデントは数分で解決し、ステータスページに更新を投稿すると同時に、サービスの復元に取り組みます。 ただし、通常のサービスの再開は確かにエンドポイントではありません。 インシデント管理プロセスの重要な部分はインシデントレビューです。ここでは、インシデントの原因と要因を深く掘り下げ、学習内容を探します。
社内のオープンフォーラムでは、どこを改善したかを振り返り、短期的な行動項目と長期的な戦略的変更を提案します。 この会議は私たちにとって最も有益なものの1つです。真に素晴らしいものであるためには、継続的な改善への献身が必要であることを思い出させてください。
可用性に重点を置くことは、お客様にとって何を意味しますか
お客様の成功へのコミットメントは、堅実な可用性が必須であることを意味します。 私たちの全体的なアプローチにより、何年にもわたって目標の稼働時間である99.8%を大幅に超えることができ、すべてのお客様が信頼できる成長のためのプラットフォームを提供しています。
これは、企業をサポートするためのインターコムの投資に飛び込むコンテンツシリーズの2番目です。 シリーズの他の記事をご覧ください。