Управление высокой доступностью в Intercom

Опубликовано: 2022-05-06

Intercom — это компания, ориентированная на продукты, которая нацелена на максимизацию инноваций и скорости разработки продуктов.

Это также означает, что мы придерживаемся высоких операционных стандартов: минимизация затрат, быстрое решение проблем с качеством, возникающих в существующих продуктах, и снижение рисков безопасности.

Основой нашего оперативного здоровья является доступность. Без надежной доступности все остальное не имеет значения. Чтобы выполнить нашу миссию по персонализации интернет-бизнеса и масштабированию для поддержки все более и более крупных клиентов, мы постоянно, вдумчиво и тщательно инвестируем в наших людей, системы и процессы для поддержания высоких стандартов доступности Intercom.

«Секрет успеха Intercom в этой сфере прост: годы последовательной, тщательной и многогранной культурной, организационной и инженерной работы»

Секрет успеха Intercom в этой области прост: годы последовательной, тщательной и многогранной культурной, организационной, системной и программной инженерии. Вот почему наши клиенты — от небольших стартапов до крупных сложных предприятий — доверяют нам.

Вот как мы это делаем.

Доступность заложена в нашей культуре

Роль, которую каждый сотрудник Intercom играет в обеспечении доступности, глубоко укоренилась в нашей культуре. Для инженерных групп максимально быстрое получение кода небольшими партиями позволяет нам учиться и выполнять итерации.

Вместо того, чтобы замедлять работу наших инженеров, мы инвестируем в системы и формируем культуру вокруг того, что значит строить быстро и безопасно. Мы обучаем наших инженеров этим политикам и процессам на протяжении всей их карьеры в Intercom, от адаптации сотрудников до оценки производительности. Безопасно доставляются не только отдельные изменения кода, весь наш процесс доставки программного обеспечения направлен на то, чтобы на каждом этапе мы создавали надежные и масштабируемые продукты по умолчанию.

«Наш набор инструментов для обеспечения наблюдаемости является первоклассным и позволяет каждому инженеру в компании понять, с мельчайшими подробностями, как код, который они отгружают, ведет себя в производственной среде».

Наш набор инструментов для обеспечения наблюдаемости является первоклассным и позволяет каждому инженеру в компании понять, с мельчайшими подробностями, как код, который они отгружают, ведет себя в производственной среде. Однако, несмотря на все наши самые лучшие намерения, некоторые изменения кода неизбежно вызовут проблемы. Вот почему мы также инвестируем в механизмы, которые позволяют нам устранять проблемы даже быстрее, чем мы развертываем.

Мы строим прочную техническую базу

Мы строим исключительно с очень небольшим количеством технологий как части нашего стека, поддерживаемого специальной группой поддержки «основных технологий». Со временем мы накопили большой опыт в этих технологиях, и наши варианты архитектуры и шаблоны реализации просты и проверены. Это означает, что мы знаем, что значит проектировать и создавать надежные решения с проверенными решениями.

«Мы инвестируем в создание и поддержку общих систем и инструментов, которые лежат в основе нашей способности безопасно поставлять код и быстро восстанавливаться в случае, если что-то пойдет не так».

Используя эти основные технологии, мы инвестируем в создание и поддержку общих систем и инструментов, которые лежат в основе нашей способности безопасно поставлять код и быстро восстанавливать его в случае возникновения каких-либо проблем.

Этот тип автоматизации дает нам возможность развертывать изменения для небольшого процента клиентского трафика или для определенного набора клиентов, чтобы понять их влияние. Мы можем легко включить или выключить доступ любого клиента к функции, что является полезной возможностью в случае возникновения инцидента. Мы также можем восстановиться, просто нажав кнопку, чтобы «откатиться» к безопасной рабочей версии кода — менее чем за пять минут.

Мы поддерживаем очень тесные отношения с нашим основным поставщиком облачной инфраструктуры, Amazon Web Services (AWS), чтобы постоянно совместно оценивать надежность нашей инфраструктурной платформы и понимать, есть ли возможности для развития и дальнейшего повышения нашей надежности.

Мы управляем рисками и мгновенно реагируем, когда что-то идет не так

Часть стратегии программы направлена ​​на выявление, определение приоритетов и снижение рисков, которые могут поставить под угрозу нашу доступность. В инженерной организации у нас есть специальный менеджер технической программы обеспечения доступности (TPM), который руководит межкомандной программой, направленной на постоянное укрепление и защиту нашей доступности.

«Команда программы сотрудничает с менеджерами отдела проектирования, чтобы глубоко понять любые риски, с которыми мы сталкиваемся»

Команда программы работает с менеджерами отдела разработки, чтобы полностью понять все риски, с которыми мы сталкиваемся. Эти элементы затем расставляются по приоритетам в качестве входных данных для инженерных дорожных карт, а TPM помогает обеспечить выполнение работ в соответствии с графиком.

Когда мы сталкиваемся с инцидентом, влияющим на наших клиентов, наши обширные платформы мониторинга и оповещения обнаруживают его почти мгновенно, и включается наш процесс реагирования на инциденты. Наши клиенты действительно глобальны, и это означает, что мы поддерживаем их непрерывной круглосуточной инженерной поддержкой и поддержкой управления инцидентами.

Наши аварийно-спасательные службы находятся в сети и реагируют в течение нескольких минут после вызова, к ним присоединяется руководитель службы экстренной помощи. Непосредственное внимание командира уделяется минимизации воздействия на клиентов, и они координируют все усилия, включая выявление проблем, сортировку, связь и решение. Это очень дисциплинированный и организованный процесс, в основе которого лежат очень четко определенные роли и принципы работы.

«Обычно мы разрешаем такие инциденты за считанные минуты, публикуя обновления на нашей странице состояния и одновременно работая над восстановлением нормального обслуживания»

Обычно мы разрешаем такие инциденты за считанные минуты, публикуя обновления на нашей странице состояния и одновременно работая над восстановлением службы. Однако возобновление нормального обслуживания, безусловно, не является для нас конечной точкой. Ключевой частью нашего процесса управления инцидентами является анализ инцидентов, когда мы глубоко погружаемся в причины и способствующие факторы инцидента и извлекаем уроки.

На внутреннем открытом форуме мы обсудим, где мы могли бы добиться большего успеха, и предложим краткосрочные действия, а также долгосрочные стратегические изменения. Эта встреча — одна из самых полезных для нас: напоминание о том, что быть по-настоящему великим — значит постоянно совершенствоваться.

Что наше внимание к доступности означает для наших клиентов

Наша приверженность успеху наших клиентов означает, что стабильная доступность является обязательным требованием. Наш целостный подход позволил нам значительно превысить целевой показатель времени безотказной работы в 99,8% в течение нескольких лет, предоставив платформу для роста, которой могут доверять все наши клиенты.

Это вторая статья из серии материалов, посвященных инвестициям Intercom в поддержку предприятий. Ознакомьтесь с другими статьями этой серии.