Mengelola ketersediaan tinggi di Intercom
Diterbitkan: 2022-05-06Intercom adalah perusahaan yang dipimpin produk, berfokus pada memaksimalkan inovasi produk dan kecepatan pengembangan.
Itu juga berarti kami berpegang teguh pada standar operasional yang tinggi: meminimalkan biaya, dengan cepat mengatasi masalah kualitas yang muncul dalam produk yang ada, dan mengurangi risiko keamanan.
Landasan kesehatan operasional kami adalah ketersediaan. Tanpa ketersediaan yang kokoh, tidak ada hal lain yang penting. Untuk mencapai misi kami menjadikan bisnis internet pribadi dan penskalaan untuk mendukung pelanggan yang lebih besar dan lebih besar, kami telah terus-menerus, dengan penuh pertimbangan, dan hati-hati berinvestasi pada orang, sistem, dan proses kami untuk mempertahankan standar ketersediaan Intercom yang tinggi.
“Rahasia kesuksesan Intercom di bidang ini sederhana: bertahun-tahun konsisten, hati-hati, dan multi-faceted budaya, organisasi, dan pekerjaan rekayasa”
Rahasia kesuksesan Intercom di bidang ini sederhana: bertahun-tahun konsisten, hati-hati, dan multi-faceted budaya, organisasi, sistem dan pekerjaan rekayasa perangkat lunak. Inilah sebabnya mengapa pelanggan kami – mulai dari perusahaan rintisan kecil hingga perusahaan besar dan kompleks – menaruh kepercayaan mereka pada kami.
Inilah cara kami melakukannya.
Ketersediaan tertanam dalam budaya kita
Peran yang dimainkan setiap karyawan Intercom dalam mendukung ketersediaan tertanam jauh di dalam budaya kita. Untuk tim teknik, mendapatkan kode ke produksi secepat mungkin dalam batch kecil memungkinkan kami untuk belajar dan mengulangi.
Daripada memperlambat teknisi kami, kami berinvestasi dalam sistem dan membangun budaya seputar apa artinya membangun dengan cepat dan aman. Kami mendidik teknisi kami dalam kebijakan dan proses ini sepanjang karier Interkom mereka, mulai dari orientasi karyawan hingga tinjauan kinerja. Bukan hanya perubahan kode terisolasi yang dikirimkan dengan aman, seluruh proses pengiriman perangkat lunak kami bertujuan untuk memastikan bahwa, pada setiap tahap, kami membangun produk yang dapat diandalkan dan terukur secara default.
“Perangkat observabilitas kami adalah kelas dunia dan memberdayakan setiap insinyur di perusahaan untuk memahami, hingga tingkat detail terkecil, bagaimana kode yang mereka kirimkan berperilaku dalam lingkungan produksi”
Perangkat observability kami adalah kelas dunia dan memberdayakan setiap insinyur di perusahaan untuk memahami, hingga tingkat detail yang paling kecil, bagaimana kode yang mereka kirimkan berperilaku dalam lingkungan produksi. Terlepas dari semua niat terbaik kami, beberapa perubahan kode pasti akan menyebabkan masalah. Itu sebabnya kami juga berinvestasi dalam mekanisme yang memungkinkan kami untuk pulih dari masalah lebih cepat daripada yang kami terapkan.
Kami membangun fondasi teknis yang kuat
Kami membangun secara eksklusif dengan sejumlah kecil teknologi sebagai bagian dari tumpukan kami, didukung oleh tim pemberdayaan "teknologi inti" tertentu. Kami telah mengembangkan keahlian mendalam dalam teknologi ini dari waktu ke waktu, dan pilihan arsitektur serta pola implementasi kami sederhana dan terbukti. Ini berarti kami tahu apa artinya merancang dan membangun untuk keandalan, dengan solusi yang terbukti dalam skala besar.
“Kami berinvestasi dalam membangun dan memelihara sistem dan alat bersama yang mendukung kemampuan kami untuk mengirimkan kode dengan aman, dan untuk memulihkan dengan cepat jika terjadi kesalahan”
Dengan menggunakan teknologi inti ini, kami berinvestasi dalam membangun dan memelihara sistem dan alat bersama yang mendukung kemampuan kami untuk mengirimkan kode dengan aman, dan untuk memulihkan dengan cepat jika terjadi kesalahan.
Jenis otomatisasi ini memberi kami kemampuan untuk menerapkan perubahan ke sebagian kecil lalu lintas pelanggan, atau ke kumpulan pelanggan tertentu, untuk memahami dampaknya. Kami dapat dengan mudah mengaktifkan atau menonaktifkan akses pelanggan ke fitur, yang merupakan kemampuan yang berguna jika terjadi insiden. Kami juga dapat memulihkan hanya dengan memilih untuk menekan tombol untuk 'memutar kembali' ke versi kode yang berfungsi dengan aman – dalam waktu kurang dari lima menit.

Kami memelihara hubungan yang sangat erat dengan vendor infrastruktur cloud utama kami, Amazon Web Services (AWS), untuk terus bersama-sama menilai kekokohan platform infrastruktur kami dan memahami jika ada peluang untuk berkembang dan semakin memperkuat keandalan kami.
Kami mengelola risiko dan merespons secara instan saat terjadi kesalahan
Bagian dari strategi program bertujuan untuk mengidentifikasi, memprioritaskan, dan memitigasi risiko yang akan mengancam ketersediaan kami. Di dalam organisasi teknik, kami memiliki Manajer Program Teknis Ketersediaan (TPM) khusus yang menjalankan program lintas-Interkom yang didedikasikan untuk terus memperkuat dan melindungi ketersediaan kami.
“Tim program bekerja dengan manajer di seluruh Teknik untuk memahami secara mendalam setiap risiko yang kami hadapi”
Tim program bekerja dengan manajer di seluruh Teknik untuk sepenuhnya memahami risiko apa pun yang kami hadapi. Item ini kemudian diprioritaskan sebagai masukan untuk peta jalan teknik, dengan TPM membantu memastikan pekerjaan dilakukan sesuai jadwal.
Saat kami menemukan insiden yang berdampak pada pelanggan kami, platform pemantauan dan alarm kami yang ekstensif mengambilnya hampir secara instan, dan proses respons insiden kami dimulai. Pelanggan kami benar-benar global, dan itu berarti kami mendukung mereka dengan dukungan manajemen insiden dan teknik panggilan 24/7 yang berkelanjutan.
Responden darurat kami sedang online dan merespons dalam beberapa menit setelah dihubungi, bergabung dengan Komandan Insiden. Fokus langsung Komandan adalah meminimalkan dampak pelanggan, dan mereka mengoordinasikan seluruh upaya, termasuk identifikasi masalah, triase, komunikasi, dan resolusi. Ini adalah proses yang sangat disiplin dan terorganisir, didukung oleh peran dan prinsip operasi yang sangat jelas.
“Biasanya kami menyelesaikan insiden seperti itu dalam hitungan menit, memposting pembaruan ke halaman status kami sambil secara bersamaan bekerja untuk memulihkan layanan ke normal”
Biasanya kami menyelesaikan insiden seperti itu dalam hitungan menit, memposting pembaruan ke halaman status kami sambil secara bersamaan bekerja untuk memulihkan layanan. Dimulainya kembali layanan normal tentu bukan titik akhir bagi kami. Bagian penting dari proses manajemen insiden kami adalah tinjauan insiden, di mana kami mendalami penyebab dan faktor penyebab insiden dan mencari pembelajaran.
Dalam forum terbuka internal, kami akan merenungkan di mana kami mungkin telah melakukan yang lebih baik, dan mengusulkan item tindakan jangka pendek serta perubahan strategis jangka panjang. Pertemuan ini adalah salah satu yang paling bermanfaat bagi kami: pengingat bahwa menjadi benar-benar hebat membutuhkan dedikasi untuk perbaikan terus-menerus.
Apa arti fokus kami pada ketersediaan bagi pelanggan kami
Komitmen kami terhadap kesuksesan pelanggan kami berarti bahwa ketersediaan yang kokoh adalah suatu keharusan. Pendekatan holistik kami telah memungkinkan kami untuk secara signifikan melampaui target waktu kerja 99,8% selama beberapa tahun, menyediakan platform untuk pertumbuhan yang dapat dipercaya oleh semua pelanggan kami.
Ini adalah seri konten kedua yang menyelami investasi Intercom dalam mendukung perusahaan. Jelajahi artikel lain dalam seri ini.
