Gestionarea disponibilității ridicate la Intercom
Publicat: 2022-05-06Intercom este o companie condusă de produse, axată pe maximizarea inovației de produs și a vitezei de dezvoltare.
Aceasta înseamnă, de asemenea, că respectăm standarde operaționale înalte: minimizarea costurilor, abordarea rapidă a problemelor de calitate care apar în cadrul produselor existente și reducerea riscurilor de securitate.
Fundamentul sănătății noastre operaționale este disponibilitatea. Fără o disponibilitate solidă, nimic altceva nu contează. Pentru a ne îndeplini misiunea de a face afacerile pe internet personale și de a extinde pentru a susține clienți din ce în ce mai mari, am investit continuu, atent și atent în oamenii, sistemele și procesele noastre pentru a menține standardele înalte de disponibilitate ale Intercom.
„Secretul succesului Intercom în acest domeniu este simplu: ani de muncă culturală, organizațională și de inginerie consecventă, atentă și cu mai multe fațete”
Secretul succesului Intercom în acest domeniu este simplu: ani de muncă consecventă, atentă și cu mai multe fațete culturale, organizaționale, de sisteme și de inginerie software. Acesta este motivul pentru care clienții noștri – de la startup-uri mici până la întreprinderi masive și complexe – își pun încrederea în noi.
Iată cum o facem.
Disponibilitatea este încorporată în cultura noastră
Rolul pe care îl joacă fiecare angajat Intercom în susținerea disponibilității este încorporat adânc în cultura noastră. Pentru echipele de inginerie, introducerea codului în producție cât mai repede posibil în loturi mici ne permite să învățăm și să repetăm.
În loc să ne încetinim inginerii, investim în sisteme și construim o cultură în jurul a ceea ce înseamnă a construi rapid și sigur. Educăm inginerii noștri în aceste politici și procese de-a lungul carierei lor Intercom, de la integrarea angajaților până la evaluările performanței. Nu sunt doar modificările izolate ale codului care sunt livrate în siguranță, întregul nostru proces de livrare a software-ului urmărește să se asigure că, în fiecare etapă, construim produse care sunt fiabile și scalabile în mod implicit.
„Setul nostru de instrumente de observabilitate este de clasă mondială și dă putere fiecărui inginer din companie să înțeleagă, până la cel mai mic nivel de detaliu, cum se comportă codul pe care îl livrează într-un mediu de producție”
Setul nostru de instrumente de observabilitate este de clasă mondială și dă putere fiecărui inginer din companie să înțeleagă, până la cel mai mic nivel de detaliu, cum se comportă codul pe care îl livrează într-un mediu de producție. În ciuda tuturor intențiilor noastre cele mai bune, totuși, unele modificări de cod vor cauza inevitabil probleme. De aceea, investim și în mecanisme care ne permit să ne redresăm din probleme chiar mai rapid decât am implementat.
Construim baze tehnice solide
Construim exclusiv cu un număr foarte mic de tehnologii ca parte a stivei noastre, susținute de o echipă specifică de activare a „tehnologiilor de bază”. Am dezvoltat o expertiză profundă în aceste tehnologii de-a lungul timpului, iar alegerile noastre de arhitectură și modelele de implementare sunt simple și dovedite. Aceasta înseamnă că știm ce înseamnă proiectarea și construirea pentru fiabilitate, cu soluții care sunt dovedite la scară.
„Investim în construirea și întreținerea sistemelor și instrumentelor partajate care susțin capacitatea noastră de a livra codul în siguranță și de a ne recupera rapid în cazul în care ceva nu merge bine”
Folosind aceste tehnologii de bază, investim în construirea și întreținerea sistemelor și instrumentelor partajate care susțin capacitatea noastră de a livra codul în siguranță și de a ne recupera rapid în cazul în care ceva nu merge bine.
Acest tip de automatizare ne oferă posibilitatea de a implementa modificări la un procent mic din traficul clienților sau la un set specific de clienți, pentru a înțelege impactul acestuia. Putem activa sau dezactiva cu ușurință accesul oricărui client la o funcție, ceea ce este o capacitate utilă dacă are loc un incident. Ne putem recupera, de asemenea, optând pur și simplu să apăsăm butonul pentru a „revenire” la o versiune funcțională sigură a codului – în mai puțin de cinci minute.

Menținem relații foarte strânse cu furnizorul nostru principal de infrastructură cloud, Amazon Web Services (AWS), pentru a evalua în mod continuu soliditatea platformei noastre de infrastructură și pentru a înțelege dacă există oportunități de a evolua și de a ne consolida și mai mult fiabilitatea.
Gestionăm riscul și răspundem instantaneu atunci când lucrurile merg prost
O parte a strategiei programului urmărește să identifice, să prioritizeze și să atenueze riscurile care ne-ar amenința disponibilitatea. În cadrul organizației de inginerie, avem un Manager de Program Tehnic de Disponibilitate (TPM) dedicat care conduce un program de intercom încrucișat dedicat consolidării și protecției continue a disponibilității noastre.
„Echipa programului lucrează cu manageri din Inginerie pentru a înțelege în profunzime orice riscuri cu care ne confruntăm”
Echipa programului lucrează cu manageri din Inginerie pentru a înțelege pe deplin orice riscuri cu care ne confruntăm. Aceste elemente sunt apoi prioritizate ca intrări în foile de parcurs de inginerie, TPM contribuind la asigurarea că lucrările sunt efectuate conform programului.
Când întâlnim un incident care afectează clienții noștri, platformele noastre extinse de monitorizare și alarmare îl preiau aproape instantaneu, iar procesul nostru de răspuns la incident se activează. Clienții noștri sunt cu adevărat globali, iar asta înseamnă că îi sprijinim cu asistență continuă 24/7 în inginerie și management al incidentelor.
Agenții noștri de intervenție în caz de urgență sunt online și răspund în câteva minute după ce au fost contactați, alături de un comandant al incidentului. Accentul imediat al Comandantului este pe minimizarea impactului asupra clienților și ei coordonează întregul efort, inclusiv identificarea problemelor, triajul, comunicațiile și soluționarea. Acesta este un proces extrem de disciplinat și organizat, susținut de roluri și principii de funcționare foarte bine definite.
„De obicei, rezolvăm astfel de incidente în câteva minute, postând actualizări pe pagina noastră de stare în timp ce lucrăm simultan pentru a restabili serviciul la normal”
De obicei, rezolvăm astfel de incidente în câteva minute, postând actualizări pe pagina noastră de stare, în timp ce lucrăm simultan la restabilirea serviciului. Totuși, reluarea serviciului normal nu este punctul final pentru noi. O parte cheie a procesului nostru de gestionare a incidentelor este analiza incidentului, în care ne aprofundăm cauzele și factorii care contribuie la un incident și căutăm învățăminte.
Într-un forum deschis intern, vom reflecta asupra locurilor în care am fi putut fi mai bine și vom propune elemente de acțiune pe termen scurt, precum și schimbări strategice pe termen lung. Această întâlnire este una dintre cele mai benefice pentru noi: o amintire că a fi cu adevărat grozav necesită dedicare pentru îmbunătățirea continuă.
Ce înseamnă concentrarea noastră pe disponibilitate pentru clienții noștri
Angajamentul nostru față de succesul clienților noștri înseamnă că o disponibilitate solidă este o necesitate. Abordarea noastră holistică ne-a permis să depășim semnificativ timpul de funcționare țintă de 99,8% pentru un număr de ani, oferind o platformă de creștere în care toți clienții noștri pot avea încredere.
Acesta este al doilea dintr-o serie de conținut care analizează investițiile Intercom în sprijinirea întreprinderilor. Explorați alte articole din serie.
