Wie das Dateninfrastruktur-Team von Intercom die wachsende Nachfrage mit soliden Grundsätzen erfüllte

Veröffentlicht: 2022-05-06

Die Skalierung eines Unternehmens ist niemals ein linearer Prozess. Wenn Ihr Startup zu einem Scale-up wird, werden Teams auf Hindernisse stoßen, die eine schnelle Anpassung an neue Anforderungen erfordern.

Dort haben wir Ende 2020 unser Dateninfrastrukturteam gefunden – wir stellen Daten und Tools für Teams in ganz Intercom bereit, um Erkenntnisse zu gewinnen und entscheidende Prozesse auszuführen, und waren gefragter denn je. Intercom ist in den letzten Jahren stark gewachsen und wir haben viele unglaublich talentierte Mitarbeiter eingestellt, die uns auf unserem Weg unterstützen. Infolgedessen hat sich unser Unternehmenskurs schnell geändert – Ende letzten Jahres verzeichnete unser Team eine höhere Nachfrage als je zuvor. Wir erkannten, dass die Infrastrukturen, Praktiken und Prozesse, die wir verwendet hatten, Schwierigkeiten hatten, in unserer neuen Größenordnung effizient zu arbeiten.

Das Dateninfrastrukturteam hatte einen Wendepunkt erreicht

Das Team verbrachte die meiste Zeit damit, sich mit kleineren Problemen zu befassen, die in unserem System auftraten, ständig reaktiv zu arbeiten, anstatt sich mit den zugrunde liegenden Problemen zu befassen, und die Infrastruktur proaktiv zu stärken – wir hatten einfach keine Zeit. Als Manager bedeutete dies, dass ich oft einspringen und bei alltäglichen Aufgaben helfen musste, anstatt mich auf die Ausrichtung, Strategie und berufliche Entwicklung des Teams zu konzentrieren. Wir hatten einen Wendepunkt erreicht, und es war klar, dass sich etwas ändern musste.

„Wir haben eine Reihe von Prinzipien aufgestellt, um das Team auf unsere Ziele auszurichten und unsere Arbeit zu fokussieren.“

Als Cormac McGuire, unser Group Engineering Manager, zum Team stieß, traten wir einen Schritt zurück und schauten uns an, was getan werden musste, um uns wieder auf Kurs zu bringen. Wir haben mehrere Probleme festgestellt, die wir in der Vergangenheit bei Blockteams gesehen haben, wie z. Um diese Probleme zu beheben, haben wir eine Reihe von Prinzipien aufgestellt, um das Team auf unsere Ziele auszurichten und unsere Arbeit zu fokussieren.

Warum sind Prinzipien ein wesentlicher Bestandteil unserer Arbeitsweise bei Intercom?

Im Laufe der Jahre haben wir gelernt, dass unsere leistungsstärksten und glücklichsten Teams besser mit Anforderungen umgehen, wenn sie nachdenklich und überlegt arbeiten. Wir sind der Meinung, dass Prinzipien der beste Weg sind, um ein Team zu skalieren und sie auf Kurs zu halten, während wir darauf vertrauen, dass sie das Richtige für sie tun. Unsere Prinzipien erwachsen aus dem, was wir darüber gelernt haben, was gut funktioniert – und was nicht.

Hier sind die dringendsten Probleme, die wir lösen mussten, und die Prinzipien, die wir auf jedes einzelne angewendet haben.

Problem 1: Geschwindigkeit über Problemlösung stellen

Wir freuten unsere Kunden, auch bekannt als unsere Kollegen bei Intercom, indem wir Projekte schnell lieferten, aber wir ließen uns nicht genug Zeit, um das zu lösende Kernproblem zu verstehen. Wir mussten oft abgeschlossene Projekte erneut überprüfen, wenn sich eine frühere Annahme als falsch herausstellte oder wir feststellten, dass ein Szenario übersehen worden war.

Prinzip 1: Weniger, besser

Die Arbeit an weniger Aufgaben bedeutet weniger Kontextwechsel und ermöglicht einen tieferen Fokus, um das Problem vollständig zu verstehen. Das Team hat mehr Raum, um die Lösung zu iterieren, bis sie die Ziele erfüllt, die wir uns vorgenommen haben.

Die Annahme des Prinzips „Weniger, besser“ bedeutete, schwierige Kompromisse einzugehen, um dem Team langfristig zu helfen. Zunächst haben wir einen Statusdienst eingerichtet, damit andere Teams den Fortschritt ihrer Daten überprüfen können, anstatt sich bei uns zu melden. Dadurch haben wir Zeit gewonnen, die wir für die Beantwortung von Anfragen aufgewendet hätten, damit wir sie für die Arbeit an unseren Systemen nutzen und letztendlich die Datenbereitstellung beschleunigen könnten.

„Wir mussten uns auf eine Sache konzentrieren, bis sie gelöst war, und wir waren uns sicher, dass wir sie nicht noch einmal aufgreifen mussten. Erst dann konnten wir zum nächsten Ding übergehen.“

Zweitens haben wir uns dafür entschieden, uns nur auf die Zuverlässigkeit unseres täglichen ELT (Extrahieren, Laden, Transformieren) zu konzentrieren, den Prozess, bei dem die neuesten Daten jede Nacht abgerufen und alle vorhandenen Daten aktualisiert werden. Wir mussten uns auf eine Sache konzentrieren, bis sie gelöst war, und wir waren uns sicher, dass wir sie nicht noch einmal aufgreifen mussten. Erst dann konnten wir zum nächsten Ding übergehen.

Problem 2: Wissenssilos

Unser Dateninfrastrukturteam ist klein, daher würden Ingenieure im Allgemeinen einzeln an Projekten arbeiten. Für andere Ingenieure im Team war es schwierig, Code ohne den erforderlichen Kontext zu überprüfen, und wenn Probleme mit bestehenden Diensten auftraten, hatte nur der Ingenieur, der am System gearbeitet hatte, das Wissen, um das Problem schnell zu lösen.

„Wir hatten schlaue Leute, die parallel schlaue Dinge taten“

Wenn dieser Ingenieur beurlaubt war, wurde die gesamte Arbeit eingestellt. Unsere Teamkollegen waren bald frustriert darüber, dass sie die einzigen Verantwortlichen für einen Bereich waren. Kurz gesagt, wir hatten intelligente Leute, die intelligente Dinge parallel erledigten – wir mussten zusammenhängende Prozesse schaffen, die unsere Ingenieure besser unterstützten.

Prinzip 2: Paaren Sie sich bei Problemen

An jeder Lösung würden mindestens zwei Ingenieure arbeiten. Die Zuweisung eines Ingenieurs anstelle von zwei verdoppelt nicht unbedingt die Effizienz oder Qualität des Ergebnisses, es erhöht nur das Risiko von Fehlerpunkten. Projekte führen immer dann zu besseren Ergebnissen, wenn mehr als eine Perspektive in den Prozess einbezogen wird.

Zu wissen, dass es immer jemanden gab, der Fragen beantwortete oder Probleme in einem bestimmten Bereich löste, reduzierte den Druck auf einzelne Ingenieure und erleichterte es ihnen, sich eine Auszeit zu nehmen oder sich neuen Projekten zuzuwenden.

Problem 3: Unterpriorisierung des Systemzustands

Systemzustandsprobleme sind ein wesentlicher Bestandteil des Betriebs eines jeden Dienstes. Ohne ein effektives System zum Selektieren und Priorisieren neuer Probleme würde der Bereitschaftstechniker jedoch subjektiv entscheiden, welche Probleme zuerst angegangen werden sollen.

Als diese Systemintegritätsprobleme auftraten, zögerten wir, sie als höchste Priorität (P1) zu kennzeichnen, da unsere Analysedaten nicht ausschließlich kundenorientiert sind und wir sie daher als weniger kritisch einstuften. Diese Probleme hatten jedoch das Potenzial, den Gesamtzustand des Systems zu beeinträchtigen und die Arbeit unseres Teams negativ zu beeinflussen. Wir stellten fest, dass wir sie nicht hoch genug priorisierten, und im Laufe der Zeit verstärkten sie sich und verursachten größere Probleme.

Prinzip 3: Systemzustand ist immer P1

Jedes Systemproblem, das unsere primären SLAs (Service Learning Agreements) betrifft, hätte höchste Priorität (P1). Wir mussten unseren Ansatz zur Kennzeichnung eines Problems als P1 überdenken; P1s nicht mehr nur als dringende, kundenblockierende Notfälle zu betrachten, sondern als Initiatoren eines wichtigen Prozesses.

Seit wir dieses Prinzip eingeführt haben, gehen wir viel effektiver mit Problemen um. Systemintegritätsprobleme werden als P1s gekennzeichnet, und wenn der Bereitschaftstechniker nicht genügend Kontext hat, um ein neues P1-Problem unabhängig zu lösen, unterbricht das Team die proaktive Arbeit und leitet seine Bemühungen um, bis das Problem vollständig verursacht und gelöst ist. Der Vorfall wird automatisch in unserem Slack-Kanal unseres Engineering-Teams aufgezeichnet, was bedeutet, dass jeder in der Organisation mit zusätzlichem Kontext oder Einblicken in das Problem etwas beitragen kann, um das Problem so schnell wie möglich zu lösen.

Schätzen Sie realistisch ein, was Ihr Team bewältigen kann

Kleine Teams übernehmen leicht zu viel, streuen ihren Fokus zu dünn und übersehen wichtige Details, die auf lange Sicht mehr Arbeit verursachen.

Weniger zu tun, besser zu sein und die Systemgesundheit als oberste Priorität zu sehen, bedeutete, dass wir robustere Strukturen aufbauen konnten, um andere Schlüsselelemente unseres Prozesses zu verbessern, und proaktiv statt reaktiv zu arbeiten. Die Zuordnung von zwei Ingenieuren zu jedem Projekt hat unsere Arbeitsweise verändert. „Wir gehen gemeinsam weiter“, das ist einer der Werte von Intercom, der sich immer wieder bewahrheitet, seit wir diesen Ansatz verfolgen.

Interessieren Sie sich für unsere Arbeitsweise und Problemlösung? Wir würden uns freuen, mit Ihnen zu sprechen – sehen Sie sich unsere offenen Stellen an.

Intercom-Karriere