對講機的數據基礎架構團隊如何以可靠的原則滿足不斷增長的需求
已發表: 2022-05-06擴大公司規模從來都不是一個線性過程。 隨著您的初創公司規模擴大,團隊將遇到需要他們快速適應新需求的障礙。
這就是我們在 2020 年底找到我們的數據基礎設施團隊的地方——我們為 Intercom 的團隊提供數據和工具,以獲取洞察力並運行關鍵流程,並且比以往任何時候都更受歡迎。 在過去的幾年裡,對講機經歷了重大的發展,我們僱傭了很多非常有才華的人來幫助我們的旅程。 因此,我們公司的發展軌跡發生了迅速變化——到去年年底,我們團隊的需求比以往任何時候都高。 我們意識到,我們一直在使用的基礎設施、實踐和流程正在努力以新的規模高效運行。
數據基礎架構團隊已達到臨界點
該團隊大部分時間都在處理我們系統中出現的小問題,不斷地被動工作,而不是查看潛在問題並主動加強基礎設施——我們根本沒有時間。 作為經理,這意味著我經常不得不介入並幫助完成日常任務,而不是專注於團隊的方向、戰略和專業發展。 我們已經到了一個臨界點,很明顯有些事情必須改變。
“我們建立了一套原則,以使團隊與我們的目標保持一致並專注於我們的工作”
當我們的集團工程經理 Cormac McGuire 加入團隊時,我們退後一步,研究需要做些什麼才能讓我們重回正軌。 我們注意到過去曾遇到過阻塞團隊的幾個問題,例如知識孤島、不斷的上下文切換以及重要係統健康問題的優先級降低。 為了解決這些問題,我們制定了一套原則,使團隊與我們的目標保持一致並專注於我們的工作。
為什麼原則是我們在 Intercom 工作方式中不可或缺的一部分?
多年來,我們了解到,當我們表現最好、最快樂的團隊對工作方式進行深思熟慮和深思熟慮時,他們會更好地處理需求。 我們發現原則是擴大團隊規模並使他們保持一致的最佳方式,同時相信他們會做適合他們的事情。 我們的原則源於我們所了解的關於哪些行之有效——哪些行不通的知識。
以下是我們需要解決的最緊迫的問題,以及我們應用於每個問題的原則。
問題 1:速度優先於解決問題
我們通過快速交付項目來取悅我們的客戶,也就是我們在 Intercom 的同事,但我們沒有讓自己有足夠的時間來了解要解決的核心問題。 當先前的假設被證明不正確或我們意識到某個場景被忽略時,我們經常不得不重新審視已完成的項目。
原則 1:做得更少,做得更好
處理更少的任務意味著更少的上下文切換,並允許更深入地專注於完全理解問題。 團隊有更多空間來迭代解決方案,直到它滿足我們設定的目標。
採用“做得更少,做得更好”的原則意味著做出艱難的權衡以使團隊長期受益。 首先,我們建立了一個狀態服務,以便其他團隊可以檢查他們的數據進度,而不是與我們簽到。 這讓我們騰出時間來回答查詢,這樣我們就可以用它來處理我們的系統,並最終加快數據傳輸速度。
“我們需要專注於一件事,直到它得到解決,我們確信我們不必重新審視它。 只有這樣,我們才能繼續下一件事”
其次,我們選擇只關注日常 ELT(提取、加載、轉換)的可靠性,即每晚提取最新數據並刷新所有現有數據的過程。 我們需要專注於一件事,直到它被解決,我們確信我們不必重新審視它。 只有這樣,我們才能繼續下一件事。

問題 2:知識孤島
我們的數據基礎架構團隊很小,因此工程師通常會單獨處理項目。 如果沒有必要的上下文,團隊中的其他工程師很難審查代碼,並且如果現有服務出現問題,只有在系統上工作過的工程師才能快速解決問題。
“我們讓聰明的人同時做聰明的事情”
當那個工程師休假時,所有的工作都會停止。 我們的隊友很快就對成為一個地區的唯一負責人感到沮喪。 簡而言之,我們讓聰明的人同時做聰明的事情——我們需要創建能夠更好地支持我們的工程師的有凝聚力的流程。
原則 2:解決問題
每個解決方案都至少有兩名工程師在研究它。 分配一名工程師而不是兩名工程師並不一定會使結果的效率或質量翻倍,它只會增加故障點的風險。 當過程中包含多個觀點時,項目總是會產生更好的結果。
知道總有人回答問題或解決特定領域內的問題,減少了個別工程師的壓力,使他們更容易休假或轉移到新項目。
問題 3:系統運行狀況的優先級不足
系統健康問題是運營任何服務的重要組成部分。 然而,如果沒有一個有效的系統來對新問題進行分類和優先排序,待命工程師會主觀地決定首先要解決哪些問題。
當這些系統健康問題確實出現時,我們不願意將它們標記為最高優先級 (P1),因為我們的分析數據並非嚴格面向客戶,因此我們認為它不那麼重要。 但是,這些問題可能會影響整個系統的健康狀況,並對我們團隊的工作產生負面影響。 我們意識到我們對它們的優先級不夠高,而且隨著時間的推移,它們正在復合導致更大的問題。
原則 3:系統健康總是 P1
任何影響我們主要 SLA(服務學習協議)的系統問題都將是首要任務 (P1)。 我們需要重新考慮將問題標記為 P1 的方法; 停止將 P1 視為緊急的、阻礙客戶的緊急情況,而是將其視為重要流程的煽動者。
自實施這一原則以來,我們處理問題的效率大大提高。 系統健康問題被標記為 P1,如果值班工程師缺乏足夠的上下文來獨立解決新的 P1 問題,團隊將暫停主動工作並重新調整工作方向,直到問題完全得到解決。 該事件會自動記錄在我們的工程團隊 Slack 頻道中,這意味著整個組織中對問題有額外背景或見解的任何人都可以輸入以盡快解決問題。
對您的團隊可以處理的事情保持現實
小團隊很容易承擔太多責任,將注意力分散得太細,錯過重要的細節,從長遠來看會創造更多的工作。
做得更少、更好,並將系統健康作為我們的首要任務,這意味著我們可以建立更強大的結構來改進我們流程的其他關鍵要素,並主動而不是被動地工作。 為每個項目分配兩名工程師已經改變了我們的工作方式。 Intercom 的價值觀之一是“我們一起走得更遠”,自從我們採用這種方法以來,這已一次又一次地證明是正確的。
您對我們工作和解決問題的方式感興趣嗎? 我們很樂意與您交談——查看我們的空缺職位。