هل يعاني فريقك الهندسي من إجهاد التنبيه؟ اطرح هذه الأسئلة الثمانية
نشرت: 2022-05-06يُعد إجهاد التنبيه مشكلة شائعة بين الفرق الهندسية التي تتعامل مع العمليات وتحافظ على البنية التحتية.
تنبع المشكلة عادةً من نهج عشوائي لكتابة التنبيهات مع نمو الفرق والبدء في استخدام المزيد من البنية التحتية ذات التعقيد المتزايد. هذا أمر طبيعي تمامًا - مع نمو شركة أو فريق ، غالبًا ما يستغرق الأمر وقتًا حتى تتشكل ثقافة الملاحظة وممارسات التنبيه القوية.
من السهل إنشاء تنبيهات حساسة للغاية وصاخبة للغاية وحذرة للغاية. في البداية ، كل شيء يبدو أنه يستحق التنبيه لمجرد أنه من الأفضل توخي الحذر وتعظيم إشارة الإنتاج في المراحل الأولى من المنتج.
"نظرًا لتزايد عدد الميزات والبنية التحتية ومدى تعقيدها ، يكون تحسين التنبيهات عادةً في أسفل قائمة الأولويات"
بطبيعة الحال ، لا يتم قياس هذا النهج جيدًا ، ولكن مع نمو عدد الميزات والبنية التحتية وتعقيدها ، يكون تحسين التنبيهات عادةً في أسفل قائمة الأولويات. والنتيجة هي الكثير من التنبيهات شبه ذات المعنى والضوضاء وتبديل السياق وتعدد المهام للمهندس تحت الطلب. في الحالات القصوى ، ينفجر زملائك في الفريق ، ويتم تجاهل التنبيهات ، ويتحول فريقك تحت الطلب من تحسين جودة الخدمة إلى مكافحة الحرائق باستمرار دون أي تأثير ذي مغزى.
مثل جميع الشركات ، فإن Intercom ليست محصنة ضد أوجه القصور هذه. لذلك ابتكرنا عملية خفيفة الوزن نسبيًا لمحاربة إجهاد التنبيه.
كيف نفكر في استراتيجية التنبيه
يعتبر مفهوم "نظام التنبيه" في صميم التحكم في التنبيهات. مثل عمل الميزة ، يجب التعامل مع التنبيهات وإستراتيجية التنبيه بطريقة منظمة ومدروسة. على عكس عمل الميزة ، فإنه ليس شيئًا يمكن التخطيط له جيدًا مسبقًا.
بعد كل شيء ، من المستبعد جدًا أن تكون قادرًا على التنبؤ بالصحة التشغيلية والضوضاء التشغيلية لميزتك الجديدة قبل شحنها. يجب عليك مراقبة التنبيهات بطريقة منتظمة ومخططة بحيث لا يتسلل الكد التحذيري إلى مستويات غير مستدامة.
8 أسئلة يجب طرحها عند تقييم تنبيهات فريقك
قدمنا جلسات مراجعة تنبيه منتظمة للفرق التي تتعامل مع التنبيهات المتكررة. حدثت هذه في البداية مرة واحدة - أو عدة مرات - لكل دورة هندسية مدتها ستة أسابيع ، ولكنها أصبحت متباعدة مع تحسن حالة التنبيهات والشاشات إلى مستوى أكثر قابلية للإدارة.
تبدأ كل جلسة مراجعة تنبيه بقائمة مرتبة من التنبيهات التي تم إطلاقها في الفترة السابقة ، مرتبة حسب تكرار إطلاقها. نحن نستخدم منصة PagerDuty كمصدر تنبيه خاص بنا ، وتوفر لنا ميزات التحليلات المعلومات التي نحتاجها لكسر وتيرة التنبيه والاستجابة لها. تتم مراجعة التنبيهات التي تساهم بشكل أكبر في الضوضاء الإجمالية (أي الحرائق بشكل متكرر) أولاً.
يتم بعد ذلك تمرير كل تنبيه من خلال قائمة مراجعة بالأسئلة:
1. هل لا يزال التنبيه مناسبًا؟
يجب ألا تزعج أي تنبيهات يتم تشغيلها بواسطة أنظمة قديمة أو لم تتم صيانتها المهندس تحت الطلب ويجب إزالتها على الفور.
2. هل التنبيه قابل للتنفيذ؟
إذا تلقى مهندس تحت الطلب التنبيه ، فهل يمكنه فعل شيء في الوقت الحالي لإصلاح السبب الأساسي أو تحسينه؟ إذا لم يكن التنبيه قابلاً للتنفيذ ومفيدًا ، فيجب إزالته. قد يكون الملخص الأسبوعي للمشكلات أو تدهور الأداء مكانًا أفضل للمعلومات داخل التنبيه.
3. هل المعلومات الواردة في التنبيه مفيدة على الفور حتى لو لم تكن قابلة للتنفيذ؟
يمكننا تقسيم معلومات التنبيه إلى فئتين رئيسيتين.
- الإشارات: تحذر هذه التنبيهات من وجود نظام يعمل بأقصى حد له ، ولكنها لا تعني بالضرورة تأثر الخدمة. من الأمثلة على ذلك أحد الخوادم التي تعمل بوحدة المعالجة المركزية بنسبة 100٪. إذا كانت الخدمة لا تزال تعمل بشكل جيد ، فهل ينبغي عند الاتصال قضاء وقت ثمين في التحقيق؟ بعد كل شيء ، يقوم الخادم الخاص بك بأداء أفضل نسبة عمل مقابل تكلفة!
- الأعراض: تنطلق هذه التنبيهات عندما تتأثر تجربة العميل. مثال على ذلك هو عدد أخطاء HTTP 5XX التي تعيدها خدمتك إلى المتصلين.
هاتان الفئتان تعملان بشكل أفضل في ترادف. يجب على الشخص عند الاتصال أن يتفاعل ويستكشف الأعراض ، وأن ينظر إلى الإشارات كمصدر إضافي للمعلومات فقط.

4. إذا كان التنبيه قابلاً للتنفيذ والترحيل ، فهل يلزم التعامل معه على الفور؟
إذا لم تكن هناك حاجة للتعامل مع المشكلة على الفور ، فلا ينبغي أن يوقظ أي شخص في منتصف الليل. يجب أن يقرر الفريق طرقًا بديلة لتصفح المعلومات الموجودة في التنبيه في هذه المواقف ، على سبيل المثال ، إشعار Slack أو لوحة المعلومات ، أو مهمة مفتوحة في آلية تتبع المشكلات.
5. إذا كان قابلاً للتنفيذ ، فهل هناك رابط دليل التشغيل أو ارتباط استكشاف الأخطاء وإصلاحها؟ هل الخطوات واضحة بما يكفي ليتبعها أي مهندس في الفريق؟
واحدة من أسوأ التجارب لكونك مهندسًا تحت الطلب - خاصةً مهندسًا جديدًا - هي مقدار المعرفة القبلية التي تتراكم في فرق الهندسة بمرور الوقت. من المخيف القفز على حادث إنتاج شديد الخطورة لمجرد إدراك أنك غير معتاد على هذا المجال من النظام وأنه غير موثق جيدًا.
" الحفاظ على معلومات استكشاف الأخطاء وإصلاحها في التنبيه واضحة وبسيطة ومحدثة يقطع شوطًا طويلاً نحو تقليل الوقت المتوسط للتخفيف من وقوع حادث والتعافي منه "
حتى لو كانت لديك الخبرة ، فربما تكون قد كتبت الكود منذ فترة طويلة لدرجة أنك لا تتذكر بوضوح ما يفترض أن تفعله. الحفاظ على معلومات استكشاف الأخطاء وإصلاحها في التنبيه واضحة وبسيطة ومحدثة يقطع شوطًا طويلاً نحو تقليل الوقت المتوسط للتخفيف من حادثة ما والتعافي منها (MTTM و MTTR).
6. إذا كان قابلاً للتنفيذ ، فهل يوجد رابط لوحة معلومات وهل يُظهر جميع الأسباب المحتملة المعروفة؟
تعد لوحات المعلومات طريقة رائعة لعرض كميات كبيرة من معلومات النظام في وقت واحد ، مما يعني أن المهندسين لا يضطرون إلى البحث في سجلات ومقاييس وآثار مختلفة لمعرفة سبب المشكلة. يسمح تجميع البيانات في لوحة معلومات وتوفير الارتباط كجزء من التنبيه باستكشاف الأخطاء وإصلاحها بشكل أسرع.
7. هل التنبيه حساس للغاية أم غير محدد بما يكفي؟ هل ستستفيد من إزالة الحساسية أو تغيير النطاق؟
العديد من التنبيهات مفيدة ولكن تمت معايرتها بشكل خاطئ. يمكن أن تكون إما واسعة جدًا ولا تطلق النار في كل مرة ، أو محددة جدًا وتطلق عدة مرات لنفس الحادث ، مما يزيد من الضوضاء.
8. أخيرًا ، هل يتعين على الإنسان أن يقوم بالمعالجة؟
بطريقة ما ، تعمل جميع رموز الكمبيوتر على أتمتة شيء يمكن للإنسان القيام به. فلماذا لا تتم معالجة المشكلات التي تؤدي إلى تشغيل التنبيهات تلقائيًا؟ في حين أنه من الصعب إصلاح بعض التنبيهات الشائكة تلقائيًا ، مثل خطأ في الشفرة أو مشكلة في الأداء في النظام ، يمكن للإجراءات الآلية حل العديد من المشكلات الشائعة.
هذا صحيح بشكل خاص إذا كنت تعمل على منصة سحابية مثل AWS ويمكنك توفير البنية التحتية دون الحاجة إلى القلق بشأن طلب أجهزة إضافية. على سبيل المثال ، إذا كانت عقدة في مجموعة البحث لديك تعرض أقراصًا فاشلة ، فلماذا لا تستبدلها تلقائيًا؟ إذا كانت الخدمة منخفضة في حساب الموارد بسبب زيادة حركة المرور ، فلماذا لا تزيد وتضيف أجهزة ظاهرية أو حاويات إضافية؟ يمكن بعد ذلك إرسال تفاصيل العلاج إلى الفريق من خلال قنوات غير منبهة حتى يتمكنوا من المراجعة في أوقات فراغهم.
هل أجبت بـ "لا" على أي من هذه الأسئلة؟
تثير الإجابة بـ "لا" على أي من هذه الأسئلة مهمة ذات أولوية عالية للفريق للقيام ببعض الأعمال لتحسين التنبيه - سواء كان ذلك يعني منعه من الترحيل أو تحسين خطوات استكشاف الأخطاء وإصلاحها أو تشغيله تلقائيًا أو ببساطة إصلاح مشكلة النظام الأساسية.
جوهر النهج هو القيام بذلك بطريقة منتظمة ومخطط لها. إنها تحافظ على مستويات الضوضاء منخفضة وعملياتك والمهندسين تحت الطلب سعداء ومنتجين. يمكنهم التركيز على تحسين الجودة وتحقيق التأثير بدلاً من مكافحة الحرائق.
هل أنت مهتم بالطريقة التي نعمل بها في انتركم؟ نود التحدث إليك - تحقق من الأدوار الهندسية المفتوحة لدينا.