成功の測定
Tier 2 オンコールプログラムが機能しているかどうかをどのように把握するのでしょうか?運用の卓越性とエンジニアの健全性の両方を反映する特定のメトリクスで測定します。このページでは、何を追跡しているか、そしてそれがなぜ重要なのかを説明します。
主要な成功メトリクス
- 解決時間の短縮: Tier 2 を拡大した主な目的は、インシデントをより迅速に解決するために、オンコールエンジニアに SME(Subject Matter Expert)の専門知識を提供することです。これは Tier 2 に関するインシデント対応全体における主要メトリクスです。
- エスカレーションの正確性: エラーメッセージ・スタックトレース・オブザービリティの分類などの使いやすさにより、エスカレーションの90%以上が最初の試みで正しいチームに届く
- Tier 2 へのページがゼロ件であること(システムの回復力やランブックの効果によるもの)
- Tier 2 を越えたエスカレーションがゼロ件であること(常に15分以内に対応しているため)
- 持続可能なオンコールスケジュール: エンジニアは月1週間を超えてオンコールにならない
関連ページ
- DevOps ローテーションリーダー — ローテーションリーダーがこれらのメトリクスを追跡します
- コミュニケーションとカルチャー — 責任追及しないカルチャーがこれらの目標を支えます
- ローテーションへの参加と脱退 — ローテーションの公平性メトリクスを理解する
