FY26 - インシデント管理

FY26 のインシデント管理における目標と計画

先行資料とリンク

  1. インシデント管理の概要(2024-02 作成)
  2. インシデント管理の刷新(2024-02 作成)

背景

インシデント管理には以下が含まれます。

  1. インシデント管理プロセス
  2. インシデント対応のための人員配置
  3. ツール

このドキュメントでは、これらの領域における FY26 の目標を設定します。

北極星(目指す姿)

チームは自分たちが構築したサービスを支援でき、そのオンコールのオーナーシップを持てるようになります。Ops チームは、チームが必要なときに簡単にサポートを見つけられ、標準プロセスを遵守できるプラットフォームを提供します。

FY26 の目標

インシデント管理プロセス

  1. すべてのインシデントタイプにわたる標準化された明確に定義されたインシデントワークフロー
    1. 明確な役割の定義と責任の割り当て
    2. SIRT と通常インシデントの統一されたプロセス
    3. 同時並行インシデントの効果的な対処
  2. サービスチームが所有する高品質で維持管理されたランブック
  3. 包括的で測定可能な IMOC プログラム
    1. 明確なパフォーマンス期待値とフィードバック
    2. 標準化されたトレーニングとドキュメント
  4. 堅牢なレポートを通じたデータドリブンなインシデント管理の改善

ツール

  1. GitLab.com と Dedicated に incident.io を導入
  2. incident.io を組み込んだインシデント後プロセスの修正
  3. すべてのインシデントで正確なインシデントデータの収集を確保

インシデント対応のための人員配置

  1. 明確なスコープと責任を持つ集中型 EOC ロール
  2. 一貫したパフォーマンスを持つ信頼性の高いインシデントコーディネーターロール
  3. 明確なリージョン担当範囲を持つ明確に定義されたインフラリーダーロール
  4. Engineering 全体のオンコールプログラム

これらの目標はそれぞれ望まれる最終状態を示しています。これらの目標をどのように達成するか、どのようなツールを使うか、どのようなプロセスに従うかなど、具体的な実装計画は、これらの目標の優先順位付けに基づいて別途決定します。

インシデント対応に従事するチームメンバーを確保し、ワークフローを実行するための準備を整えることが必要です。

EOC ロールは現在、インシデントに関連しない多くのタスクを含んでいます。このロールは整理して集中させる必要があります。EOC は特定のチームに割り振られるべき活動には使用すべきではありません。

IM ロールは信頼性の高いインシデントコーディネーターになるためのサポートが必要です。メンバーシップの規模が大きく、インシデントへの参加間隔が長いため、ベストプラクティスが忘れられやすい状況です。最も重大なインシデントでは、特定のチームメンバーに頼ることが多くなりがちです。これを標準にするのであれば、その点を明示する必要があります。

インフラリーダーロールは幸いにも過去数ヶ月の間にあまり必要とされませんでした。しかし、このロールが何を意味するか、誰がローテーションに参加しているか、リージョン間のハンドオフをどのように行うかについて、より明確なガイダンスが必要でした。

Engineering 全体での EOC

Engineering 全体でより広いオンコール責任を確立するプロジェクトが進行中です。詳細は FY26 方向性テーマ - Engineering 全体のオンコール強化を参照してください。