インシデントレスポンスライフサイクル

インシデントレスポンスライフサイクル ワーキンググループは、共有インシデントレスポンスプロトコルとナレッジベースを文書化することを目的としています。

属性

プロパティ
作成日2022年2月1日
目標終了日2022年4月30日
Slackwg-incident-respose-management-framework
Google Docインシデントレスポンス管理 ワーキンググループ(社内)
Issue ラベルWG-IRM(gitlab-com/-org)

ビジネス目標

  1. 共通のインシデントレスポンス、分析、文書化、継続的な管理・報告手法を通じて効率性を向上させます。
  2. インシデントのビジネスおよび E グループへの可視性とコミュニケーションを改善することで透明性を向上させます。
  3. インシデント発生時に GitLab が迅速に解決・連絡できる能力への顧客の信頼を構築することで成果を支援します。
  4. インシデント管理の活動と優先順位をビジネスと一致させます。
  5. GitLab でのインシデント管理プロセスについてエンジニアリング部門向けのトレーニングモジュール作成のための資料を準備します。
  6. ドッグフーディングの機会を浮き彫りにします。

終了基準

  1. エンジニアリングのすべての領域およびインシデントレスポンスを提供するチームに適用できる、インシデントレスポンス管理を文書化した単一の情報源
    • エンジニアリングの各機能エリアは、サービス停止またはセキュリティ脅威の特定と対応に向けた独自のインシデント管理要件を策定します。
  2. インシデントレスポンスチームが IR プロセスをどのように実装するかを理解するための、GitLab チームメンバー向けの包括的なナレッジベースを作成する

成果

  1. GitLab 全体のチームが MTTR を低下させるための支援

その他の調査事項

  1. インシデントからのフィードバックと学習の改善による回復力の構築
  2. サービスカタログ

他社ではどのように行われているか?

現在の IR の実施方法は?

  1. SIRT
  2. オンコール
  3. Reliability
  4. Support

注目すべき Issue

関連 Issue

役割と責任

ワーキンググループの役割担当者肩書き
ファシリテーターAnna Liisa MoterManager Reliability
エグゼクティブスポンサーSteve LoydVP Infrastructure
メンバーAnthony FappianoManager Reliability
Development 機能リードDan CroftSenior Engineering Manager, Ops
メンバーSam GoldsteinDirector of Engineering, Ops
メンバー(CMOC)Kenneth ChuSupport team
メンバーKevin ChuGroup Manager of Product, Monitor

要件と考慮事項

アクター

  • Reliability エンジニア
  • SIRT エンジニア
  • 開発チーム
  • Quality チーム
  • サポートチーム

全般

  • インシデントを報告できる GitLab チームメンバーとして、インシデントをどのように開始できるかを理解しています
  • インシデントを報告できる GitLab チームメンバーとして、インシデントの深刻度レベルについて一般的な理解があります
  • インシデントを報告できる GitLab チームメンバーとして、インシデント管理の高レベルなプロセスとビジネスへの重要性を理解しています
  • インシデントを報告できる GitLab チームメンバーとして、専用の Slack チャンネル経由で適切なチームに連絡できます
  • インシデントを報告できる GitLab チームメンバーとして、インシデントレスポンス手順を文書化したハンドブックのページを簡単に見つけられます

SIRT エンジニア

  • SIRT エンジニアとして、支援が必要なときに他のチームから関連リソースを引き込む方法を知っています
  • SIRT エンジニアとして、インシデントを簡単に分類できます
  • SIRT エンジニアとして、トリガーと指標を特定できます
  • SIRT エンジニアとして、インシデントの詳細をどこに文書化するかを知っています
  • SIRT エンジニアとして、インシデントの特定から緩和、修復、そしてポストインシデント活動への移行タイミングを知っています
  • SIRT エンジニアとして、インシデントを引き継ぐ、または管理職に更新を提供するための報告プロセスを実行できます

Reliability エンジニア

  • Reliability エンジニアとして、組織全体で一貫した方法でインシデントのレベルを設定する方法を知っています
  • Reliability エンジニアとして、インシデント中に他の役割を巻き込む方法を知っています
  • Reliability エンジニアとして、インシデントの特定から緩和、解決、そしてポストインシデント活動への移行タイミングを知っています

開発チーム

  • インシデントマネージャーローテーションの一員である開発リーダーとして、役割の責任とインシデント管理プロセスへの役割のサポート方法を明確に理解しています

Quality チーム

サポートチーム

  • サポートエンジニアとして、ステータスページの作成方法を知っています
  • サポートエンジニアとして、ステータスページのインシデントステータス状態の違いを知っています
  • サポートエンジニアとして、ステータスページの更新頻度を知っています
  • サポートエンジニアとして、ステータスページに投稿しようとしている更新についてインシデントマネージャーまたは EOC からフィードバックを求める方法を知っています
  • サポートエンジニアとして、ステークホルダーへの通知方法を知っています
  • サポートエンジニアとして、インシデントの影響を評価するために Zendesk と GitLab Issue トラッカーの関連チケットを見つける方法を知っています
  • サポートエンジニアとして、インシデントにより GitLab SaaS の利用が制限されたユーザーに連絡する方法を知っています