インシデントレスポンスライフサイクル

インシデントレスポンスライフサイクルワーキンググループは、共有インシデントレスポンスプロトコルとナレッジベースを文書化することを目的としています。

属性

プロパティ	値
作成日	2022年2月1日
目標終了日	2022年4月30日
Slack	wg-incident-respose-management-framework
Google Doc	インシデントレスポンス管理ワーキンググループ（社内）
Issue ラベル	WG-IRM（gitlab-com/-org）

ビジネス目標

共通のインシデントレスポンス、分析、文書化、継続的な管理・報告手法を通じて効率性を向上させます。
インシデントのビジネスおよび E グループへの可視性とコミュニケーションを改善することで透明性を向上させます。
インシデント発生時に GitLab が迅速に解決・連絡できる能力への顧客の信頼を構築することで成果を支援します。
インシデント管理の活動と優先順位をビジネスと一致させます。
GitLab でのインシデント管理プロセスについてエンジニアリング部門向けのトレーニングモジュール作成のための資料を準備します。
ドッグフーディングの機会を浮き彫りにします。

終了基準

エンジニアリングのすべての領域およびインシデントレスポンスを提供するチームに適用できる、インシデントレスポンス管理を文書化した単一の情報源
- エンジニアリングの各機能エリアは、サービス停止またはセキュリティ脅威の特定と対応に向けた独自のインシデント管理要件を策定します。
インシデントレスポンスチームが IR プロセスをどのように実装するかを理解するための、GitLab チームメンバー向けの包括的なナレッジベースを作成する

成果

GitLab 全体のチームが MTTR を低下させるための支援

その他の調査事項

インシデントからのフィードバックと学習の改善による回復力の構築
サービスカタログ

他社ではどのように行われているか？

Pagerduty Response docs

現在の IR の実施方法は？

SIRT
オンコール
Reliability
- インシデント管理
Support
- CMOC 業務の遂行方法
- インシデントや変更に関するユーザーへの連絡
- 通知の送信（少数のユーザー向け）

注目すべき Issue

関連 Issue

役割と責任

ワーキンググループの役割	担当者	肩書き
ファシリテーター	Anna Liisa Moter	Manager Reliability
エグゼクティブスポンサー	Steve Loyd	VP Infrastructure
メンバー	Anthony Fappiano	Manager Reliability
Development 機能リード	Dan Croft	Senior Engineering Manager, Ops
メンバー	Sam Goldstein	Director of Engineering, Ops
メンバー（CMOC）	Kenneth Chu	Support team
メンバー	Kevin Chu	Group Manager of Product, Monitor

要件と考慮事項

アクター

Reliability エンジニア
SIRT エンジニア
開発チーム
Quality チーム
サポートチーム

全般

インシデントを報告できる GitLab チームメンバーとして、インシデントをどのように開始できるかを理解しています
インシデントを報告できる GitLab チームメンバーとして、インシデントの深刻度レベルについて一般的な理解があります
インシデントを報告できる GitLab チームメンバーとして、インシデント管理の高レベルなプロセスとビジネスへの重要性を理解しています
インシデントを報告できる GitLab チームメンバーとして、専用の Slack チャンネル経由で適切なチームに連絡できます
インシデントを報告できる GitLab チームメンバーとして、インシデントレスポンス手順を文書化したハンドブックのページを簡単に見つけられます

SIRT エンジニア

SIRT エンジニアとして、支援が必要なときに他のチームから関連リソースを引き込む方法を知っています
SIRT エンジニアとして、インシデントを簡単に分類できます
SIRT エンジニアとして、トリガーと指標を特定できます
SIRT エンジニアとして、インシデントの詳細をどこに文書化するかを知っています
SIRT エンジニアとして、インシデントの特定から緩和、修復、そしてポストインシデント活動への移行タイミングを知っています
SIRT エンジニアとして、インシデントを引き継ぐ、または管理職に更新を提供するための報告プロセスを実行できます

Reliability エンジニア

Reliability エンジニアとして、組織全体で一貫した方法でインシデントのレベルを設定する方法を知っています
Reliability エンジニアとして、インシデント中に他の役割を巻き込む方法を知っています
Reliability エンジニアとして、インシデントの特定から緩和、解決、そしてポストインシデント活動への移行タイミングを知っています

開発チーム

インシデントマネージャーローテーションの一員である開発リーダーとして、役割の責任とインシデント管理プロセスへの役割のサポート方法を明確に理解しています

Quality チーム

サポートチーム

サポートエンジニアとして、ステータスページの作成方法を知っています
サポートエンジニアとして、ステータスページのインシデントステータス状態の違いを知っています
サポートエンジニアとして、ステータスページの更新頻度を知っています
サポートエンジニアとして、ステータスページに投稿しようとしている更新についてインシデントマネージャーまたは EOC からフィードバックを求める方法を知っています
サポートエンジニアとして、ステークホルダーへの通知方法を知っています
サポートエンジニアとして、インシデントの影響を評価するために Zendesk と GitLab Issue トラッカーの関連チケットを見つける方法を知っています
サポートエンジニアとして、インシデントにより GitLab SaaS の利用が制限されたユーザーに連絡する方法を知っています

最終更新 May 6, 2026: Merge pull request #100 from kyama0/fix/upload-images-tolerate-upstream-missing (70970e1a)

ページのソースコードを見る - ページの編集 - please contribute.

Creative Commons License