オンコールプロセスとポリシー - Tier 1
Tier 1 ローテーションとは、自動化されたシステムからのページに対応するオンコールローテーションを指します。
アクティブな Tier 1 ローテーション
SRE EOC GitLab.com
- ローテーションリーダー: Sarah Walker
- カバレッジ: 24x7
- スケジュール: schedule
- Slack: #eoc-general
責任範囲
インシデント管理の責任に加えて、EOC は別のチームが所有していない本番環境のサポートに必要な時間的制約のある割り込み作業も担当します。これには以下が含まれます:
- 特定の変更リクエスト (CR) のレビューと処理。これには以下が含まれます:
- 進行中のインシデントや調査と矛盾しないよう CR をレビューすること
- 作成者が変更を行うための必要な権限を持っていない場合(管理者レベルの変更など)、CR を直接実行すること
- 週末に発生する可能性のあるデータベースアップグレードなどの C1 CR 時のサポート
- インシデント関連の Teleport アクセスリクエストの処理
- ChatOps コマンドが安全性チェックで失敗した際の例外承認
- バグのある/フラッピングなアラートの調査と修正
- 不要になったアラートの削除
- 要求された本番情報の収集
@sre-oncallSlack メンションへの対応- デプロイ問題に関してリリースマネージャーを支援すること
GitLab Dedicated Platform
- ローテーションリーダー: Florbela Viegas
- カバレッジ: 24x7
- スケジュール: schedule
GitLab Dedicated PubSec
- ローテーションリーダー: Florbela Viegas
- カバレッジ: 24x7
- スケジュール: schedule
インシデントマネージャー(IMOC)
- ローテーションリーダー: Devin Sylva
- カバレッジ: 24x7
- スケジュール: schedule
詳細情報
- インシデントマネージャーローテーションは、エンジニアリンググループの特定のチームメンバーによって運営されます。
- シフトスケジュール、責任範囲を含むインシデントマネージャーの役割に関する詳細は、インシデントマネージャーのオンボーディングページをご覧ください。
