オンコールプロセスとポリシー - Tier 1

Tier 1 ローテーションとは、自動化されたシステムからのページに対応するオンコールローテーションを指します。

アクティブな Tier 1 ローテーション

SRE EOC GitLab.com

  • ローテーションリーダー: Sarah Walker
  • カバレッジ: 24x7
  • スケジュール: schedule
  • Slack: #eoc-general

責任範囲

インシデント管理の責任に加えて、EOC は別のチームが所有していない本番環境のサポートに必要な時間的制約のある割り込み作業も担当します。これには以下が含まれます:

  1. 特定の変更リクエスト (CR) のレビューと処理。これには以下が含まれます:
    1. 進行中のインシデントや調査と矛盾しないよう CR をレビューすること
    2. 作成者が変更を行うための必要な権限を持っていない場合(管理者レベルの変更など)、CR を直接実行すること
    3. 週末に発生する可能性のあるデータベースアップグレードなどの C1 CR 時のサポート
  2. インシデント関連の Teleport アクセスリクエストの処理
  3. ChatOps コマンドが安全性チェックで失敗した際の例外承認
  4. バグのある/フラッピングなアラートの調査と修正
  5. 不要になったアラートの削除
  6. 要求された本番情報の収集
  7. @sre-oncall Slack メンションへの対応
  8. デプロイ問題に関してリリースマネージャーを支援すること

GitLab Dedicated Platform

  • ローテーションリーダー: Florbela Viegas
  • カバレッジ: 24x7
  • スケジュール: schedule

GitLab Dedicated PubSec

  • ローテーションリーダー: Florbela Viegas
  • カバレッジ: 24x7
  • スケジュール: schedule

インシデントマネージャー(IMOC)

  • ローテーションリーダー: Devin Sylva
  • カバレッジ: 24x7
  • スケジュール: schedule

詳細情報