米国政府向けオンコール業務の進め方
はじめに
米国政府向け Emergencies ローテーションに参加するサポートエンジニアは、GitLab 顧客からの運用上の緊急事態を調整します。
米国政府向け Emergencies ローテーションは、GitLab Support On-call を構成するローテーションの 1 つです。
このページは、米国政府向けオンコールローテーションに参加するためのさまざまなワークフローの概要を示しています。緊急コールへの対応などに関するより詳細なガイドは、PATRIOT プロジェクト で確認できます。
知っておくべきこと
米国政府向けオンコール
米国政府向けサポートを購入したすべての顧客は「12x5 Emergency Support」を受けられます。顧客は「24x7 Emergency Support」アドオンを購入することもできます。
「12x5」の顧客は、月曜日から金曜日の太平洋時間 0500 から 1700 の間、本番インスタンスの severity one の問題についてオンコールを呼び出せます。
「24x7」の顧客は、いつでも本番インスタンスの severity one または severity two の問題についてオンコールを呼び出せます。
現在のオンコールスケジュールは PagerDuty(社内リンク)で確認できます。スケジュールは現在、5a-5p / 5p-5a(太平洋時間)の 2 つの 12 時間シフトに分割されています。
- 日中シフト: 05:00 - 17:00 PT
- 夜間シフト: 17:00 - 05:00 PT
顧客は、メールまたは米国政府向けサポートポータルの緊急フォームから緊急事態を送信できます。
米国政府向けオンコールシフトのカバー
サポートエンジニアが予定されたオンコールシフトのカバーを必要とする場合は、us-gov-oncall-coverage テンプレートを使って Support Team Meta に Issue を開き、そのリンクを Slack でチームと共有します。
業務時間外の緊急依頼
12x5 の顧客が Government Support の営業時間 外に緊急ケースを送信した場合、以下が発生します。
- #spt_us-government チャンネルに Slack 通知がトリガーされ、時間外の緊急事態をチームに知らせ、営業時間の開始時にフォローアップが必要であることを示します
Off hours emergency requestトリガーが、チケット送信者に時間外であることを知らせ、グローバルサポートで緊急ケースを作成するか、次の営業時間の開始時に米国政府向けサポートがフォローアップするのを待つかの選択肢を提示します。
業務時間外の緊急対応への応答
12x5 時間外に作業しているチームメンバーは、エンジニア自身の裁量で、本番の緊急事態に直面している顧客にサポートを提供することを選択できます。これに対応する際は、以下が顧客との間で明確になっていることを確認することが重要です。
- 顧客はそのサブスクリプションに基づいて 24x7 サポートを受ける権利はありません
- 緊急サポートはエンジニアの稼働状況に基づく一度限りの例外として提供されており、今後の時間外サポートは保証されません
対応するエンジニアは、自身のマネージャーをフォロワーとして追加し、時間外サポートを提供している旨を内部メモで示す必要もあります。これにより、顧客のアカウントチームとの適切なフォローアップが確実に行われるようになります。
PagerDuty
私たちは、GitLab 顧客が提起した緊急事態を追跡するために PagerDuty を使用します。顧客の緊急事態については、#support_us-government に通知が届きます。
PagerDuty のステータス
- Triggered - 「顧客がオンコールエンジニアの対応を要求しました」
- Acknowledged - 「ページを確認し、チケットをレビュー中です」
- Resolved - 「緊急チケットに返信を送信して顧客と関わりました」
注意: PagerDuty における「Resolved」は、根本的な問題が解決されたことを意味するものではありません。
緊急ケースのアラートを受け取る
あなたの担当である可能性のある緊急事態について通知を受け取る方法は 2 つあります。
PagerDuty 通知
これは、あなたがオンコールエンジニアである場合に届きます
Slack ボット
これは平日の日中シフト時間帯に届き、緊急ケースを知らせるために稼働可能なすべてのエンジニアに通知します。
フローの例
これらの例では、顧客が緊急事態を提起してから、エンジニアがチケットで対応するまでの流れを扱います。ケースをトリアージして対応する方法については、別の場所で扱います。
日中シフト・ボットフロー
平日の営業時間中に緊急事態が提起されると、#spt_us-government チャンネルに 2 つのメッセージが表示されます。最初に PagerDuty アラート、次に「Support Readiness Bot」からのメッセージで、稼働可能なすべてのエンジニアをタグ付けして緊急事態を知らせます。
通知を受け取ったら、稼働可能なエンジニアはチケットをレビューし、PagerDuty アラートを acknowledge します。(acknowledge されていない PagerDuty アラートはエスカレーションします。)
1 人または 2 人のエンジニアがチケットの対応に同意したら、チケットに返信して PagerDuty アラートを resolve します。
日中シフトオンコールエンジニアのフロー
日中シフトのエンジニアは通常、週末と、チームが決定した一部の祝日のみオンコールになります。あなたがオンコールエンジニアである間に緊急事態が提起されると、あなたの設定に従って PagerDuty 通知が届きます。通知を受け取ったら、エスカレーションを防ぐために、Slack または PagerDuty アプリのいずれかでページを acknowledge します。その後、チケットのレビューを開始します。顧客に対応したら、PagerDuty アラートを resolve します。
夜間シフトのフロー
夜間シフトのエンジニアは、1 週間単位のオンコールシフトのローテーションを行います。個々のローテーションでは、最初のシフトは金曜日の夜(太平洋時間午後 5:00)に始まり、土曜日の朝(太平洋時間午前 5:00)に終わります。残りのシフトも同じスケジュールに従い、ローテーションは金曜日の朝(太平洋時間午前 5:00)に終わります。あなたがオンコールエンジニアである間に緊急事態が提起されると、あなたの設定に従って PagerDuty 通知が届きます。通知を受け取ったら、エスカレーションを防ぐために、Slack または PagerDuty アプリのいずれかでページを acknowledge します。その後、チケットのレビューを開始します。顧客に対応したら、PagerDuty アラートを resolve します。
誰もアラートを Acknowledge しない場合
PagerDuty の設定
解決後のチケット処理
解決後のチケット処理は、このオンコールページの範囲外です。緊急状態に対処した後は、米国政府向けサポートチケットへの対応 の解決後チケットワークフローに従ってください。
そのセクションでは、緊急チケットを既存の非緊急チケットにマージするタイミング、緊急チケットを解決またはクローズするタイミング、およびチケットを手動で重み付け調整して非緊急として継続するまれな例外について記載しています。
bfd74782)