Tier 2 オンコール FAQ
APAC タイムゾーンに関する懸念
Q: APAC カバレッジが「ベストエフォート」のみとされている理由は?
A: APAC タイムスロット(UTC 02:00〜10:00)は、ほとんどの APAC チームメンバーにとって非常に早い時間帯から始まります。例えば、IST のチームメンバーは午前4時30分から対応可能な状態である必要があります。この課題を踏まえ、APAC カバレッジはベストエフォート方式とされています。つまり、エンジニアがページに応答できる場合は対応し、そうでない場合は通常の業務時間開始後にフォローアップします。
Q: APAC のエンジニアが午前4時30分のページに応答できない場合はどうなりますか?
A: 時間外に応答しなかったことによるペナルティはありません。通常の勤務時間中に合理的に可能な範囲で応答することが期待されています。エスカレーションレイヤー(EM が 24x5 でカバー)がギャップを補います。
Q: APAC チームメンバーは他の地域よりも多くのシフトを担当しますか?
A: 現在、APAC チームメンバーはチームが小規模(8名)なため、52週の期間において1人あたり約6〜7週が割り当てられています。ただし、以下の対策が積極的に進められています:
- APAC の新しいチームメンバーをローテーションにオンボーディングする
- 負荷をより均等にするための Sec クロスステージカバレッジオプションを検討する
Q: APAC のエンジニアはシフト時間を調整できますか?
A: タイムスロットは全地域にわたる継続的なカバレッジを確保するため固定・調整されています。ただし、APAC カバレッジのベストエフォート方式により、担当週において実際に応答する時間には柔軟性があります。
通院への対応
Q: オンコール週に通院がある場合はどうすればよいですか?
A: 標準的な Incident.io オーバーライドプロセスに従ってください:
- #sscs-tier2-rotation-coordination で担当マネージャーまたはローテーションリーダーの @adil.farrukh、@ajaythomasinc、@ken.mcdonald に連絡する
- 彼らまたはチームメンバーと協力してそのタイムスロットをカバーする
- 上記の Slack チャンネルでマネージャーとチームに通知する
- 事前に(緊急事態以外は理想的には48時間以上前に)オーバーライドを文書化する
Q: シフト中に緊急事態(医療上の問題)が発生した場合はどうすればよいですか?
A: あなたの健康が最優先です。応答できない場合は:
- 可能であれば、マネージャーまたはエスカレーションレイヤー(EM)にすぐに通知する
- エスカレーションレイヤーがカバレッジを担当する
- 対応可能になったら、カバレッジの手配についてマネージャーとフォローアップする
Q: オンコール中の通院に PTO を使用する必要がありますか?
A: いいえ。通常の勤務時間中の通院は、GitLab の標準的な PTO と柔軟性ポリシーに従って処理してください。オンコールシフトは通常の勤務スケジュールに合わせているため、通常通り通院を扱ってください。
Q: 割り当て週に計画的な手術または長期医療休暇がある場合はどうすればよいですか?
A: 都合が悪いとわかったらすぐにマネージャーに連絡してください。マネージャーは以下を行います:
- チームと連携して別のチームメンバーと週を交換する
- incident.io のスケジュールを更新する
- カバレッジのギャップがないことを確認する
ドメイン専門知識がない場合のエスカレーション手順
Q: 自分のドメイン以外の問題でページを受けた場合はどうすればよいですか?(例:認証チームなのに問題がパイプラインセキュリティ)
A: これはローテーション設計上想定されており、認識されています。以下のエスカレーションパスに従ってください:
- 15分以内にページを確認応答してオーナーシップを確立する
- 利用可能なランブックやプレイブック、コードベースの調査を使用して初期トリアージを実施する
- 関連チームの Slack チャンネルに投稿してドメインエキスパートを招集する
- Slack のリクエストから5分以内に返答がない場合はEM レイヤーにエスカレーションする
- ドメインエキスパートが技術的な解決を引き継いでも、**DRI(直接責任者)**として調整の主体であり続ける
Q: エスカレーションレイヤーは誰ですか?
A: エスカレーションレイヤーは、Software Supply Chain Security チームのエンジニアリングマネージャーで構成されており、24x5 で対応しています。AMER 以外の時間帯のエスカレーションカバレッジには @mmishaev が含まれます。
Q: EM レイヤーにエスカレーションするタイミングは?
A: 以下の場合にエスカレーションします:
- 自分が持っていないドメイン専門知識が問題に必要な場合
- インシデントの重大度が S1/S2 で追加リソースが必要な場合。なお、S1/S2 にはすでに IMOC が割り当てられています
- 適切な対応や軽減策に不確かさがある場合
- 複数チームにわたる調整が必要な場合
- 30分以上作業しても進展がない場合
Q: インシデント中に利用できるリソースは何ですか?
A: 以下が利用できます:
- ランブックとプレイブック(プログラムの進化に伴い拡充中)
- Level Up チャンネルのTier 2 オンコールトレーニング
- EM エスカレーションレイヤー(24x5 カバレッジ)
- ドメイン固有の質問用チーム Slack チャンネル
- Incident.io ドキュメントとインシデント履歴
- GitLab ハンドブックのオンコール手順
Q: 専門知識外の問題を修正することが期待されますか?
A: いいえ。Tier 2 としての役割は:
- SRE よりも迅速にドメイン知識へのアクセスを提供する
- インシデント対応を調整・所有し、FF 無効化、ロールバック、ワークアラウンド、コード変更などのツールを使用して正常な状態に戻す
- SSCS の一般的な知識を活用して効果的にトリアージする
- 専門知識が必要な場合は適切にエスカレーションする
認証、認可、パイプラインセキュリティにまたがるすべてのエンジニアが互いの領域に精通しているわけではないことは認識されています。ランブックが時間をかけてこれらのギャップを埋めていきます。
現在の Dev-On-Call との違い
Q: Tier 2 は現在の dev-on-call や IMOC とどう違いますか?
A: 主な違い:
| 側面 | 現在の Dev-On-Call/IMOC | Tier 2 SME On-Call |
|---|---|---|
| 範囲 | 広範なエンジニアリングカバレッジ | ドメイン特化(SSCS のみ) |
| 主な対応者 | GitLab.com の SRE | SRE/SIRT がファーストライン(Tier 1) |
| ページを受けるとき | すべてのインシデント | ドメイン専門知識が必要な場合のみ |
| 応答時間 | 15分 | 15分 |
| カバレッジ | 業務時間 pagerslack と週末 dev-oncall の組み合わせによる 24x7 カバレッジ | 24x5(月曜日〜金曜日のみ) |
| ローテーション頻度 | 様々 | 地域に応じて年4〜7週 |
| 期待される専門知識 | 一般的な運用知識 | 深いプロダクト/コード知識 |
Q: IMOC やウィークエンドの dev-on-call は継続されますか?
A: いいえ。2026年1月5日の Tier 2 ローテーション開始後、IMOC または現在の dev-on-call スケジュールから除外されます。重要なカバレッジの問題がある場合を除き、複数のローテーションに参加することは求められません(その場合は個別に議論します)。
Q: どのようなインシデントでページを受けますか?
A: 以下の場合にページを受けます:
- SRE または SIRT が SSCS 関連インシデントのドメイン固有の専門知識を必要とするとき
- 認証、認可、またはパイプラインセキュリティコンポーネントが関わるインシデント
- Tier 1 が初期トリアージを完了したが解決に専門知識が必要なとき
- 顧客に影響するインシデントで深いプロダクト/コードの理解が必要なとき
以下の場合はページを受けません:
- SRE が対応できるルーティンの運用問題
- インフラのみの問題
- SSCS ドメイン外の問題
- 重要でないサポート問題
Q: 8時間のシフト中ずっとコンピューターの前にいる必要がありますか?
A: いいえ。期待されることは:
- 15分以内にページに応答できる
- ラップトップと安定したインターネット接続がある
- 担当シフト時間中に利用可能である
- 必要に応じてインシデントコールに参加できる
これは通常の勤務スケジュールに合わせているため、オンコール中も通常業務を継続できます。
Q: 週末はどうなりますか?
A: 現在の 24x5 ローテーションには週末は含まれていません。週末のカバレッジは、法務、HR、労働協議会の承認を経て、今後のイテレーションで対応される予定です。
Q: オンコール中であることをどうやって知りますか?
A: 以下の方法で確認できます:
- incident.io スケジュールで割り当て週を確認する(確認後に作成)
- シフト開始時に incident.io から通知を受け取る
- オンコール期間のカレンダー招待を設定する
- Incident.io アプリで今後のローテーションを確認する
Q: 最初のシフト前にどのようなトレーニングが必要ですか?
A: スケジュールが許す限り早急に Tier 2 On-Call Level Up チャンネルのトレーニングを完了してください。トレーニングの内容:
- インシデント対応手順
- incident.io と PagerDuty の使用方法
- エスカレーションパス
- ランブックとプレイブック(随時拡充中)
すべてのチームメンバーは2026年1月5日の開始日前にこれを完了してください。
その他の質問
Q: チームメイトとシフトを交換できますか?
A: はい。同じ地域のチームメイトと直接調整し、その後:
- PagerDuty のオーバーライドを更新する
- マネージャーに通知する
- チーム Slack チャンネルで交換を文書化する
Q: 割り当て週中に PTO の場合はどうすればよいですか?
A: 都合が悪いとわかったらすぐにマネージャーに連絡してください。マネージャーがカバレッジを手配し、スケジュールを更新します。
Q: ここに記載されていない質問がある場合は誰に連絡すればよいですか?
A: 以下に連絡してください:
- スケジュールやカバレッジの質問は担当マネージャーへ
- プログラム関連の質問は @adil.farrukh へ
- アクティブなインシデント中は EM エスカレーションレイヤーへ
- 一般的な質問はチーム Slack チャンネルに投稿する
Q: この FAQ は更新されますか?
A: はい。プログラムが進化し、新しい質問が出てくる中で、この FAQ は拡充されていきます。追加トピックへのフィードバックや提案は歓迎します。
