最初のシフト
最初のオンコールローテーションに向けて準備していますか?以下が必要な手順です。
シフト開始前
1. ツールをセットアップする
必要なものがすべてインストールされ、設定されていることを確認してください:
- Incident.io スマートフォン(iOS または Android)にインストールし、ページが届くことをテストし、電話番号が最新で動作・連絡可能であることを確認する
- メール 業務メールが機能していてインシデント通知を受信できることを確認する
- Slack 既に持っているはずですが、以下の Slack チャンネルに参加してメンションが見えるよう通知をオンにしていることを確認する:
2. どこを見るかを把握する
- Grafana — ダッシュボードとメトリクス
- ログ — ログ
- Sentry — エラートラッキング
- ランブック
- プレイブック
3. 基本を学ぶ
以下をさっと読んでおきましょう:
完璧である必要はありません。一夜にして専門家になるのではなく、慣れ親しんでいくことが目標です。
4. 誰に連絡するかを把握する
ページを受けてどうすれば良いかわからない場合は誰に連絡しますか?
- オンコールのインシデントローテーションリーダーに連絡してください
シフト前夜
- Incident.io でスケジュールを確認し、正確にいつ開始するかを把握する
- スマートフォンを充電し、通知をオンにする
- スマートフォンで Incident.io をテストする — アプリが動作することを確認する
最初のページ
ページを受けたとき、パニックにならないでください。以下の手順を実行します:
すぐに
- Incident.io でアラートを確認する(通常5分以内)
- アラートの詳細を読む — どのサービス?どのメトリクス?しきい値は?
- Slack のインシデントチャンネルに参加する(通常ページにリンクが含まれています)
次のステップ
- 挨拶する — 調査していることを知らせる:「対応中です」
- ダッシュボードを確認する — モニタリングプラットフォームで何が起きているかを把握する
- このアラートに対してランブックが存在すれば読む
- わからない場合は — 質問する。「何を試みましたか?」「顧客に影響していますか?」
- 話し続ける — 発見していることをインシデント Slack チャンネルに5〜10分ごとに更新する
行き詰まったとき
- Slack で助けを求める
- ドメインに詳しくない場合は、ドメイン固有の Slack チャンネルにページする
- 30分間沈黙したままデバッグしない — 早めにエスカレーションする
新規オンコールエンジニアからよくある質問
「調査中に何かを壊してしまったら?」
- 壊しません。調査ツール(ログの確認、ダッシュボードの確認)は何も変更しません。変更が必要な場合は、安全に従うべき手順(ランブック)がドキュメント化されています。
「解決方法がわからなかったら?」
- エスカレーションしてください。あなたの役割はスーパーヒーローになることではなく、対応できて関与していることです。より経験豊富な人にエスカレーションすることが、まさにあなたがすべきことです。
「複数のページを同時に受けたら?」
- 一度に一つずつ対応します。取り組んでいることと優先順位をチームに伝えます。追加のサポートが必要な場合に備えて DevOps ローテーションリーダーに連絡します。
「シフトが終わるときにまだインシデントが進行中だったら?」
- 試みたことと学んだことの明確なメモとともに、次のオンコールエンジニアに引き継いでください。引き継ぎについては後ほど詳しく説明します。
関連ページ
- 基本を理解する — オンコールが初めての方はここから始めてください
- コミュニケーションとカルチャー — ページを受けたときのコミュニケーション方法を知る
