コミュニケーションとカルチャー

オンコールは技術的なスキルだけの話ではありません。ストレスのかかる状況でも周囲とうまく協力することが重要です。このページでは、私たちのコミュニケーションのあり方とカルチャーについて説明します。

責任追及しないカルチャー

インシデント対応において最も重要なこと: 誰も責められません。

その意味するところ

インシデントが発生したとき:

  • 「誰が失敗したのか?」ではなく「何が起きたのか?」を問います
  • 個人の問題ではなく、システムの問題を探します
  • インシデントから学びます。人を罰しません
  • 全員が恐れなくポストモーテムに参加できます

なぜ重要なのか

責任を追及される恐れがあると:

  • エスカレーションすべきときにエスカレーションしなくなります
  • ミスを修正せず隠すようになります
  • インシデントの解決に時間がかかります
  • 失敗から学べなくなります

あなたの役割

インシデントが発生したとき:

  • 責任の所在を探すのではなく、修正に集中します
  • 誰かがミスをしても、それは学びの機会です
  • ポストモーテムでは、システムとして何を改善できるかを議論します
  • 「知っておくべきだった」「注意が足りなかった」といった言い方を避けます

悪い例: 「John が壊れたコードをデプロイした。テストしておくべきだった」

より良い例: 「デプロイプロセスがこの問題を検知できなかった。テストや CI/CD をどう改善できるだろうか?」

インシデント中のコミュニケーション

明確に伝える

調査中に何か発見したら、明確に伝えましょう:

  • ✅ 「午後4時のデプロイ後から始まった、トランザクションハンドラーのメモリリークを発見しました」
  • ❌ 「状況が悪そうです」

頻度

チームに定期的に状況を報告します:

  • 開始時: 「調査中です」
  • 5〜10分ごと: 「現在わかっていることを報告します」
  • 変更を加えるとき: 「バージョン 2.1.3 にロールバックします」
  • 解決時: 「問題は修正されました。安定性を監視中です」

エスカレーション時のコミュニケーション

エスカレーションする際は:

  • ✅ 「20分間調査し、X・Y・Z を確認しました。私の専門知識の範囲を超えています。データベースチームにエスカレーションします。」
  • ❌ 「どうすればいいかわかりません」

コンテキストを共有してください。次の担当者が試みたことを把握できるよう助けましょう。

過剰なコミュニケーションは問題ありません

更新が少なすぎるよりも多すぎる方が良いです。人々は、あなたがまだ問題を見ているのか疑問に思うよりも、定期的な更新を見たいと思っています。

インシデント中の Slack

Slack を効果的に使う

  • DM ではなくインシデントチャンネルに投稿します
  • スレッドを使ってディスカッションを整理します
  • 重要な情報をピン留めします
  • @channel や @here は緊急時のみ使います(スパムにしない)

インシデントチャンネルの規範

多くのチームには以下のような基準があります:

  • 少なくとも10分ごとに更新する
  • 明確なステータス(調査中 / 緩和中 / 解決済み / 監視中)を示す
  • 担当者付きのアクションアイテムを明記する
  • 有用な場合はダッシュボードやログへのリンクを添付する

やってはいけないこと

  • ❌ DM でサイド会話を始める(コンテキストはチャンネルに残す)
  • ❌ 30分以上音信不通になる(常に進捗を更新する)
  • ❌ 曖昧な表現を使う(証拠なしに「〜のようです」と言う)
  • ❌ 他者を責める

ページを受ける前に: 関係を築く

良いチームメンバーであること

  • 新しいエンジニアの質問に答えます
  • インシデントから学んだことを共有します
  • 他のメンバーが学べるようランブックを更新します
  • 他者の良い仕事を認めます

エスカレーションのコミュニケーション

エスカレーションのタイミング

  • 15分以上調査して行き詰まっているとき
  • 自分のドメインの範囲を超えているとき
  • 緊急度が高く自分のペースでは間に合わないとき
  • 意思決定で助けが必要なとき

エスカレーションの方法

Slack や Incident.io で:

  • 理由: 「これはデータベースの問題です。データベースの専門知識が必要です」
  • 試みたこと: 「ダッシュボード、ログ、最近のデプロイを確認しました。明らかな原因は見当たりません。」
  • 必要なこと: 「DB レプリケーションのステータスを確認できる人が必要です」

エスカレーションを受けたとき

誰かがあなたにエスカレーションしてきたとき:

  • 素早く対応します
  • 事前調査をしてくれたことへの感謝を伝えます
  • 調査を引き継ぎます
  • 前の担当者に進捗を共有し続けます

インシデント後のコミュニケーション

ポストモーテム

重大なインシデントの後、チームはポストモーテムを実施します:

  • 何が起きたか? — 出来事の経緯
  • なぜ起きたか? — 根本原因
  • 何を学んだか? — 教訓
  • 何を改善できるか? — アクションアイテム

参加

  • 関係した全員が参加します
  • 責任追及なしにミスを正直に話します
  • 改善のためのアイデアを提案します
  • アクションアイテムをフォローアップします

責任追及しないポストモーテムの言い方

ポストモーテム中:

  • ✅ 「デプロイプロセスがこの問題を検知できなかった」
  • ✅ 「この状態に対するモニタリングがなかった」
  • ✅ 「ランブックにこのシナリオのステップがなかった」

避けるべき言い方:

  • ❌ 「X さんがミスをした」
  • ❌ 「プロセスに従っていなかった」

チームの規範と期待

対応時間

ページ通知から15分以内に確認の返答をし、インシデント解決を支援するためにすぐに業務につきます。

関与し続けること

調査中に消えないようにします。行き詰まっているときでも:

  • 「まだ調査中です。根本原因はまだ見つかっていません」
  • 「専門知識の範囲を超えているためエスカレーションします」
  • 「次のレベルの担当者の応答を待っています」

沈黙は不安を生みます。

プロフェッショナルな行動

インシデント中は:

  • 冷静を保ちます
  • 丁重に対応します
  • わからないときは正直に認めます
  • 助けを求めます
  • ストレスを無礼な態度に変えません

私たちは同じチームです。

問題が起きたとき

インシデント中に自分がミスをしたとき

  1. 認める: 「ミスをしました。修正のために以下を実施しています」
  2. 修正する: 影響の解消に集中します
  3. 学ぶ: 次回どう防ぐかを考えます

責任を追及されることはありません。誰でもミスをします。

他の人がミスをしたとき

  • 公の場で指摘しません
  • 問題の修正に集中します
  • ポストモーテムでは、システムとして何を改善できるかを議論します
  • 個人的に、学習を支援することを申し出ます

責任追及が起きたとき(あってはならないことですが)

ポストモーテムや Slack で責任追及的な言い方を耳にしたとき:

  • 穏やかに方向を変える: 「個人のミスより、システムの改善に焦点を当てましょう」
  • マネージャーに相談する: 「責任追及しないカルチャーに合っていない言い方がされていると思います」

カルチャーの観察

良いサイン

  • インシデントについてオープンに話せる
  • 恐れなくエスカレーションできる
  • ミスが学習機会として扱われる
  • ポストモーテムがシステムに焦点を当てている
  • インシデント中に互いに感謝し合える

警告サイン

  • エスカレーションを恐れている
  • ポストモーテムで責任が割り当てられている
  • ミスが隠される
  • 人々が防衛的になっている
  • バーンアウトが多い

警告サインを見かけたら、マネージャーやローテーションリーダーに伝えましょう。

心理的安全性の構築

心理的安全性とは、リスクを取り、ミスを認め、質問をすることが安全だと感じられることです。

私たちが構築する方法:

  • インシデントとポストモーテムにおける責任追及しないカルチャー
  • 経験豊富なエンジニアが新しいメンバーをメンタリングする
  • 質問が奨励される
  • エスカレーションが評価される(罰せられない)
  • 学習と改善のための時間がある

関連ページ

  • 引き継ぎと継続性 — 引き継ぎに責任追及しないカルチャーを適用する
  • 最初のシフト — ページを受けたときにこれらの原則を使う
  • 成功の測定 — エスカレーションのコミュニケーションがメトリクスに与える影響を確認する