コミュニケーションとカルチャー
オンコールは技術的なスキルだけの話ではありません。ストレスのかかる状況でも周囲とうまく協力することが重要です。このページでは、私たちのコミュニケーションのあり方とカルチャーについて説明します。
責任追及しないカルチャー
インシデント対応において最も重要なこと: 誰も責められません。
その意味するところ
インシデントが発生したとき:
- 「誰が失敗したのか?」ではなく「何が起きたのか?」を問います
- 個人の問題ではなく、システムの問題を探します
- インシデントから学びます。人を罰しません
- 全員が恐れなくポストモーテムに参加できます
なぜ重要なのか
責任を追及される恐れがあると:
- エスカレーションすべきときにエスカレーションしなくなります
- ミスを修正せず隠すようになります
- インシデントの解決に時間がかかります
- 失敗から学べなくなります
あなたの役割
インシデントが発生したとき:
- 責任の所在を探すのではなく、修正に集中します
- 誰かがミスをしても、それは学びの機会です
- ポストモーテムでは、システムとして何を改善できるかを議論します
- 「知っておくべきだった」「注意が足りなかった」といった言い方を避けます
例
悪い例: 「John が壊れたコードをデプロイした。テストしておくべきだった」
より良い例: 「デプロイプロセスがこの問題を検知できなかった。テストや CI/CD をどう改善できるだろうか?」
インシデント中のコミュニケーション
明確に伝える
調査中に何か発見したら、明確に伝えましょう:
- ✅ 「午後4時のデプロイ後から始まった、トランザクションハンドラーのメモリリークを発見しました」
- ❌ 「状況が悪そうです」
頻度
チームに定期的に状況を報告します:
- 開始時: 「調査中です」
- 5〜10分ごと: 「現在わかっていることを報告します」
- 変更を加えるとき: 「バージョン 2.1.3 にロールバックします」
- 解決時: 「問題は修正されました。安定性を監視中です」
エスカレーション時のコミュニケーション
エスカレーションする際は:
- ✅ 「20分間調査し、X・Y・Z を確認しました。私の専門知識の範囲を超えています。データベースチームにエスカレーションします。」
- ❌ 「どうすればいいかわかりません」
コンテキストを共有してください。次の担当者が試みたことを把握できるよう助けましょう。
過剰なコミュニケーションは問題ありません
更新が少なすぎるよりも多すぎる方が良いです。人々は、あなたがまだ問題を見ているのか疑問に思うよりも、定期的な更新を見たいと思っています。
インシデント中の Slack
Slack を効果的に使う
- DM ではなくインシデントチャンネルに投稿します
- スレッドを使ってディスカッションを整理します
- 重要な情報をピン留めします
- @channel や @here は緊急時のみ使います(スパムにしない)
インシデントチャンネルの規範
多くのチームには以下のような基準があります:
- 少なくとも10分ごとに更新する
- 明確なステータス(調査中 / 緩和中 / 解決済み / 監視中)を示す
- 担当者付きのアクションアイテムを明記する
- 有用な場合はダッシュボードやログへのリンクを添付する
やってはいけないこと
- ❌ DM でサイド会話を始める(コンテキストはチャンネルに残す)
- ❌ 30分以上音信不通になる(常に進捗を更新する)
- ❌ 曖昧な表現を使う(証拠なしに「〜のようです」と言う)
- ❌ 他者を責める
ページを受ける前に: 関係を築く
良いチームメンバーであること
- 新しいエンジニアの質問に答えます
- インシデントから学んだことを共有します
- 他のメンバーが学べるようランブックを更新します
- 他者の良い仕事を認めます
エスカレーションのコミュニケーション
エスカレーションのタイミング
- 15分以上調査して行き詰まっているとき
- 自分のドメインの範囲を超えているとき
- 緊急度が高く自分のペースでは間に合わないとき
- 意思決定で助けが必要なとき
エスカレーションの方法
Slack や Incident.io で:
- 理由: 「これはデータベースの問題です。データベースの専門知識が必要です」
- 試みたこと: 「ダッシュボード、ログ、最近のデプロイを確認しました。明らかな原因は見当たりません。」
- 必要なこと: 「DB レプリケーションのステータスを確認できる人が必要です」
エスカレーションを受けたとき
誰かがあなたにエスカレーションしてきたとき:
- 素早く対応します
- 事前調査をしてくれたことへの感謝を伝えます
- 調査を引き継ぎます
- 前の担当者に進捗を共有し続けます
インシデント後のコミュニケーション
ポストモーテム
重大なインシデントの後、チームはポストモーテムを実施します:
- 何が起きたか? — 出来事の経緯
- なぜ起きたか? — 根本原因
- 何を学んだか? — 教訓
- 何を改善できるか? — アクションアイテム
参加
- 関係した全員が参加します
- 責任追及なしにミスを正直に話します
- 改善のためのアイデアを提案します
- アクションアイテムをフォローアップします
責任追及しないポストモーテムの言い方
ポストモーテム中:
- ✅ 「デプロイプロセスがこの問題を検知できなかった」
- ✅ 「この状態に対するモニタリングがなかった」
- ✅ 「ランブックにこのシナリオのステップがなかった」
避けるべき言い方:
- ❌ 「X さんがミスをした」
- ❌ 「プロセスに従っていなかった」
チームの規範と期待
対応時間
ページ通知から15分以内に確認の返答をし、インシデント解決を支援するためにすぐに業務につきます。
関与し続けること
調査中に消えないようにします。行き詰まっているときでも:
- 「まだ調査中です。根本原因はまだ見つかっていません」
- 「専門知識の範囲を超えているためエスカレーションします」
- 「次のレベルの担当者の応答を待っています」
沈黙は不安を生みます。
プロフェッショナルな行動
インシデント中は:
- 冷静を保ちます
- 丁重に対応します
- わからないときは正直に認めます
- 助けを求めます
- ストレスを無礼な態度に変えません
私たちは同じチームです。
問題が起きたとき
インシデント中に自分がミスをしたとき
- 認める: 「ミスをしました。修正のために以下を実施しています」
- 修正する: 影響の解消に集中します
- 学ぶ: 次回どう防ぐかを考えます
責任を追及されることはありません。誰でもミスをします。
他の人がミスをしたとき
- 公の場で指摘しません
- 問題の修正に集中します
- ポストモーテムでは、システムとして何を改善できるかを議論します
- 個人的に、学習を支援することを申し出ます
責任追及が起きたとき(あってはならないことですが)
ポストモーテムや Slack で責任追及的な言い方を耳にしたとき:
- 穏やかに方向を変える: 「個人のミスより、システムの改善に焦点を当てましょう」
- マネージャーに相談する: 「責任追及しないカルチャーに合っていない言い方がされていると思います」
カルチャーの観察
良いサイン
- インシデントについてオープンに話せる
- 恐れなくエスカレーションできる
- ミスが学習機会として扱われる
- ポストモーテムがシステムに焦点を当てている
- インシデント中に互いに感謝し合える
警告サイン
- エスカレーションを恐れている
- ポストモーテムで責任が割り当てられている
- ミスが隠される
- 人々が防衛的になっている
- バーンアウトが多い
警告サインを見かけたら、マネージャーやローテーションリーダーに伝えましょう。
心理的安全性の構築
心理的安全性とは、リスクを取り、ミスを認め、質問をすることが安全だと感じられることです。
私たちが構築する方法:
- インシデントとポストモーテムにおける責任追及しないカルチャー
- 経験豊富なエンジニアが新しいメンバーをメンタリングする
- 質問が奨励される
- エスカレーションが評価される(罰せられない)
- 学習と改善のための時間がある
