EOC シャドウと EOC バディへの期待事項

EOC(Engineer on Call)のシャドウイングプロセスは、新しいエンジニアがライブインシデントの管理、アラートへの対応、システムの安定性確保について実践的な経験を積めるよう設計されています。シャドウイングにより、新しいチームメンバー(シャドウ)は経験豊富なエンジニア(EOC バディ)の指導のもとでEOCの責任を観察し、徐々に引き受けていくことができます。

このドキュメントは、シャドウイングプロセス全体にわたる学習とサポートに対して体系的なアプローチを確保するため、EOC シャドウEOC バディ双方の主な期待事項を説明します。役割と責任を明確に定義することで、シャドウがリアルタイムのインシデントを効果的に処理するために必要なスキル・知識・自信を習得し、EOC バディが適切なガイダンスとメンタリングを提供できることを目指します。

目標は、シャドウがシステムの信頼性と効率的なインシデント対応を維持しながらオンコールの職務を独立して管理できるよう準備する、協力的かつ教育的な環境を作ることです。このドキュメントは、シャドウが本格的なオンコールエンジニアとして円滑に移行できるよう支援するガイドラインとして機能します。

EOC シャドウへの期待事項

以下は、シャドウイング期間中の EOC シャドウ への期待事項です。これらのステップは、シャドウが完全なEOCの責任を担う前に必要な経験と自信を得られるよう設計されています。

  1. オンボーディング完了後にシャドウローテーションに参加する: シャドウは、SRE(Site Reliability Engineer)またはそれに相当するロールの初期オンボーディングタスクを完了した後にのみシャドウイングローテーションに入るべきです。また、経験豊富なオンコールエンジニアからのシャドウイングと学習を開始する準備が十分に整っているかどうかをマネージャーと話し合うことも含まれます。

  2. 週に1日シャドウイングに充てる: シャドウは数週間にわたって週に少なくとも1日、シャドウイングにコミットすることが期待されます。これによりEOCの職務に段階的に触れることができ、スキルを培う時間が与えられます。自分自身のオンコールシフトに近づくにつれて、関与を増やし、より大きな自信をもってより重要なタスクを担えるようにします。

  3. インシデントとアラートに積極的に参加する: シャドウイング期間中、シャドウはインシデントに積極的に参加し、アラートに対応する必要があります。これには調査中の経緯を追うこと、意思決定の観察、可能な場合のサポート提供が含まれます。実践的な経験を積むことで、成長に不可欠な実務経験が得られます。

  4. 各シフトの開始時にEOCにチェックインする: シフトのたびに、シャドウはEOCにチェックインする必要があります。このチェックインはシフトの期待値を設定し、シャドウが調査やインシデント対応に参加する準備ができていることを伝える機会になります。シャドウとEOC双方がシフトのタスクと責任について共通認識を持てるようにします。

  5. オンコールハンドオーバーの議論に参加する: 可能な場合、シャドウはオンコールハンドオーバーミーティングに参加するべきです。これらの議論は、継続中の問題、前のシフト中に発生したインシデント、注力すべきタスクについての重要なコンテキストを提供します。これらのミーティングへの参加は、シャドウが運用の継続性を理解し、独立したオンコール作業への準備をするうえで不可欠です。

  6. 最終シャドウシフトでは主要な対応者として行動する: 最終のシャドウシフトでは、シャドウは主要な対応者の役割を担い、入ってくるアラートやインシデントを管理します。EOCはセカンダリーサポートとして機能し、シャドウが困難に直面した場合は5分間のエスカレーションウィンドウ内で介入できます。これはシャドウが公式にオンコールローテーションの一員になる前の最終テストとして機能します。

  7. インシデント後の議論と分析に参加する: シャドウは、アラートの対応方法と取られた行動についてチームが振り返るポストインシデントレビューに積極的に参加するべきです。これらのレビューは重要な学習機会を提供し、今後のインシデント対応をより改善・効率化するための洞察を得るのに役立ちます。

  8. 週次オンコールハンドオーバーミーティングに参加する: さらに、SREシャドウは自身のタイムゾーン内の週次オンコールハンドオーバーミーティングに参加することをお勧めします。このミーティングは前週のインシデントをレビューおよび議論する機会を提供し、情報を把握し準備を整えるうえで非常に貴重です。

  9. 「ゲームデー」演習を卒業の要件として参加する: EOCローテーションに正式に参加する前に、シャドウは「ゲームデー」演習に参加するべきです。これは、シャドウが制御された環境で知識とスキルを応用できる模擬インシデントシナリオです。この演習を成功裏に完了することは卒業の形として機能し、シャドウが独立してリアルインシデントを扱う準備ができていることを示します。ゲームデーカレンダーを確認し、予定されているものがあれば参加できます。予定がない場合は、SREバディと協力して1つ企画してください。

これらの期待事項により、シャドウがEOCの責任を効果的に担うために必要な実践的経験、サポート、トレーニングを得られることが確保されます。

EOC バディへの期待事項

EOC バディ(経験豊富なEOC)の役割は、シャドウイング期間中に新しいエンジニアをガイドしメンタリングするうえで不可欠です。EOC バディは、シャドウが実践的な洞察を得て、リアルタイムのインシデント管理を理解し、独立したオンコール責任に必要な自信を培うことを確保するうえで重要な役割を果たします。

このセクションでは、コミュニケーション、メンタリング、および日々のオンコールタスクへのシャドウの積極的な参加に焦点を当てたEOC バディの主な期待事項を説明します。これらのガイドラインに従うことで、EOC バディは支持的かつ教育的な環境を促進し、シャドウが将来のロールへ円滑に移行できるようにします。

  1. シャドウイングへの認識: EOC バディがシャドウされていることを認識することが重要です。これは事前に伝達されるべきで、EOC バディが誰かが行動を観察し学習していることを把握できるようにします。適切なコミュニケーションが、より生産的で協力的な経験の土台となります。

  2. シャドウへのチェックイン: 各シフトの開始時に、EOC バディはシャドウにチェックインするべきです。これによりシフトの期待値を設定し、シャドウがどのタスクやエリアでサポートできるかを明確にするのに役立ちます。また、双方が最初から同じ認識を持てるよう確保します。

  3. インシデント中の思考プロセスを共有する: 調査の過程で、EOC バディはシャドウに積極的に思考プロセスを共有することが期待されます。これには、監視しているダッシュボード、参照しているランブック、実行している特定のコマンドや行動の説明が含まれます。この透明性により、シャドウは調査プロセスをより深く理解し、リアルタイムで学習することができます。

  4. シャドウに情報を提供し続ける: EOC バディはすべての関連するインシデント Issue、Slack の議論、調査にシャドウをタグ付けするよう努めるべきです。そうすることで、シャドウは進行中のインシデントの情報を把握し、適切なタイミングで参加しやすくなります。

  5. 一部のタスクにシャドウを参加させる: EOC バディは、適切な場合にシャドウが小さなタスクを担当するよう促すべきです。これには、軽微なアラートの処理やEOCに関連する他のリクエストのサポートが含まれます。これらの実践的なタスクは、シャドウの学習と成長にとって不可欠な実務経験を提供します。

  6. ガイダンスと明確化を提供する: シャドウが明確化やガイダンスを必要とするときはいつでも、EOC バディはそれを提供できるようにするべきです。特定のアラートの説明、質問への回答、次に取るべきステップの指示など、EOC バディはシャドウの学習プロセスをサポートする重要な役割を果たします。

  7. シフト後のレビューに参加する: シフト後、EOC バディはシャドウとのシフト後レビューに参加することが推奨されます。これらのレビューは、シフト中に処理されたアラートと取られた行動について振り返る機会を提供します。シャドウが質問する機会であり、EOC バディがフィードバックを提供する機会でもあり、経験をできる限り教育的なものにするためです。