アナリティクスエンジニアリングトリアージガイド
概要
アナリティクスエンジニアは週次でトリアージ業務をローテーションします。ローテーションは週単位でアサインされますが、トリアージ担当者はシフト中の日々のモニタリング、Issue の処理、コミュニケーションに責任があります。このガイドでは、毎日何が必要か、Issue の対処方法、ローテーション終了時に完了すべき事項を説明します。
トリアージはローテーション中の優先事項です。 トリアージ責任にできる限り時間と努力を注いでください。アクティブなトリアージ Issue がない場合にのみ、業務運営や OKR 関連のタスクに取り組んでください。
トリアージローテーションスケジュール
トリアージはすべてのアナリティクスエンジニアが参加するローテーションで年単位で編成されています。新しいチームメンバーは、シニアリティとチームのニーズに応じて、チームに参加してから 1〜2 四半期後にローテーションに追加されます。
アサインされた週のトリアージを完了できない場合は、別のチームメンバーとスワップを調整していただけます。
日々の責任
パイプラインの状態監視
毎日 #analytics-pipelines チャンネルを確認します:
- Airflow の失敗
- Monte Carlo の異常
失敗を検出した場合:
- 既存の Issue を検索して、失敗がすでに追跡されているか確認します。
- Issue を作成または更新します:
- 根本的な原因が共通する場合は、関連する失敗を 1 つの Issue にまとめます。
- 重複せず、既存の Issue にコンテキストを追加します。
- 新しい失敗については、AE Triage Errors テンプレートを使用して、個別の根本原因ごとに 1 つの Issue を作成します。
- 週次トリアージ Issue にリンクします:
- 新規・既存のすべての関連 Issue を現在の週のトリアージ Issue にリンクします。
- Issue が複数の週にまたがる場合は、関連するトリアージ Issue のそれぞれにリンクします。
トリアージからの Issue の処理
トリアージ中に Issue が作成された場合:
- 自分自身にアサイン:検出された失敗から作成されたすべての Issue は、最初はトリアージ担当者にアサインされます。
- トリアージと検証を完了します:
- ログ、エラーメッセージ、モニタリングアラートを使用して問題を明確にドキュメント化します。
- スコープを調査し、根本的な原因を特定します。
- 将来のオーナーのためのコンテキストを保持するために、関連する SQL クエリと出力を Issue に貼り付けます。
- 調査して解決を試みる
- トリアージ担当者としての主な責任は、Issue の可能な根本原因を特定することです。
- 自分のスキルセット内で潜在的な修正をデバッグ、テスト、探索します。
- 修正が 3 Issue ポイント未満と予測される場合は、自分自身で修正を実装してください。
- 試みたアプローチ、所見、関連する SQL クエリ(機密/MNPI データを除く)を含め、調査を記録します。
- エスカレーション
- 根本的な原因または必要な修正がドメインの専門知識を明らかに超える場合、または作業が 3 Issue ポイントを超える場合は Issue を再アサインします。
- 修正が 3 ポイント以上の場合は、アナリティクスエンジニアリングマネージャーにアサインと優先順位付けを決定するようタグ付けします。
- エスカレーションする際は、調査した内容、除外した内容、根本的な原因と考えられる内容、Issue の再アサインが必要な理由の簡潔なサマリーを含めます。
ステークホルダーとのコミュニケーション
パイプラインの失敗が発生した場合、ステークホルダーへの積極的なコミュニケーションが不可欠です。私たちの目標は、ステークホルダーが自分自身で問題に気づく前に通知することです。
すべての失敗がインシデントに該当するわけではありません。失敗が正式なインシデント管理プロセスを必要とするかどうかを判断するには、インシデント基準を確認してください。不確かな場合は、過剰にコミュニケーションする方向で行動してください。
ステークホルダーが作成した新しい Issue のレビュー
Team::Analytics Engineeringおよびworkflow::1 - triage and validationラベルが付いたアナリティクスプロジェクトの新しい Issue とリクエストをモニタリングします。アナリティクス Issueをラベルと作成日でフィルタリングできます。必要なコンテキストがあれば、回答または方向性を提供します。リクエストに別のオーナーが必要な場合は、チームマネージャーに通知してオーナーをアサインし、イテレーションにスケジュールしてもらいます。Issue がトリアージされたら、workflow::2 - waiting for prioritizationに移行できます。clean-up::reviewラベルで作成された Issue をモニタリングして、ステークホルダーが Issue を正しいチームにルーティングするのを支援します。このボードを使用して Issue を見つけることができます。
業務終了時のコミュニケーション
#analytics-pipelines に簡単な業務終了時のアップデートを投稿してください。これにより、勤務時間終了後にインシデントが発生した場合、他のチームメンバーがコンテキストを把握して適切に対応できます。
週末ラップアップ
トリアージ週の終わりに:
- ローテーション中に解決された Issue をクローズします。
- オープンのままの Issue に対して、現在のステータスと次のステップを含むアップデートを提供します。
- 次のトリアージ担当者が自分の週を始める際にどこから引き継ぐべきかがわかるよう、#analytics-pipelines に週末の引き継ぎメッセージを投稿します。
