Pipeline Execution グループ - リスクマップ

概要

このページの目的は、Pipeline Execution グループのリスクマップを作成し、共有し、イテレーションすることです。

目標

リスクマップをツールとして活用して:

  • チームが直面するリスクを理解する
  • 軽減計画の透明性を高める
  • 限られたリソースを効果的に配分する
  • 品質向上に向けて戦略的に協力する

一般リスクマップ

マップの凡例

  • 影響 - リスクが軽減または除去されない場合に何が起こるか
  • 影響レベル - 1(低)から 5(高)で評価
  • 確率 - 1(低)から 5(高)で評価
  • 優先度 - 影響 × 確率。最高スコアを最初に対処。
  • 軽減策 - 影響または確率を下げるために何ができるか
リスクエリアリスクの説明影響影響レベル(1 低 ~ 5 高)確率(1 低 ~ 5 高)優先度軽減策
チーム/容量Pipeline Execution には BE エンジニア 6 名と FE エンジニア 2 名がおり、大きな(かつ増え続ける)バックログを抱えているバーンアウト、SLO/SLA 未達成、チームの生産性低下5315BE のヘッドカウントをより確保できるようにする
チーム/容量スループットが予測不能Say/Do 率が低い、SLO/SLA 未達成
チーム/容量UX の安定したカウンターパートがいなくなったユーザビリティへのリスクと SUS バグの増加。責任を引き継ぐ EM/PM のバーンアウトの可能性。5312エンジニアリングチームの規模が大きくなった場合、他のカウンターパートのスケールアップを検討
チーム/容量SET の安定したカウンターパートが共有(30%)であるリグレッションバグの見逃し4416
チーム/エスカレーションRapid Actions、Engineering Allocations などのエスカレーションがチームの優先事項への集中を妨げているバーンアウト、自律性の低さ、チームの生産性低下5420gitlab.com での緊急の Issue を積極的に軽減する方法を見つける、FE のブロックを解除するために GraphQL に取り組む、CI 専任の SRE を見つける
プロダクト/バックログバグと技術的負債のバックログが長年にわたって蓄積されているSLO/SLA 未達成、優先順位付けが難しくなる5315ドメインの所有権を見直してギャップをより適切に分担する
インフラの可用性Sidekiq シャードがスタックすることでパイプラインがスタックするE2E テストスイートの大規模な失敗および/または顧客の使用に影響4312
品質/テスト可能性パフォーマンステストを考慮した本番トラフィックの再現が難しい4416
品質/テストカバレッジこれは成熟したプロダクトであり、多くの機能があり、機能セットのテストカバレッジがまだない(歴史的なテストのギャップ)リグレッションバグの見逃し4416
プロダクト/コストCI パイプラインの非効率性潜在的に回避可能な CI 分の使用5525パイプライン実行時間を最適化する機能を開発する
機能/パフォーマンスパフォーマンスが低いデータベースクエリgitlab.com データベースへの負荷追加、ページと機能の読み込み時間が遅い339最近の Rapid Actions が役立ち、リグレッションしないよう継続的な取り組みがある
チーム/効率FE のブロックを解除するために REST を GraphQL に移行するFE の生産性と提供5315
機能/依存関係Runner のレスポンスと処理時間に依存
- https://gitlab.com/gitlab-org/gitlab/-/issues/326113
- https://gitlab.com/gitlab-com/gl-infra/production/-/issues/3631
Runner が処理に失敗した場合、ジョブが実行されず、パイプラインがスタックする5315
インフラの可用性CI/CD データモデルのスケーリングCI/CD データモデルのスケーリング5210CI/CD データモデルブループリント MR で積極的に取り組み中