GitLab.com SaaS データパイプライン

GitLab.com SaaS データパイプライン ワーキンググループ

属性

プロパティ
作成日2022-09-30
目標終了日2023-10-01
Slack#wg_gitlab_to_snowflake_pipeline(社内からのみアクセス可能)
Google Docワーキンググループアジェンダ(社内からのみアクセス可能)
Issue ボードIssue ボード

ビジネス目標

MR レートとパフォーマンス KPI(製品開発)、Gainsight 向け製品利用状況、ライセンス利用率(カスタマーサクセス)、製品ヘルスダッシュボード(ヘルス)、拡張・解約傾向モデル、予測、テリトリー管理(セールス)などのレポートおよびアナリティクスのユースケースに向けて、信頼性が高く、安定していて、スケーラブルかつ安全なデータフィードを提供します。

技術目標

PostgreSQL データベース上の createupdatedelete 操作をキャプチャし、それらを GitLab データプラットフォームに保存して、さらなる処理とアナリティクスに活用できるデータパイプラインを実装します。

ハイレベルデザイン

終了基準

  • 信頼性: PostgreSQL データベース上のすべての「メタデータ」および関連する記述データ(createupdatedelete)操作が、元のイベントから 6 時間以内にキャプチャ、転送され、データプラットフォームに読み込まれること。部分的に達成
    • バックグラウンドマイグレーションは updated_at カラムが更新されないため、キャプチャされません。
  • 安定性: エンドツーエンドのソリューションが 30 日間、中断なし、人手による介入なしで動作すること。達成
  • スケーラビリティ: GitLab.com と連動してスケールし、新しい GitLab.com データベース、シャード、ゾーン、テナント、またはクラウドロケーションが展開される際に過度な負荷をかけずに拡張できること。部分的に達成
    • 既存のアーキテクチャではこれが不可能であるため、部分的な達成となっています。アーキテクチャの変更に伴い、要件として含まれています。
  • セキュリティ: レッドデータは読み込まれないか、データのサブプロセッサーではないシステムに保存する場合はハッシュ化されること。達成
  • すべてのビジネスパートナーとの間で定義・合意された SLO。達成
  • エンドツーエンドの完全な監視。達成

役割と責任

ワーキンググループの役割担当者肩書き
エグゼクティブステークホルダーDavid SakamotoVP, Customer Success
ワーキンググループ DRI / ファシリテーターDennis van RooijenSenior Manager Data
機能リード(データ)Ved PrakashStaff Data Engineer
機能リード(インフラ)
メンバーt.b.d.Senior Data Engineer Big Data
メンバーJustin WongData Engineer
メンバー(インフラ)Gerardo Lopez-FernandezEngineering Fellow, Infrastructure
メンバー(データベース信頼性)Alexandar SosnaSenior Database Reliability Engineer
メンバー(プロダクト)
メンバー(セキュリティ)Kyle SmithSr. Security Risk Engineer
メンバー(開発)Nick NguyenSenior EM, Enablement: Data Stores