GitLab における Data Analytics

GitLab Data Analytics チームのハンドブック

Data Analytics チームのミッションは、信頼性が高くスケーラブルなデータソリューションでビジネス上の意思決定と戦略のインパクトを最大化することです。

私たちは、すべての GitLab チームがデータ成熟度を高められるよう支援することでこれを実現しています。その際、私たちのGitLab バリューData Team の原則に従います。

Data Analytics の責務

Data Analytics チームは以下の事項に直接責任を持ちます:

  • 会社の主要業績評価指標(KPI)の定義・データベース・データビジュアライゼーションを管理・ガバナンスする
  • データビジュアライゼーション・データモデリング・データ品質・データ統合を含むカスタマイズ可能なデータサービスを提供する
  • データ・アナリティクスシステムに関連するガバナンス・リスク・コンプライアンスプログラムを支援する

さらに、Data Analytics チームは以下の責務を支援します:

  • データリーダーシップチームと連携して:
    • GitLab のデータアセットの価値を最大化するためのデータ戦略を策定・公開する
    • データ成果物・進行中のイニシアティブ・今後の計画について定期的な更新情報を発信する
  • Data Platform チームと連携して:
    • すべての GitLab チームのレポーティング・分析・ディメンショナルモデリング・データ開発を支援する会社の中央エンタープライズデータウェアハウスを構築・維持する
    • マスターデータ・参照データ・データ品質・データカタログ・データ公開などのデータ管理機能を開発する
    • すべての人がデータとアナリティクスを活用できるセルフサービスのデータ機能を提供する
    • GitLab のデータシステムにおけるデータ品質の実践とプログラムを定義・推進する

Data Analytics チームにおけるハンドブックファースト

GitLab ではハンドブックファーストを実践しており、以下の方法で推進しています:

  1. ビジネスパートナー(すべての GitLab チームメンバー)が最新かつ正確な情報でハンドブックを更新できるよう支援する。
  2. コンテンツをレビューし、データの機密性とセキュリティを考慮しつつ、ハンドブック内の情報がデータを適切に反映していることを確認する。
  3. Data Team のハンドブックセクションを更新する
    • エキサイティングな Data Analytics コンテンツを追加する
      • 今後のコンテンツ例: データビジュアライゼーション: ヒントとコツデータストーリーテリング
    • Data Team のプロセスやコードベースの変更を反映する(より良いプロセスやコードについては私たちも非常に興奮しています!誰でもそうですよね!)

アナリティクスとは何か、なぜ実施するのか?

アナリティクスとはデータ情報・知識・知恵に変換する実践であり、以下の目的のために行います:

  1. 効率の改善とコスト回避
    1. 人的資本 - ロケーションファクター・オファー受諾率・採用コスト
    2. 財務 - ARR・新規パイプライン創出・クレジットカード失敗率
    3. 販売チャネル - 勝率・サービス付帯率
    4. マーケティング - 創出した商談・製品ダウンロード数
  2. ビジネスモデルの改善
    1. アナリティクス計測 - サインアップ成長・提供した新機能・主要機能
    2. 顧客アナリティクス - ファーモグラフィクス・採用トレンド・利用状況と契約の比較
    3. 顧客購買トレンド - 更新・アップグレード・ダウングレード
  3. 顧客体験の改善
    1. データプロダクト - 業界ベンチマーク・データ API・アルゴリズム
    2. データを活用したプロセス改善
    3. 製品内インサイト

データ分析プロセス

Data Analytics・上級 Data Analytics・データサイエンスはすべて データ分析プロセス から始まります。

データ分析プロセス は5つのステップで構成されています:

graph LR
  A[問題提起]-->B
  B[データ収集]-->C
  C[前処理]-->D
  D[モデリング]-->E
  E[プレゼンテーション]-->A

Data Analytics において、文脈がすべてです。文脈は、データアナリストが問題・データ・データインサイトを生成するための手法をどのように捉えるかを方向付けます。

問題提起

問題提起 ステップでは、ビジネスパートナーとともにビジネス課題を明確に定義することが不可欠です。ビジネスパートナーが求めているデータインサイトのビジネス課題を明確に定義することで、データアナリストは成功基準を設定し、問題が利用可能なデータで技術的に解決可能かどうかを確認し、問題に対する最大のビジネスインサイトを提供できるようになります。

データ収集

データ収集 ステップでは、データアナリストが分析のインパクトや一般化を制限する可能性のあるデータ上の注意点を探索・理解し、データバイアスデータ上の懸念点を評価することが重要です。各ビジネスシステムでデータがどのように収集されているかを理解することで、適切な方法で正確なデータをレポーティングできます。このステップでは、信頼性の高い変換のためにデータ型が正確であることを確認することが重要です。

このため、このステップはソースシステム担当者とのフィードバックループの一部でもあります。Data Team メンバーがデータフィールドが 欠損している または 不正確にキャプチャされている と判断した場合、GitLab の誰もがソースシステム担当者に連絡し、対象のデータフィールドの更新または追加を依頼することが責務となります。

前処理

前処理 ステップでは、データアナリストがデータを準備・クレンジングし、データ品質を検査して、スケーラブルなレポーティングのための最適なデータ構造を設計します。このステップでは、モデルをレビューしてビジネスにわかりやすいモデルであることを確認することが重要です。

モデリング

モデリング ステップでは、すべての GitLab チームメンバー向けにエンタープライズディメンショナルモデル形式で新しいデータモデルを作成することを目指します。新しいデータ構造が正確なビジネスプロセスを反映していることを確認するために、まず**エンティティ関係図(ERD)**から始めます。すべてのデータモデルはData Platform チームによってレビューされます。

プレゼンテーション

プレゼンテーション ステップでは、データアナリストが強力なデータビジュアライゼーションを駆使したデータストーリーテリングの能力を発揮します。データアナリストは、実用的なビジネスインサイトをパッケージ化してステークホルダーに効果的に伝えることが重要であることを認識しています。実際、ビジネスパートナー(すべての GitLab チームメンバー)がデータを信頼できるよう、詳細な根拠を示すドリルダウン付きのビジネスインテリジェンス(BI)ダッシュボードなどのデータソリューションが強固なデータ品質チェックを持つことと同様に重要です。

Data Analytics の素晴らしい点は、各インサイトが追加のビジネス上の問いの連鎖を生み出すべきであり、それによって データ分析プロセス が再びサイクルすることができるという点です。