データ開発

このページではデータ開発のライフサイクルを定義します

GitLab におけるデータ開発

GitLab は、インサイトとビジネス上の意思決定を推進するデータソリューションを構築するために、異なるが相互に関連した 2 つのアプローチを展開しています。これらのアプローチは互いを補完するものであり、ビジネス、解決すべき問題、および尋ねられている質問が要求するスピード、品質、信頼性のレベルで結果を提供することに焦点を当てています。アプローチは補完的かつ進化的な性質を持ち、必要に応じて初期段階での開発を後期段階で活用できます。初期段階で開発されたデータソリューションは、十分なビジネスニーズがあれば、後期段階に改善・強化することができます。すべての分析は確立されたデータ分析プロセスに従います。

データアプリケーションごとの開発場所

アドホック開発場所信頼できるデータ開発場所
SnowflakeWORKSPACE スキーマCOMMON および SPECIFIC スキーマ
TableauDevelopment プロジェクトフォルダーProduction プロジェクトフォルダー

開発場所の比較

アドホック信頼できるデータ
使用する場合プロトタイピング / 方向性 / 緊急分析ミッションクリティカルな分析 / 運用分析
Snowflake スキーマの場所WORKSPACECOMMON および SPECIFIC
Tableau フォルダーの場所DevelopmentProduction
手動でのデータ追加オプション対象外
独自のデータ構造の作成オプション対象外
Tableau を使用した可視化オプション必須
エンタープライズディメンショナルモデルを使用して構築オプションオプション
COMMON または SPECIFIC スキーマのデータを使用して構築オプション必須
データカタログに登録対象外必須
信頼できるデータ開発プロセスに従う対象外必須
信頼できるデータフレームワークを使用してテスト対象外必須
ソースシステムへのリンクで監査可能対象外必須
信頼できるデータブランド対象外必須

データ開発

アドホックデータ開発

アドホックは、一回限りまたは限定的な使用のためのレポートやダッシュボードを提供し、長期的な信頼できるデータソリューションとしてまだ成熟していないプロトタイプやデータソリューションの最初のイテレーションも提供します。アドホック開発は、既存のデータソリューションが尋ねられている質問に答えられない場合に実行されます。一回限りまたは限定的な使用のためのアドホック分析向けに開発されたコードは、長期的なソリューションに活用されることを前提に書かれるのではなく、素早く結果を提供する手段です。プロトタイプやデータソリューションの最初のイテレーションのためのアドホック分析向けに開発されたコードは、長期的な信頼できるデータソリューションに活用することができます。

アドホック分析を完了するために、アナリストは通常、エンタープライズデータウェアハウスに対して SQL クエリを書き・実行し、Tableau や Python などのツールを使用して分析するためにデータを抽出します。アナリストとアナリティクスエンジニアは、dbt を使用してアドホック分析を完了し、長期的な信頼できるデータソリューションに活用できるデータソリューションをプロトタイピングすることもできます。時には、テキストファイル、スプレッドシート、またはその他のデータソースから新しいデータを調達する必要があります。多くの場合、アドホックレポートは即時のビジネスニーズを解決し、さらなるアクションは必要ありません。しかし、アドホック分析の結果が追加のデータモデリングやダッシュボード開発を必要とすることがあります。そのような場合には、信頼できるデータ開発を使用してより堅牢で信頼性の高いソリューションを開発できます。

アドホック開発は、データソリューションをプロトタイピングするための究極の柔軟性を提供します。新しいデータセットを探索し、速いペースで反復的な方法で新しい変換を構築する必要がある場合、アドホックデータ開発アプローチを使用できます。その柔軟な性質のため、すべてのアドホックデータ開発がミッションクリティカルな決定を行うのに適しているわけではありません。多くの場合、データソリューションを成熟させるための最初のステップです。ビジネスの意思決定を行うためにアドホックデータソリューションを使用する際は注意が必要です。

アドホック開発は WORKSPACE または EXPLORATIONAL スキーマで行われ、以下のアクセスと権限が適用されます。

  • WORKSPACE スキーマ: ユーザーは作成/挿入/更新/削除の権限がありません。更新は標準化された dbt プロセスを通じて行われます。
  • EXPLORATIONAL スキーマ: ユーザーは作成/挿入/更新/削除の権限を持ち、迅速なプロトタイピングが可能です。このスキーマはあまりガバナンスされておらず、主に信頼された少数の人々が使用します。

信頼できるデータ開発

信頼できるデータは、企業が利用できる最も完全で信頼性が高く正確な分析を提供します。時間とともに組織が成熟し分析の価値が増すにつれて、信頼できるデータも進化し、開発の厳密さも進化しますが、コアステップは一貫しており、要件収集、設計、反復的なワイヤーフレーミング、テスト、運用モニタリングが含まれます。信頼できるデータソリューションは、データテスト、コードレビュー、データカタログへの登録などの品質検証を含む点でアドホックレポートと異なります。信頼できるデータソリューションは、COMMON スキーマに位置するエンタープライズディメンショナルモデル(EDM)または SPECIFIC スキーマ(アプリケーションデータをモデリング)のいずれかで構築できます。どちらのソリューションもデータテスト、コードレビュー、データカタログへの登録があるため、信頼されています。

信頼できるデータ開発では、以下のスキーマを使用します。

  • COMMON スキーマ: Kimball のディメンショナルモデリング技術を使用してクロスファンクショナルなビジネスプロセスをモデリングし、堅牢で容易なデータモデリングのためにスタースキーマ構造でデータを結合できます。
  • SPECIFIC スキーマ: クロスアプリケーションまたはクロスファンクショナルでないデータを表します。時間とともに、これらのデータモデルはクロスファンクショナルなモデルに成熟・進化する場合があります(例: NetSuite データソース)。

信頼できるデータ開発のステップ

data team development_process

信頼できるデータソリューションの基準

すべての信頼できるデータソリューションは以下の基準を満たす必要があります。

  1. ビジネス問題が明確な収益への影響とともに定義されていること
  2. 開発を管理するためのデータプロジェクトエピックが作成されていること
  3. 要件と成功基準がエピックで記録・追跡されていること
  4. v1.0 と v1.1 のスコープが定義され、リリースサイクルが事前に確立されていること(例: 週次、隔週、月次)
  5. ダッシュボードワイヤーフレームが Lucid または Tableau で作成されユーザーと共有されて、「最終ドラフト」に向けて反復していること
  6. ディメンショナルデータモデルソリューションが示された場合、ディメンショナルデータモデルが設計されてエンタープライズディメンショナルモデルバスマトリクスに統合されていること。このステップは SPECIFIC アプリケーションスキーマにモデリングされたデータには適用されません。
  7. DRAFT: Monte Carlo プロジェクトでレビュー中信頼できるデータテストが作成・デプロイされていること
  8. ソースシステムへのデータ検証を含むユーザー受け入れテストフェーズに入っていること
  9. ソリューションがデータカタログに登録されていること
  10. 必要なトレーニングとユーザーイネーブルメントを含めてソリューションがデプロイされていること

信頼できるデータ開発は、一貫性、信頼性、業界ベストプラクティスへの準拠を優先します。

データベース実装

アドホック信頼できるデータ開発の両方において、データは複数のスキーマを介して PROD データベースで利用可能にされます。データは Snowflake と Tableau の複数のスキーマから読み出すことができます。

アドホックデータベース実装

アドホックデータ開発のためにデータを利用可能にするために、データは変換されて Snowflake の PROD データベースで利用可能にされます。このデータは 2 つの異なるスキーマで利用可能です(WORKSPACEEXPLORATIONAL)。

  • WORKSPACE スキーマ: WORKSPACE_ または MNPI データ向けの RESTRICTED_SAFE_WORKSPACE_ バリアントを接頭辞とします。これらのスキーマは標準化された dbt プロセスを必要とします。
  • EXPLORATIONAL スキーマ: EXPLORATIONAL_ または RESTRICTED_SAFE_EXPLORATIONAL_ を接頭辞とします。ユーザーはテーブルの作成、列の追加、データソリューションのプロトタイピングのために読み取りと書き込みの権限を持ちます。スキーマは部門レベルで設定されており、アクセスはスキーマレベルより細かい粒度では提供されません。スキーマの機能的なオーナーシップは部門の VP(または同等職)に帰属します。つまり、VP はアクセスリクエストの場合に承認を提供し、スキーマ内のデータの適切な使用(つまり MNPI、PII、機密データの場合)に責任を持ちます。EXPLORATIONAL スキーマは最もガバナンスが少ないデータスキーマで、究極の柔軟性を提供します。必要に応じてこれらのスキーマを使用することをお勧めします。

信頼できるデータデータベース実装

信頼できるデータは Snowflake の PROD データベースにのみ存在します。EDM メソドロジーまたは特定のアプリケーションメソドロジーに従い、厳格な開発基準を遵守します。

  • スキーマ: COMMON_ または SPECIFIC_ を接頭辞とし、MNPI データには RESTRICTED_SAFE_ バリアントが付きます。
  • メソドロジー: データ変換は dbt を使用して、エンタープライズディメンショナルモデル(ファクトテーブルとディメンションテーブル)または特定のアプリケーションテーブルに整合させます。
  • ガバナンス: 信頼できるデータは厳格な検証、文書化、登録を経ます。

BI ツール実装 - Tableau

Tableau は堅牢なデータウェアハウスの構造、設定、セキュリティを活用して高品質で信頼性の高い分析を提供します。この統合により、データの整合性を維持しながら正確で洞察に富むダッシュボードを作成できるよう、最適化されたデータ取得、ガバナンス、スケーラビリティが確保されます。Tableau はプロジェクトフォルダー環境と認定データソースデータラベルでデータを分類します。

開発と本番プロジェクトフォルダー

  • 開発プロジェクトフォルダー: 進化するデータセットとダッシュボードを用いた反復作業をサポートするプロトタイピングとテスト環境です。このサンドボックス環境は設計フェーズ中の創造性と柔軟性を可能にします。詳細なドキュメントはこちらを参照してください。
  • 本番プロジェクトフォルダー: 信頼できるデータと検証済みの確定されたダッシュボードをホストします。エンドユーザーが検証済みの高品質なコンテンツにアクセスでき、データの整合性を維持し、意思決定をサポートします。本番フォルダーの公開要件はこちらを参照してください。

Tableau 認定データソース

認定データソースは、Tableau レポーティングのための信頼性が高く、再利用可能で、汎用的な唯一の情報源として機能します。これらのデータソースは、精度、コンプライアンス、広範な使いやすさについてレビューされています。ベストインクラスの BI とモデリング標準に従うことで、認定データソースはオンボーディングを合理化し、重複を減らし、一貫性を促進し、意思決定を簡素化して組織のデータエコシステムにおけるその役割を強化します。認定データソースの詳細についてはこちらをクリックしてください。