データサイエンスユースケース: キーワード

データサイエンスのキーワード

用語は対応する Wikipedia 記事にリンクしています。

  • data science(データサイエンス): 科学的手法、アルゴリズム、システムを用いてデータから知識と洞察を抽出すること
  • decision science(デシジョンサイエンス): ビジネス課題に対して、データサイエンスを behavioral science(行動科学)design thinking(デザイン思考) と組み合わせ、エンドユーザーを理解する手法
  • business intelligence (BI): 売上統計や運用メトリクスといった過去データを分析・レポートし、戦略的意思決定を導くこと
  • data analysis(データ分析): 有用な情報を発見することを目的に、データの検査・クレンジング・変換・モデリングを行うこと
  • data mining(データマイニング): 機械学習、統計、データベースシステムなどの手法・ツールを用いてデータからパターンを発見すること
  • exploratory data analysis (EDA、探索的データ分析): データセットの主要な特性を要約し、より複雑なモデルや論理的な次のステップの設計に役立てること
  • data engineering(データエンジニアリング): データサイエンスに向けて、データを収集・クレンジング・保存・準備するためのインフラを構築すること
  • DataOps: データ分析の品質向上とサイクルタイム短縮を目指す、自動化された、プロセス指向の方法論。データ向けの DevOps に近いが、いくつかの重要な違いがある
  • artificial intelligence (AI、人工知能): 人間の推論をモデルに、通常人間の知能を要するタスクを実行できるコンピュータシステム
  • AIOps: AI とビッグデータが交差する領域における DataOps。多くの場合、機械学習を活用して継続的な洞察を継続的改善に活かし、コラボレーション自動化、パフォーマンス監視、イベント相関なども含まれる
  • machine learning (ML、機械学習): AI のサブセット。システムが入力データのパターンを識別して学習し、それを新たな問題やリクエストに適用する仕組み。データサイエンティストはコンピュータをステップごとにプログラミングするのではなく、タスクを「教える」ことができる
  • supervised learning(教師あり学習): ML のサブセット。データサイエンティストがアルゴリズムに望む結論を導くように指導・教示する。例として、正しくラベル付け・特徴付けされた問題のデータセットで訓練することにより、システムが問題を識別できるようになる
  • deep learning(ディープラーニング): 入出力層が複数ある高度な機械学習システム。1 段階の入出力しか持たない浅いシステムと対比される
  • MLOps: DevOps や DataOps と同様、データサイエンティストと運用担当者間のコラボレーションとコミュニケーションにより、本番 ML ライフサイクルを管理する取り組み。自動化を推進し、ビジネス・規制要件に応じた品質改善を目指す

データサイエンスに関連するキーワード

用語は対応する Wikipedia 記事にリンクしています。

  • ETL (extract, transform, load): 複数ソースからのデータを統合し、共通または標準化されたフォーマットに正規化・変換すること。多くの場合データウェアハウスの構築に用いられる
  • data visualization (dataviz、データ可視化): テキストベースの情報を視覚的に表現することで、パターン・傾向・相関の認識を助け、データの意味を理解しやすくすること
  • data model(データモデル): データセット同士がどのように接続され、処理・保存されるかを定義するもの
  • data warehouse(データウェアハウス): 組織が収集したすべてのデータを格納し、ビジネス上の意思決定の指針として活用するためのリポジトリ
  • R: 統計計算用のプログラミング言語。統計学者やデータマイニング技術者がデータ分析や統計ソフトウェア開発に用いる
  • Python: データの操作・保存に加え、汎用プログラミングにも広く使われているプログラミング言語
  • SQL (Structured Query Language): データの更新や取得などのタスクを実行するために使われる宣言型プログラミング言語
  • big data(ビッグデータ): 従来のデータ処理ソフトウェアでは扱いきれないほど大規模・複雑なデータセット
  • classification(分類): 教師あり学習の一例で、アルゴリズムが既存カテゴリの特徴に基づいて新しいデータをそのカテゴリに割り当てる手法。たとえば、過去にオンラインで $20 以上を使った顧客との類似性に基づき、ある顧客がオンラインで $20 以上を使う可能性が高いかを判定するのに使える
  • cluster analysis(クラスター分析): 分類に似ているが、アルゴリズムが入力データを受け取り、データ自体の中で類似点を見つけて、似ているデータポイントをグループ化する手法。つまり教師あり学習を伴わない分類
  • cross validation(交差検証): 機械学習モデルの安定性や精度を検証する手法。多くの場合、訓練セットを 2 つに分け、片方でアルゴリズムを訓練し、もう片方に適用して検証する
  • linear regression(線形回帰): 観測データに線形方程式をフィッティングして 2 変数間の関係をモデル化し、関連する既知の変数から未知の変数を予測する手法
  • causal inference(因果推論): 原因と結果の関係性をテストするプロセス。多くの場合、良質なデータとアルゴリズムに加えて専門領域の知見を必要とする
  • hypothesis testing(仮説検定): 与えられた仮説が真である確率を統計を用いて判定すること。科学分野でよく使われる
  • statistical power(検出力): 帰無仮説が偽であるときに、それを正しく棄却する確率。検出力が高いほど「変数に効果がない」と誤って結論する可能性が低くなる
  • standard error(標準誤差): 推定値の統計的な精度を示す尺度。一般にサンプルサイズが大きいほど標準誤差は小さくなる