Content last updated 2026-02-12

アンケートを設計・レビューする際に低品質なデータを特定する方法

アンケートから取り除くべきデータを検出するのに役立つ情報。

UX リサーチにおける大きな課題は、サンプリングしようとしているユーザーの代表となるデータを確保することです。インタビューでは設定された時間内で人と話して回答の質を評価できますが、アンケートのデータは通常匿名で、解析する個別の回答が多いため、検証が難しくなります。アンケートを実施する際の重要なゴールは、低品質なデータ(例: 人間ではなく bot や AI によって提供されたデータ、人間によって提供された誤った/不正確なデータ)の量を制限し、アンケートの結果に対してより自信を持てるようにすることです。このハンドブックページでは、最終データセットのデータ品質に対する自信を高めるためにアンケートの設計と分析を改善するさまざまな方法を取り上げます。

無効なアンケート回答を特定するためのアンケート設計の方法

アテンションチェック

アテンションチェック質問は、参加者が注意を払い、思慮深く回答していることを確認するために設計されています。クリーニングや分析中により簡単にフィルタリングするために、アテンションチェック質問を含めることを検討してください。

  • 例: 「注意を払っていることを確認するため、この質問では「同意する」を選択してください。」回答者が「同意する」を選択した場合、これは質問を注意深くレビューして回答していることを示すため、この回答者は除外すべきではありません。
  • 例: 「以下の質問は、あなたが実在の人物であることを確認するためのものです。下のボックスに「Red」という単語を入力してください。」回答者が「Blue」と答えた場合、これは注意を払っていない可能性が高いことを示しており、データセットから除外すべきです。

アテンションチェックは戦略的に使用すべきです。複雑なアンケート、長いアンケート、多数の多肢選択式質問を含むアンケートに最も適しています。短いアンケート、多数の自由回答式を含むアンケート、スクリーナーアンケートには適していません。

ボット検知と詐欺検知

Qualtrics でボット検知詐欺検知の両方の設定を有効にすることを推奨します。データ内の両方のアンケート設定からのスコアを比較することで、参加者をフィルタリングするかどうか判断するのに役立ちます。

  • 例: 回答者のボット検知スコアが 0.2、詐欺検知スコアが 100 の場合、回答に問題がある可能性が高く、除外できます。
  • 例: 回答者のボット検知スコアが 0.9、詐欺検知スコアが 10 の場合、フィードバックは正当である可能性が高いことを示唆します。
アンケート設定Qualtrics データのカラム名最小値最大値スコアの解釈
ボット検知Q_RecaptchaScore010.5 未満のスコアは、応答が bot である可能性が高いことを意味します。
詐欺検知Q_RelevantIDFraudScore013030 以上のスコアは、応答が詐欺かつ bot である可能性が高いことを意味します。

アンケートデータをクリーニングする際に確認すべきこと

未完了のアンケート回答

未完了の回答はデータ分析と解釈を歪める可能性があります。何が未完了の回答に該当するかを定義することが重要です。たとえば、アンケートに 10 問の質問があり、参加者が 3 問しか回答していない場合、その回答を削除したいと考えるかもしれません。

  • 例: 参加者がアンケートを開始したが、属性セクション後に離脱し、残りの質問が未回答のままの場合。この回答はおそらく削除すべきです。
  • 例: アンケート回答者が NPS 質問を完了したが、自由回答式の応答を提供しなかった場合。この回答は削除する必要がないかもしれません。

望ましい基準に合わない参加者

基準を満たさない参加者をフィルタリングすると、収集されたデータがアンケートの目的に沿うようになります。このプロセスを促進するために基準を明確に定義してください。

  • 例: 有料ユーザーを対象としたアンケートでは、無料プランのユーザーからの回答は除外する必要があります。
  • 例: 最初は研究基準を満たさない回答者からのスクリーナーアンケートデータは、後で基準が調整される場合のためにキープしておきましょう。完全な適合ではない可能性のある回答者が参加できる可能性があります。

完了が早すぎる回答

迅速な完了は、参加者が質問に思慮深く取り組んでいないことを示している可能性があり、信頼性のないデータにつながる可能性があります。

  • 例: いくつかの複雑な質問のあるアンケートが 30 秒未満で完了されている場合、疑わしいと見なされ、除外候補となるべきです。

ストレートライニングまたは他のパターンベースの回答

ストレートライニングは、回答者が質問を考慮せずに一貫して同じ回答オプションを選択する場合に発生します。これは注意散漫または真の関与の欠如を示す可能性があります。

  • 例: 回答者がアンケートのすべての質問で「強く同意する」を選択している場合。ストレートライニングや他のパターンベースの回答に対する完璧な解決策はありません。これらの回答が 1 つまたは少数しかない場合、データが信頼できないため、これらの参加者を除外するのがベストプラクティスです。データ内にこのような回答が多数見つかる場合は、選択肢が多すぎるマトリックススタイルの質問を避けるか、1 ページに 1 つの質問を提示するようアンケートを調整できます。
  • 例: アンケート全体を通じて「強く同意する」と「同意する」を混ぜて選ぶ回答者は除外すべきではありません。

一貫性のない回答

一貫性のなさは、誤解、注意の欠如、または意図的な欺瞞を示している可能性があります。矛盾する情報を調査して調整してください。

  • 例: 回答者が GitLab のみを使用していると述べているが、その役割でマージリクエスト(GitLab の用語)の代わりにプルリクエスト(GitHub の用語)を実行していると述べている場合。このフィードバックは、その人が GitLab ユーザーではないことを示唆しており、データセットから除外できます。
  • 例: 回答者が GitLab を使用していて、グループとプロジェクトでマージリクエストを行う経験がある(GitLab 固有の用語)と述べている場合。この回答は GitLab を使用したことのある人物と一致しているため、データに残すべきです。

意味不明または疑わしい(つまり AI 生成の)自由回答フィードバック

自由回答フィードバックは一貫性があり関連性があるべきです。意味不明または疑わしい回答は、自動化または不正な投稿を示している可能性があります。

  • 例: 回答がランダムな文字で構成されているか、尋ねた質問に対処していない場合、AI によって残されたフィードバックと見なされる可能性があります。これは除外候補であることを示唆します。
  • 例: 質問に直接答え、人間が書いたように聞こえる回答は、AI 生成でないフィードバックと見なされる可能性が高いため、回答者を除外すべきではありません。

不正または不誠実な回答を示唆する可能性のある一般的な AI 生成のフレーズ:

  • “I apologize for the inconvenience. Unfortunately, I am unable to provide real-time data at this moment.”
    • この応答は、丁寧な謝罪を提供するが直接的な回答を提供しないという典型的な AI の振る舞いを示し、特にリアルタイムのデータについて言及しています。AI 生成の回答はしばしばフォーマルな言語をデフォルトとし、リアルタイムのインタラクションへのコミットを避け、曖昧または回避的な回答につながることがあります。
  • “As of my last knowledge update…”
    • この応答は、修飾語句や事前にプログラムされた応答に依存する AI の傾向を示しています。AI 生成のコンテンツには、しばしば古い情報への依存を示す免責事項やフレーズが含まれ、システムがリアルタイムの更新や微妙な理解を提供できないことを反映しています。
  • “Certainly, here is a summary of the requested information.”
    • この応答は、フォーマルな言語を使用し、構造化された形式で情報を提供することを申し出ることにより、AI 生成コンテンツに典型的な特徴を示しています。AI 生成の応答はしばしばデータや要約を率直に提供することを優先し、人間のコミュニケーションに固有の自発性や文脈的理解を欠いています。「certainly」という単語に続いて事前に決められたアクション(要約を提供する)を行うことは、真の人間のインタラクションよりもスクリプト化された応答であることを示唆しています。