GDPR削除
GDPR削除の自動化プロセス
GDPRプロセスのサポート
このプロセスの技術的な背景はこちらに記載されています: Runbook
プロセスの簡単な概要:
graph LR
A[Driveload_gdpr-delete-requests] --> B[dbt_gdpr_delete_requests] --> C[Tableau Report] --> D[Log_output.csv]Driveload_gdpr-delete-requests
標準的なDriveloadプロセスで、このフォルダーでファイルを探します。
dbt_gdpr_delete_requests
修正されたDBT DAGです。注意すべき2つの重要な点があります:
- 実行操作マクロ: gdpr_bulk_delete
- このマクロはDriveloadプロセスで提供されたすべてのデータを読み込み、1レコードずつループして、Driveloadファイルで提供された内容に応じてgdpr_deleteまたはgdpr_delete_gitlab_dotcomマクロを実行します。
- さらに、各行を処理した後、このプロセスはRAW.Driveloadテーブルのソースレコードを削除します。このプロセスはメールアドレスのすべてのデータを削除するように設計されているため、ソースレコードを長期間保存することができません。
- DAGパラメーター: –log-path gdpr_run_logs –log-format json
- これにより、このデータを抽出するために文字列を操作する必要がないように、ログ出力のより良いフォーマットが提供されます。
- また、このjsonデータを他のタイプのDBTログとは別に解析してアップロードするための別の解析パスを
orchestration/upload_dbt_file_to_snowflake.pyで作成しました。 - 最後に、これらのログが一般的なログと混在せず、最新の実行のみに関連するログのみを含む一貫したフォーマットを持つように–pathパラメーターが作成されました(このパスは実行間で持続しません)
トラブルシューティング
サポートエンジニアはRunbookに記載されている正しいCSV入力を提供する責任があります。
エラー処理: 技術的なエラーが発生した場合(例: 間違ったCSVデリミター)、データプラットフォームチームはトリアージプロセス中にこれを特定し、削除が正しく処理されるように対応します。チームメンバーによる入力エラーの場合、データプラットフォームチームは将来の同様のミスを防ぐためにその個人に連絡します。
検索プロセス: 削除リクエストを担当したサポートエンジニアを特定するには、このプロジェクトで該当のメールアドレスを検索してください。
Tableauレポート
ワークブック、詳細はこちら:
- ここで特に注目すべき点は、データソースにカスタムSQLクエリが添付されており、バッチから不要なレコードの大部分をフィルタリングしようとしていることです。
- フィルターはいくつかのフィールドを除外し、100件以上のログレコードがある実行のみを返します。このプロセスがDriveload入力なしで実行される場合は50〜70行が作成され、入力があった場合は250行以上になるため、必要のないレコードに対するクリーンな除外が可能です。
- Runbookでは、データを抽出するためにTableauダウンローダーを使用することが詳述されていますが、これが問題になる場合で、Snowflakeアクセスがある場合は、Snowflakeを通じて非常に簡単にデータを抽出できます。
