正規表現の代わりにデータ識別子を使って精度を向上させます
データ識別子は、極めて良好な精度 (誤認率が 10% 未満) で個人を識別可能な情報 (PII) を保護するように設計されています。データ識別子は正規表現より効率性が高いため、保護したい内容の種類にデータ識別子を使用できる場合は、正規表現ではなくデータ識別子を使用します。そのまま利用可能なデータ識別子のパターンは、地域、企業および国ごとの差異に応じて調整されています。さらに、データ識別子には、パターンによって一致するデータを検証する検証チェックが含まれています。このインテリジェンスの追加レイヤーによって、テストデータと、インシデントの誤認につながる他のトリガを除外できます。一方、正規表現は計算の負荷が高く、誤認が増える場合があります。
たとえば、社会保障番号 (SSN) を検出する場合は、正規表現パターンの代わりにランダム化された US SSN データ識別子を使います。ランダム化された US SSN データ識別子は、ユーザーが記述する正規表現より精度が高く、簡単に短時間で実装できます。
データ識別子のパターン言語は正規表現言語の限定されたサブセットです。正規表現の構成または文字には、データ識別子のパターンではサポートされないものがあります。データ識別子のパターン言語の使用