Usar identificadores de dados em vez de expressões regulares para aumentar a precisão
Identificadores de dados são projetados para proteger informações que identificam pessoalmente (PII, personally identifiable information) com boa precisão (taxa de falso positivo de < 10%). Se o identificador de dados estiver disponível para o tipo de conteúdo que você deseja proteger, use o identificador de dados em vez de uma expressão regular, pois identificadores de dados são mais eficientes do que expressões regulares. Os padrões de fábrica do identificador de dados são ajustados para obter precisão, incluindo região, setor e nuances do país. Além disso, os identificadores de dados incluem verificações de validação para verificar os dados que correspondem ao padrão. Essa camada adicional de inteligência examina os dados de teste e outros acionadores de incidentes de falso positivo. Expressões regulares, por outro lado, podem ser custosas computacionalmente e podem conduzir a mais falsos positivos.
Por exemplo, se você quiser detectar números de identidade (SSN) dos EUA, use o identificador de dados de SSN aleatório em vez de um padrão de expressões regulares. O identificador de dados SSN norte-americano aleatório é mais preciso do que as expressões regulares que você pode gravar e tem uma implementação muito mais fácil e rápida.
A linguagem de padrões do identificador de dados é um subconjunto limitado da linguagem de expressões regulares. Nem todas as construções ou caracteres de expressões regulares são suportados em padrões do identificador de dados. Para usar a linguagem do padrão do identificador de dados