Especificação da linguagem padrão do identificador de dados
Você pode usar três tipos de tokens ao definir um padrão de identificador de dados. Os tokens são sequências de caracteres que não são espaços em branco no início do arquivo, ou precedidos por um ou mais espaços em branco, seguidos por espaços em branco ou pelo fim do arquivo. Os três tipos de tokens que são usados em padrões do identificador de dados são:
- Caracteres literais
- Expressões entre colchetes
- Caracteres especiais
Você pode seguir cada token com um quantificador opcional.
Os padrões do identificador de dados correspondem a somente um token ou um conjunto completo de tokens.
Caracteres literais, metacaracteres e caracteres especiais
A maioria dos caracteres são correspondências literais na linguagem padrão do identificador de dados. Por exemplo, o caractere
a
no padrão do identificador de dados corresponde ao caractere a
em seu conteúdo. A linguagem padrão do identificador de dados inclui quatro metacaracteres. Para fazer a correspondência desses metacaracteres como caracteres literais, use a barra invertida para escapar dos caracteres em seu padrão de identificador de dados. Consulte Metacaracteres para obter as descrições desses metacaracteres.Caractere | Descrição |
|---|---|
[ | Esse caractere é usado para começar uma expressão entre colchetes. |
{ | Esse caractere é usado para quantificar o token precedente. |
? | Esse caractere é usado para quantificar o token precedente. |
\ | Esse caractere é usado para escapar do caractere seguinte. |
A linguagem padrão do identificador de dados inclui cinco caracteres especiais predefinidos. Consulte Caracteres especiais para obter as descrições desses caracteres especiais.
Caractere | Descrição |
|---|---|
\l | Esse caractere especial faz correspondência com qualquer letra do ASCII. |
\L | Esse caractere especial faz correspondência com qualquer caractere de letras não-ASCII, incluindo caracteres Unicode. |
\d | Esse caractere especial faz correspondência com qualquer dígito do ASCII. |
\D | Esse caractere especial faz correspondência com qualquer dígito não-ASCII, incluindo caracteres de Unicode. |
\w | Esse caractere especial faz correspondência com qualquer caractere não correspondido por \l ou por \d , incluindo caracteres de Unicode. |
Expressões entre colchetes
As expressões entre colchetes começam com
[
e terminam com ]
, e contêm pelo menos um caractere dentro, no corpo da expressão. Por exemplo, a expressão entre colchetes [abcd]
faz correspondência com qualquer das letras "a", "b", "c" ou "d".Você pode incluir uma faixa de caracteres dentro de uma expressão entre colchetes separando dois caracteres com um hífen:
-
. Por exemplo, a expressão entre colchetes [a-z]
faz correspondência com as letras minúsculas de "a" a "z". Quaisquer dois caracteres separados por -
são interpretados como uma faixa. A ordem relativa da faixa não importa: [a-z]
e [z-a]
correspondem aos mesmos caracteres.Você pode incluir os caracteres "]" e "-" em sua expressão entre colchetes se você seguir estas regras:
- O caractere "]" deve aparecer como o primeiro caractere em sua expressão entre colchetes. Por exemplo:[]a-z]faz correspondência com o caractere "]" ou qualquer letra minúscula entre "a" e "z".
- O caractere "-" deve aparecer como o primeiro ou último caractere em sua expressão entre colchetes. Se sua expressão entre colchetes contém os caracteres "]" e "-", "]" deve ser o primeiro caractere, e "-", o último caractere. Por exemplo:[]-]faz correspondência tanto com "]" quanto com "-".
Ordem de interpretação
Os padrões do identificador de dados são interpretados da esquerda para a direita. Por exemplo, a expressão entre colchetes
[a-d-z]
é interpretada como a faixa a-d
e então os literais -
e z
.Quantificadores
Você pode seguir qualquer token em seu padrão do identificador de dados com um quantificador. O quantificador especifica quantas ocorrências do padrão a corresponder. Consulte Quantificadores para obter uma descrição dos quantificadores disponíveis na linguagem padrão do identificador de dados.
Quantificador | Descrição |
|---|---|
? | Esse quantificador especifica que a expressão deve corresponder a zero ou uma ocorrência do token precedente. |
{ n } | Esse quantificador especifica que a expressão deve corresponder a exatamente n ocorrências do token precedente. |
{ n , m } | Esse quantificador especifica que a expressão deve corresponder a entre n e m ocorrências do token precedente (inclusivo). |