Como distinguir metadados do conteúdo do arquivo e dos dados do aplicativo
Não confunda a extração de metadados com a extração de conteúdo ou dados de aplicativos. Algum texto que pode parecer metadados é extraído como conteúdo ou dados de aplicativos. Dados não extraídos como metadados descreve alguns tipos de dados que não são extraídos como metadados do formato de arquivo para ajudá-lo a determinar se e quando você precisará ativar a detecção de metadados.
Essa lista não é completa e é fornecida somente para referência rápida. Pode haver outros tipos de dados que não são extraídos como metadados. A prática recomendada é usar o utilitário de
filtragem
para verificar o suporte aos metadados de formato de arquivo. Usar sempre o utilitário de filtro para verificar a compatibilidade com metadados de formato de arquivoTipo de conteúdo | Método de extração |
|---|---|
Dados de aplicativos | Os dados de aplicativos que incluem informações de transporte de mensagem são extraídos separadamente da extração do formato de arquivo. Para todas as mensagens recebidas, o sistema extrai o envelope da mensagem (cabeçalho) e as informações de assunto como texto na camada do aplicativo. O tipo de dado do aplicativo a ser extraído dependerá dos canais compatíveis com o servidor de detecção ou com o endpoint. |
Cabeçalhos e rodapés | O texto do cabeçalho e do rodapé do documento são extraídos como conteúdo, não metadados. Para evitar falsos positivos, adicione ou remova da lista de permissão os cabeçalhos e rodapés dos documentos. Consulte IDM (Indexed Document Matching - Correspondência de Documentos Indexados) para obter detalhes. |
Texto de marcação | O texto de marcação é extraído como conteúdo, não metadados. A extração do texto de marcação é compatível com HTML, XML, SGML, entre outros. A extração de texto de marcação está desativada por padrão. Consulte Configurações avançadas do servidor para ativar a extração do texto de marcação. |
Texto oculto | O texto oculto é extraído como conteúdo, não metadados. A extração de texto oculto sob a forma de mudanças controladas é compatível com alguns formatos de arquivos do Microsoft Office. A extração de texto oculto está desativada por padrão. Consulte Configurações avançadas do servidor para ativar a extração do texto oculto. |
Marcas d'água | Marcas d'água com base em texto são extraídas como conteúdo, não metadados. A detecção de marcas d'água com base em texto é compatível com documentos Microsoft Word (versões 2003 e 2007). A detecção de marca d'água com base em texto não é compatível com outros formatos de arquivo. |