Distinguer les métadonnées des données de contenu de fichier et d'application

Ne confondez pas l'extraction de métadonnées avec l'extraction de données de contenu ou d'application. Certains textes qui peuvent apparaître comme étant des métadonnées sont extraits comme des données de contenu ou d'application. Données non extraites comme métadonnées décrit certains types de données qui ne sont pas extraites comme des métadonnées de format de fichier pour vous aider à déterminer si et quand vous devez activer la détection de métadonnées.
Cette liste n'est pas complète et est fournie à titre de référence rapide seulement. Il est possible qu'il existe d'autres types de données qui ne soient pas extraites comme des métadonnées. Une pratique d'excellence consiste à utiliser de l'utilitaire
filtre
pour la vérification de la prise en charge des métadonnées de format de fichiers. Utilisation constante de l'utilitaire de filtre pour la vérification de la prise en charge des données de format de fichiers
Données non extraites comme métadonnées
Type de contenu
Méthode d'extraction
Données d'application
Les données d'application, y compris les informations de transfert de messages, sont extraites séparément de l'extraction de format de fichier. Pour tous les messages entrants, le système extrait l'enveloppe du message (en-tête) et les informations d'objet comme du texte au niveau de la couche d'application. Le type de données d'application extrait dépend des canaux pris en charge par le serveur de détection ou le terminal client.
En-têtes et pied de page
Le texte d'en-tête et de pied de page de document est extrait comme du contenu, et non comme des métadonnées. Pour éviter les faux positifs, il est recommandé de supprimer ou d'exclure (liste blanche) les en-têtes et les pieds de page des documents.
Voir le chapitre Correspondance de document indexé (IDM) dans le
Guide d'administration
Symantec Data Loss Prevention
pour plus de détails.
Texte de marquage
Le texte de marquage est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte de marquage est prise en charge pour HTML, XML, SGML et plus. L'extraction de texte de marquage est désactivée par défaut.
Consultez la rubrique Paramètres avancés du serveur dans le
Guide d'administration
Symantec Data Loss Prevention
pour l'activer.
Texte masqué
Le texte masqué est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte masqué sous forme de suivi des modifications est prise en charge pour certains formats de fichier Microsoft Office. L'extraction de texte masqué est désactivée par défaut.
Consultez la rubrique Paramètres avancés du serveur dans le
Guide d'administration
Symantec Data Loss Prevention
pour l'activer.
Filigranes
Les filigranes basés sur du texte sont extraits comme du contenu, et non comme des métadonnées. La détection de filigrane basé sur du texte est prise en charge pour des documents Microsoft Word (versions 2003 et 2007). Elle n'est pas prise en charge pour d'autres formats de fichier.