Distinguer les métadonnées des données de contenu de fichier et d'application
Ne confondez pas l'extraction de métadonnées avec l'extraction de données de contenu ou d'application. Certains textes qui peuvent apparaître comme étant des métadonnées sont extraits comme des données de contenu ou d'application. Données non extraites comme métadonnées décrit certains types de données qui ne sont pas extraites comme des métadonnées de format de fichier pour vous aider à déterminer si et quand vous devez activer la détection de métadonnées.
Cette liste n'est pas complète et est fournie à titre de référence rapide seulement. Il est possible qu'il existe d'autres types de données qui ne soient pas extraites comme des métadonnées. Une pratique d'excellence consiste à utiliser de l'utilitaire
filtre
pour la vérification de la prise en charge des métadonnées de format de fichiers. Utilisation constante de l'utilitaire de filtre pour la vérification de la prise en charge des données de format de fichiersType de contenu | Méthode d'extraction |
|---|---|
Données d'application | Les données d'application, y compris les informations de transfert de messages, sont extraites séparément de l'extraction de format de fichier. Pour tous les messages entrants, le système extrait l'enveloppe du message (en-tête) et les informations d'objet comme du texte au niveau de la couche d'application. Le type de données d'application extrait dépend des canaux pris en charge par le serveur de détection ou le terminal client. |
En-têtes et pied de page | Le texte d'en-tête et de pied de page de document est extrait comme du contenu, et non comme des métadonnées. Pour éviter les faux positifs, il est recommandé de supprimer ou d'exclure (liste blanche) les en-têtes et les pieds de page des documents. Voir le chapitre Correspondance de document indexé (IDM) dans le Guide d'administration pour plus de détails.Symantec Data Loss Prevention |
Texte de marquage | Le texte de marquage est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte de marquage est prise en charge pour HTML, XML, SGML et plus. L'extraction de texte de marquage est désactivée par défaut. Consultez la rubrique Paramètres avancés du serveur dans le Guide d'administration pour l'activer.Symantec Data Loss Prevention |
Texte masqué | Le texte masqué est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte masqué sous forme de suivi des modifications est prise en charge pour certains formats de fichier Microsoft Office. L'extraction de texte masqué est désactivée par défaut. Consultez la rubrique Paramètres avancés du serveur dans le Guide d'administration pour l'activer.Symantec Data Loss Prevention |
Filigranes | Les filigranes basés sur du texte sont extraits comme du contenu, et non comme des métadonnées. La détection de filigrane basé sur du texte est prise en charge pour des documents Microsoft Word (versions 2003 et 2007). Elle n'est pas prise en charge pour d'autres formats de fichier. |