Distinction entre les métadonnées du contenu de fichier et des données d'application
Ne confondez pas l'extraction de métadonnées avec l'extraction de contenu ou de données d'application. Certains textes qui peuvent apparaître comme étant des métadonnées sont extraits comme du contenu ou comme des données d'application. La fonction Données non extraites comme métadonnées décrit certains types de données qui ne sont pas extraites comme des métadonnées de format de fichier pour vous aider à déterminer dans quelles circonstances vous devez activer la détection de métadonnées.
Cette liste n'est pas exhaustive et elle est fournie à titre de référence rapide seulement. Il est possible qu'il existe d'autres types de données qui ne soient pas extraites comme des métadonnées. Une bonne pratique consiste à utiliser l'utilitaire de
filtre
pour vérifier la prise en charge des métadonnées des formats de fichier. Utilisation constante de l'utilitaire de filtre pour la vérification de la prise en charge des données de format de fichiersType de contenu | Méthode d'extraction |
|---|---|
Données d'application | Les données d'application, y compris les informations de transfert de messages, sont extraites séparément de l'opération d'extraction de format de fichier. Pour tous les messages entrants, le système extrait l'enveloppe du message (en-tête) et les informations d'objet comme du texte au niveau de la couche d'application. Le type de données d'application extrait dépend des canaux pris en charge par le serveur de détection ou par le terminal. |
En-têtes et pied de page | Le texte d'en-tête et le texte de pied de page de document est extrait comme du contenu, et non comme des métadonnées. Pour éviter les faux positifs, supprimez ou ajoutez dans une liste d'autorisation les en-têtes et pieds de page des documents. Pour plus d'informations, reportez-vous à la section Correspondance de document indexé. |
Texte de marquage | Le texte de marquage est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte de marquage est prise en charge pour HTML, XML, SGML et plus. L'extraction de texte de marquage est désactivée par défaut. Pour activer l'extraction de texte de marquage, reportez-vous à la section Paramètres avancés du serveur. |
Texte masqué | Le texte masqué est extrait comme du contenu, et non comme des métadonnées. L'extraction de texte masqué sous forme de suivi des modifications est prise en charge pour certains formats de fichier Microsoft Office. L'extraction de texte masqué est désactivée par défaut. Pour activer l'extraction de texte masqué, reportez-vous à la section Paramètres avancés du serveur. |
Filigranes | Les filigranes basés sur du texte sont extraits comme du contenu, et non comme des métadonnées. La détection de filigrane basé sur du texte est prise en charge pour des documents Microsoft Word (versions 2003 et 2007). La détection de filigrane basé sur du texte n'est pas prise en charge pour les autres formats de fichier. |