メタデータをファイルの内容やアプリケーションデータと区別

メタデータの抽出を内容の抽出やアプリケーションデータと混同しないでください。内容やアプリケーションデータとして抽出されたテキストがメタデータのように見える場合があります。メタデータの検出を有効にする必要があるときの判断の助けとして、「メタデータとして抽出されないデータ」に、ファイル形式のメタデータとして抽出されないデータの種類をいくつか掲載します。
このリストはすべてを列挙するものではなく、クイックリファレンス用としてのみ提供されています。メタデータとして抽出されたものでないデータ形式が他にもある可能性があります。
フィルタ
ユーティリティを使ってファイル形式のメタデータに対するサポートを検証することをお勧めします。常にフィルタユーティリティを使ってファイル形式のメタデータに対するサポートを検証
メタデータとして抽出されないデータ
コンテンツの種類
抽出方法
アプリケーションデータ
メッセージ転送情報などのアプリケーションデータはファイル形式とは別に抽出されます。すべての受信メッセージに対して、システムはメッセージのエンベロープ (ヘッダー) と表題情報をアプリケーション層でテキストとして抽出します。抽出されるアプリケーションデータの種類は、検出サーバーまたはエンドポイントがサポートするチャネルによって異なります。
ヘッダーおよびフッター
文書のヘッダーテキストとフッターテキストはメタデータではなく内容として抽出されます。誤検知を回避するには、文書からヘッダーとフッターを削除するか、ヘッダーとフッターを許可リストに追加します。
詳細については、「インデックス文書一致(IDM)」を参照してください。
マークアップテキスト
マークアップテキストはメタデータではなく内容として抽出されます。マークアップテキストの抽出は HTML、XML、SGML などの場合にサポートされています。マークアップテキストの抽出はデフォルトでは無効になります。
マークアップテキストの抽出を有効にするには、「サーバーの拡張設定」を参照してください。
非表示のテキスト
非表示のテキストはメタデータではなく内容として抽出されます。非表示テキストの抽出が変更履歴形式でいくつかの Microsoft Office ファイル形式に対してサポートされています。非表示テキストの抽出はデフォルトでは無効になります。
非表示テキストの抽出を有効にするには、「サーバーの拡張設定」を参照してください。
ウォーターマーク
テキストベースのウォーターマークはメタデータではなく内容として抽出されます。テキストベースのウォーターマークの検出は Microsoft Word 文書 (バージョン 2003 と 2007) に対してサポートされています。テキストベースのウォーターマークの検出は他のファイル形式ではサポートされません。