メタデータをファイルの内容やアプリケーションデータと区別
メタデータの抽出を内容の抽出やアプリケーションデータと混同しないでください。内容やアプリケーションデータとして抽出されたテキストがメタデータのように見える場合があります。メタデータの検出を有効にする必要があるときの判断の助けとして、「メタデータとして抽出されないデータ」に、ファイル形式のメタデータとして抽出されないデータの種類をいくつか掲載します。
このリストはすべてを列挙するものではなく、クイックリファレンス用としてのみ提供されています。メタデータとして抽出されたものでないデータ形式が他にもある可能性があります。
フィルタ
ユーティリティを使ってファイル形式のメタデータに対するサポートを検証することをお勧めします。常にフィルタユーティリティを使ってファイル形式のメタデータに対するサポートを検証コンテンツの種類 | 抽出方法 |
|---|---|
アプリケーションデータ | メッセージ転送情報などのアプリケーションデータはファイル形式とは別に抽出されます。すべての受信メッセージに対して、システムはメッセージのエンベロープ (ヘッダー) と表題情報をアプリケーション層でテキストとして抽出します。抽出されるアプリケーションデータの種類は、検出サーバーまたはエンドポイントがサポートするチャネルによって異なります。 |
ヘッダーおよびフッター | 文書のヘッダーテキストとフッターテキストはメタデータではなく内容として抽出されます。誤検知を回避するには、文書からヘッダーとフッターを削除するか、ヘッダーとフッターを許可リストに追加します。 詳細については、「インデックス文書一致(IDM)」を参照してください。 |
マークアップテキスト | マークアップテキストはメタデータではなく内容として抽出されます。マークアップテキストの抽出は HTML、XML、SGML などの場合にサポートされています。マークアップテキストの抽出はデフォルトでは無効になります。 マークアップテキストの抽出を有効にするには、「サーバーの拡張設定」を参照してください。 |
非表示のテキスト | 非表示のテキストはメタデータではなく内容として抽出されます。非表示テキストの抽出が変更履歴形式でいくつかの Microsoft Office ファイル形式に対してサポートされています。非表示テキストの抽出はデフォルトでは無効になります。 非表示テキストの抽出を有効にするには、「サーバーの拡張設定」を参照してください。 |
ウォーターマーク | テキストベースのウォーターマークはメタデータではなく内容として抽出されます。テキストベースのウォーターマークの検出は Microsoft Word 文書 (バージョン 2003 と 2007) に対してサポートされています。テキストベースのウォーターマークの検出は他のファイル形式ではサポートされません。 |