データセットの作成

File Type Analyzer ユーティリティは、ファイルの種類のバイトデータ分析に備えてデータセットを設定するための複数のパラメータを提供します。
データセットを設定するためのパラメータ
パラメータ
使用
Add Directory
このオプションでは、ファイル分析に含めるディレクトリを選択できます。単一のデータセットに複数のディレクトリを追加できます。
選択する各ディレクトリには、分析して最終的に検出するファイルの種類のサンプルを含める必要があります。有用なデータセットにするには、ファイルの種類の複数のサンプルを含めます。製品のさまざまなバージョンで、各種の機能を有効にしたものと無効にしたものを含めます。
最もよい結果を達成するため、推奨する最小のサンプルサイズは、同じファイルの種類に対して 15 ファイルです。
Remove Directory
このオプションでは、データ セットに追加したディレクトリを削除できます。削除する複数のディレクトリを選択できます。削除されると、ディレクトリはデータセットの一部としてスキャンされなくなります。
File Name Filter
このフィールドは、各ディレクトリからどのファイルをデータセットに含めるかをユーティリティに指示する正規表現パターンを含んでいます。正規表現を使用することで、データ セットに含めるファイルを柔軟にフィルタ処理できます。
次の正規表現はディレクトリからすべての ASCII ファイル名をデータセットに読み込みます。
[\w\s]+.[\w]+
次の正規表現は非 ASCII 文字を使うファイル名をフィルタ処理できます。
[^0x00]+.[\w]+
ファイル名をフィルタ処理する場合の正規表現の使用については、Symantec Data Loss Prevention ヘルプ センターの「正規表現の書き込みについて」を参照してください。
Number of Bytes
このフィールドは、分析のために表示する、ファイルあたりのバイト数を指定します。
このフィールドのデフォルトの最大値は
1024
バイトです。
Chunk Size
このフィールドは、列に表示するバイトのグループのサイズを表します。たとえば、このフィールドに
2
と入力すると、ユーティリティは各列に 2 バイトのデータを表示します (オフセット)。
Parser Type
このオプションは、スキャンされたデータセットのデータが分析用にどのように表示されるかを定義します。
  • [BYTE]
    オプションは、分析結果を、対応するバイト値を表す 16 進形式で表示します。
  • [ASCII]
    オプションは、分析結果を ASCII 文字として表示します。
  • [NUMBER]
    オプションは分析結果を整数形式で表示します。
Recursive Scan
このボックスにチェックマークを付けると、ユーティリティはデータセットにある各ディレクトリとすべてのサブディレクトリをスキャンします。ディレクトリに、スキャンしたいファイルが含まれるサブディレクトリがある場合、このオプションを選択します。
再帰的なスキャンはメモリを集中的に使用します。大きいデータセットまたは再帰的なデータセットを分析する場合は、パフォーマンスを向上させるために Java のヒープサイズを増やすことを検討してください。
Analyze Dataset
データセットの設定が完了したら、このオプションをクリックします。File Type Analyzer ユーティリティは入力を検証し、ファイル分析処理を開始します。ユーティリティは必要なデータをすべて読み取り、結果を[Analyze Dataset]画面に表示します。