Análisis de los resultados del conjunto de datos

La pantalla del analizador del conjunto de datos muestra los resultados del conjunto de datos según los criterios que usted especificó.
Una vez que la utilidad filtra los archivos del conjunto de datos, organiza y muestra los datos por fichas en función de la extensión de archivo. Es posible organizar mejor los datos al hacer clic en los nombres de columna. Es posible también eliminar columnas o filas de datos irrelevantes al seleccionar la fila o la columna y hacer clic con el botón derecho.
La utilidad Analizador de tipo de archivo usa la extensión de archivo para organizar por fichas los archivos en su conjunto de datos. Sin embargo, la extensión de archivo no es un medio confiable para detectar un tipo de archivo porque la extensión de archivo se puede cambiar fácilmente.
Symantec Data Loss Prevention
detecta el tipo de archivo basado en bytes específicos que identifican de manera única.
Cuando analiza resultados del conjunto de datos, el objetivo es localizar bytes únicos que sean coherentes para cada sesión de tipo de archivo. Estos bytes únicos son “bytes mágicos” para el tipo de archivo analizado. Es necesario determinar cuáles son los bytes mágicos para escribir un script que detecte el tipo de archivo personalizado. Por ejemplo, los primeros 2 bytes de un archivo Microsoft Word (*.doc) son DO CF (en formato hexadecimal).
Para ayudarlo a evaluar los resultados y a encontrar bytes mágicos para el tipo de archivo personalizado, haga clic en la opción
Analizar los datos de la tabla
. Con la opción predeterminada COLUMN_MATCH seleccionada, la utilidad Analizador de tipo de archivo resalta las columnas que son iguales en todos los archivos en la ficha seleccionada.
La opción ROW_OFFSET_MATCH busca coincidencias de byte dentro del mismo archivo (fila). Se resaltan los desplazamientos (columnas) que coinciden en la misma fila y no se resaltan los que coinciden con el mismo desplazamiento en otra fila. Esta opción es útil para algunos tipos de archivos que usan bytes únicos dentro del mismo archivo para indicar el tipo de archivo. Por ejemplo, el tipo de archivo CADAM (*.cdd) usa los mismos valores para 0 - 3 bytes y 8 - 11 bytes dentro de cada archivo, aunque estos valores son diferentes entre los archivos.
Una vez haya analizado los resultados y determinado los bytes mágicos, el paso siguiente consiste en escribir un script para detectar el tipo de archivo.
Consulte el tutorial de instrucciones sobre creación de conjuntos de datos, análisis de resultados y escritura de un script para detectar un tipo de archivo personalizado. Estos tutoriales demuestran cómo funciona la utilidad Analizador de tipo de archivo y ayuda a introducirlo a soluciones de programación de scripts para detectar tipos de archivos personalizados.