Pontificia universidad javeriana facultad de ingenieria carrera de ingenieria de sistemas



Descargar 287.56 Kb.
Página6/8
Fecha de conversión10.01.2017
Tamaño287.56 Kb.
1   2   3   4   5   6   7   8

Fase 3 Preparación de los datos


En esta tercera fase se realizan todas las actividades que filtren y organicen los datos relevantes para la investigación, es decir seleccionar los datos que realmente sirven y desechar los que no. Un ejemplo de un dato que no es relevante para la investigación es el nombre del servidor, la razón es que este dato es constante para todos los registros por lo que no causara ninguna diferencia o efecto en estudio [29] La Ilustración 10 refleja las actividades que componen la fase de preparación de los datos.

Ilustración : Fase 3 Preparación de los Datos



Seleccionar los Datos


Se seleccionó una lista de 53 atributos como se especificó en la Tabla 1: Descripción de los datos. La cantidad de registros tomados fueron los correspondientes a un año de impresión en la compañía. Ya que el mes de noviembre del 2013 no ha terminado, el año empezará desde Noviembre del 2012 hasta Octubre de 2013 (12 meses). La cantidad de registros de impresión del rango de fecha definida fue de 611334.

Limpieza de los datos


Después de realizar la depuración de los datos mencionada en la sección anterior, donde se justificó la razón por la cual no se tendrán en cuenta atributos relacionados con la información personal de los usuarios y atributos que no es posible extraer utilizando la herramienta, fue necesario realizar la eliminación o limpieza de atributos que sólo generan ruido para la investigación. La Tabla 2 muestra los atributos que no serán tomados en cuenta en la investigación con su respectiva justificación.

Nombre

Razón

Nombre del Servidor

Todos los registros de impresión fueron realizados desde el mismo servidor de impresión, por lo que este valor es el mismo en todos los casos. Lo que convierte en un atributo no relevante.

Tiempo de Respuesta de identificación

El tiempo de identificación siempre son 8 segundos. Lo que convierte en un atributo no relevante.

Copias

Para todos los casos el número de copias de cada documento fue 1. Lo que convierte en un atributo no relevante.

Nombre de la moneda

Ya que el estudio se realizó en la misma empresa el nombre de la moneda siempre fue PSC. Lo que convierte en un atributo no relevante.

Nombre del documento

El tipo de dato del documento en un string, y son muy pocos los registros que se repiten, por lo que este atributo no es significante para la investigación.

Nombre de la Máquina

El nombre de la máquina varia constantemente, por lo que este parámetro puede convertirse en un distractor para la investigación


Tabla : Limpieza de los Datos



Construcción de los datos


Los datos extraídos por la herramienta MegaTrack están en un formato determinado, fue necesario realizar una serie de tareas para construir los atributos requeridos por la solución planteada en la tabla de hechos. Por ejemplo en la caso particular de los atributos relacionados con la entidad impresora; a partir del dato impresora que es extraído de la herramienta MegaTrack, se construyen los datos como: Marca, Modelo, Color, Tipo, Multifuncional, Panel de control, Opción seleccionar documento, Opción eliminar documento, Tiempo de respuesta identificación y Tiempo de respuesta impresión. La Tabla 3 muestra como fue el proceso de construcción de los atributos relacionados a la impresora.

Reporte MegaTrack

Atributo Generado

Atributo Generado

HP Color LaserJet 4700

HP Color LaserJet CM4730 MFP

HP Color LaserJet CP4520 Series

HP LaserJet M4345 MFP

Marca

N.A.

Modelo


Color

Tipo

Multifuncional

Panel de Control

Opción Seleccionar Documento

Opción Eliminar Documento

Tiempo de Respuesta de identificación

Tiempo de Respuesta Impresión


Tabla : Construcción de los Datos Impresora

Para la construcción de los datos de la entidad tiempo se realizaron varias operaciones y formulas desde Excel, lo anterior debido a que el reporte de MegaTrack generaba únicamente un atributo (fecha), este atributo se debía transformar en todos los atributos relacionados el mismo. La Tabla 4 muestra la forma en la que se realizó la construcción de los atributos relacionados a la entidad tiempo.



Reporte MegaTrack

Atributo Generado

Ejemplo

Fecha de impresión

20/09/2013 7:58:00

Día

20

Mes

9

Año

2013

Hora

7

Minuto

58

Segundo

0

Mañana-Tarde

AM

Nombre Mes

Septiembre

Día Semana

5

Nombre día Semana

Viernes

Semana de año

38

Semestre

2

Trimestre

3

Bimestre

5

Festivo

No

Último día del mes

No

Última semana del mes

No


Tabla : Construcción de los Datos Tiempo

Para consultar las fórmulas de Excel empleadas para la integración de los datos consultar el documento Analisis_impresión_Buenas_Malas.xlsx en los anexos del trabajo de grado.


Aplicar formatos a los datos


En esta sección se explicará la forma en la que se realizó la transformación sintáctica de los datos sin modificar su significado. Los reportes que se extraen de MegaTrack son entregados por el cliente a través de archivos de Excel, por lo que es necesario realizar el cambio en su formato y transformarlos en archivos .arff como se muestra en las siguientes imágenes.

Una vez tenemos la información en el archivo de Excel se guarda con la extensión CSV (delimitado con comas) lo anterior para poder abrir el archivo con un editor de texto.

La Ilustración 11 muestra el reporte de MegaTrack en formato de Excel.

Ilustración : Reportes MegaTrack

Después de tener el archivo con un editor de texto y separados los valores con coma, se procede a guardar los archivo con la extensión .arff. Estos archivos pueden ser modificados pero únicamente con un editor de texto como notepad o notepad ++.

La Ilustración 12 muestra cómo quedan los archivos listos para ser leídos por la herramienta Weka.



Ilustración : Archivo .arff


Se presentaron unos problemas cuando se estaban cargando los datos a la herramienta Weka debido al manejo de mayúsculas y minúsculas. Para dar solución a este error se aplicó una formula en Excel que convertía todos los valores en minúsculas, de ese modo no tendríamos problema de incompatibilidad. La fórmula que se utilizó para este procediendo fue =MINUSC ( ).


Compartir con tus amigos:
1   2   3   4   5   6   7   8


La base de datos está protegida por derechos de autor ©bazica.org 2019
enviar mensaje

    Página principal