Pontificia universidad javeriana facultad de ingenieria carrera de ingenieria de sistemas



Descargar 287.56 Kb.
Página5/8
Fecha de conversión10.01.2017
Tamaño287.56 Kb.
1   2   3   4   5   6   7   8

Fase 2 Entendimiento de los Datos


La segunda etapa consiste en la recopilación de datos y la familiarización con los mismos, es decir se reunieron todos los datos útiles para la investigación. Este es el primer acercamiento a los datos, se revisara con detenimiento la calidad de la información. [29] La Ilustración 8 refleja las actividades que componen la fase de Entendimiento de los datos.

Ilustración : Fase 2 Entendimiento de los Datos


Recopilar los Datos iniciales


Antes de empezar con la recopilación de datos se realizó el ejercicio de creación de un modelo dimensional y posteriormente la creación de una tabla de hechos, lo anterior con el objetivo de contemplar todos los elementos que involucran la realización de una impresión. Una vez creada la tabla de hechos se define qué información será relevante para la investigación y cómo será el proceso de recolección de datos. El proceso para crear la tabla de hechos, con todas sus versiones, se encuentra en el Anexo Documento Descripción de Tacha de Hechos.

La Ilustración 9 contiene el diagrama de la versión final de la tabla de hechos.



Ilustración : Versión Final Tabla de Hechos


Descripción de los Datos


En esta sección vamos a describir los datos iniciales obtenidos, tales como número de registros y campos por registros, su identificación, el significado de cada campo y la descripción del formato inicial.

La Tabla 1 contiene la descripción de los datos recopilados para el presente estudio de minería de datos.




Nombre

Descripción

Nombre del Servidor

Nombre del servidor de impresión desde donde se obtiene la impresión.

Marca

La marca de la impresora (Para este cliente todas la impresoras son HP).

Modelo

Modelo de la impresora.

Color

Color de la superficie de la impresora.

Tipo

Tipo de funcionamiento de la impresora. Puede ser tipo Color o Monocromática.

Multifuncional

Especifica si la impresora es multifuncional.

Panel de Control

Especifica si la impresora cuenta con un panel de control.

Lector

Especifica si la impresora cuenta o no con lector. Este atributo hace referencia a la accesibilidad de la impresora.

Opción Seleccionar Documento

Específica si por medio de la impresora se puede seleccionar los documentos que desea imprimir; esto solo es posible si la impresora cuenta con un panel de control.

Opción Eliminar Documento

Específica si por medio de la impresora se pueden eliminar los documentos; lo anterior sólo es posible si la impresora cuenta con un panel de control.

Tiempo de Respuesta de identificación

Tiempo que la impresora necesita para reconocer la tarjeta del usuario desde el directorio activo.

Tiempo de Respuesta Impresión

Tiempo que la impresora se toma para realizar la impresión.

Controlador

Hace referencia al driver de la impresora utilizado por la compañía.

Copias

Especifica el número de impresiones que se realizaron por documento.

Número de páginas impresas

Número de páginas que tiene el documento.

Número de páginas impresas en modo simple

Número de páginas que tiene el documento en modo simple.

Número de páginas impresas dúplex

Número de páginas que tiene el documento en modo dúplex.

Número de páginas blanco y negro impresas

Número de páginas que tiene el documento en blanco y negro.

Número de páginas impresas en color

Número de páginas que tiene el documento en color.

Precio Total

El precio total del documento.

Tamaño del documento

El tamaño total del documento en MB.

Modo económico

Especifica si la impresión se realizó en modo económico o full color.

Nombre de la Moneda

El nombre de la moneda que se utilizó para calcular el valor total de la impresión.

Tipo de Papel

El tipo de papel que se utilizó para realizar la impresión. Puede ser las siguientes opciones: {'plain','unknownmedia','cardstock','colored','preprinted','letterhead','recycled','transparency','bond','labels','usertype4','usertype3','rough','usertype5'}

Media

El tamaño del papel que se utilizó para realizar la impresión. Pueden ser las siguientes opciones:{'carta (8.5x11 in)','a4 (8.27x11.7 in)','na','legal (8.5x14 in)','custom (105 x 241 in)','custom (197 x 273 in)','custom (216 x 330 in)','b4 (jis) (10.5x14.3 in)','custom (110 x 220 in)','c5 (6.385x9.02 in)','b5 (jis) (7.17x10.5 in)','executive (7.25x10.5 in)','a3 (11.7x16.5 in)','custom (100 x 148 in)','b (11x17 in)','b5 (6.93x9.84 in)'}

Dominio

Dominio de la compañía desde donde se realizó la impresión.

Nombre del documento

Nombre del documento impreso.

Nombre de grupo

Nombre del área donde se realizó la impresión.

Usuario

El nombre del usuario de la compañía.

Nombre

Nombre completo del usuario.

Departamento

Departamento dentro de la compañía donde se realizó la impresión.

Nombre de la Maquia

Nombre de la máquina del usuario donde se realizó la impresión.

Píxeles negros estimados

Número de pixeles negros utilizados en la impresión.

Píxeles amarillos estimados

Número de pixeles amarillos utilizados en la impresión.

Píxeles magenta estimados

Número de pixeles magenta utilizados en la impresión.

Fecha de impresión

Fecha en la que se realizó la impresión.

Día

Día del mes en que se realizó la impresión.

Mes

Mes en el que se realizó la impresión.

Año

Año en el que se realizó la impresión.

Hora

Hora en la que se realizó la impresión.

Minuto

Minuto en la que se realizó la impresión.

Segundo

Segundo en la que se realizó la impresión.

Mañana-Tarde

Especifica si la impresión se realizó en horas de la mañana o en horas de la tarde. Puede ser AM o PM.

Nombre Mes

Nombre del mes donde se realizó la impresión.

Día Semana

Día de la semana donde se realizó la impresión. Puede ser de 1 a 7 según corresponde.

Nombre día Semana

Nombre de día de la semana. Puede ser {Lunes, Martes, Miércoles, Jueves, Viernes, Sábado, Domingo}

Semana de año

Número de la semana del año donde se realizó la impresión.

Semestre

Número de semestre del año donde se realizó la impresión.

Trimestre

Número de Trimestre del año donde se realizó la impresión.

Bimestre

Número de Bimestre del año donde se realizó la impresión.

Festivo

Especifica si la impresión se realizó un día festivo o no.

Último día del mes

Especifica si la impresión fue realizada el último día del mes.

Última semana del mes

Especifica si la impresión fue realizada la última semana del mes.


Tabla : Descripción de los Datos

Revisar los Datos


Fue necesario realizar un cambio en el planteamiento inicial de la solución. En un principio se había considerado utilizar la información personal de los usuarios tales como: edad, cargo, número de hijos, edad de los hijos, funciones, estudios realizados, lugar de residencia, etc. Lo anterior para poder recolectar toda la información que pudiera ser relevante e influyente en las prácticas de impresión. Después de mantener varias reuniones con el cliente y por la ley de protección de datos se definió que definitivamente el uso de esta información personal de los usuarios estaba restringido.

El otro inconveniente que se detectó en la revisión de datos, es que algunos atributos no podrían ser recolectados ya que no era posible que la herramienta MegaTrack los proporcionara. Ejemplo como este son los datos de las máquinas de los usuarios donde se realizan las impresiones, se tenía contemplado poder obtener la información de marca, modelo, sistema operativo y si el equipo era propio o de la empresa. Por esta razón tuvimos que limitar los datos a la información que podía ser extraída por MegaTrack, esta información está explicada en la Tabla 1: Descripción de Datos.


Verificar la calidad de datos


En esta sección se realizó la verificación de los datos para determinar la consistencia de los valores de los campos, la cantidad y distribución de los valores nulos y para encontrar valores fuera de rangos que pueden generar ruido para el proceso.

Este proceso de verificación se realizó en todos los reportes extraídos por la herramienta. En los campos donde no se encontraban registros se cambió los campos vacíos por un valor null.


1   2   3   4   5   6   7   8


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal