Pontificia universidad javeriana facultad de ingenieria carrera de ingenieria de sistemas



Descargar 287.56 Kb.
Página7/8
Fecha de conversión10.01.2017
Tamaño287.56 Kb.
1   2   3   4   5   6   7   8

Fase 4 Modelado


Esta fase de modelado es una de las más importantes y fundamentales en la investigación ya que es en este punto donde se selecciona una o varias técnicas de modelamiento para el estudio de minería de datos. Existen varias técnicas para la solución un mismo problema, la idea es poder seleccionar la que sea más adecuada para dar resolver el problema planteado. [29]

La Ilustración 13 refleja las actividades que componen la fase de modelado.

Ilustración : Fase 4 modelado

Seleccionar la técnica de modelado


Para poder seleccionar la técnica más apropiada para el problema que se está desarrollando es fundamental definir el objetivo del mismo, es decir tener claro que es lo que queremos. A partir de este cuestionamiento se realizar el siguiente análisis.

¿Qué queremos?

  1. Determinar si es posible reducir el consumo de impresión en una compañía mejorando la utilización del servicio.

  2. Identificar como los empleados de una compañía utiliza el servicio de impresión.

  3. Determinar que es una buena práctica de impresión.

  4. Determinar que es una mala práctica de impresión.

  5. Definir que usuarios deben tener acceso al servicio de impresión.

  6. Determinar en qué casos se debe realizar una impresión en Color y en qué caso se debe realizar en Blanco y Negro.

  7. Determinar si debe existir un límite de páginas impresas al mes por centro de costos.

  8. Definir si todos los centros de costos deben tener límite de páginas impresas por mes.

  9. Determinar si debe existir un límite de páginas impresas al mes por usuario.

  10. Definir si todos los usuarios deben tener un límite de páginas por mes.

Variables

  1. La impresión debe ser:

    • Color - Blanco / negro

  1. Debe tener acceso al servicio de impresión:

    • Si - No

Para poder continuar con el planteamiento de la solución se estableció que era necesario categorizar y definir lo que es una buena o mala impresión. Esta información fue brindada por el cliente.

  1. Cantidad de páginas color

  2. Cantidad de páginas blanco/negro

  3. Modo simple

  4. Modo dúplex

  5. Precio total

  6. Tamaño documento

  7. Modo económico

  8. Modo full color

  9. Tipo papel

  10. Media: tamaño del papel

  11. Pixeles negros

  12. Pixeles amarillos

  13. Pixeles magenta

Para el estudio que vamos a realizar no se empleará una única técnica de minería de datos, para esto se plantearan dos escenarios diferentes.

Escenario 1

Identificar patrones de comportamiento desconocidos. Para esto utilizaremos todos los datos mencionados anteriormente y aplicaremos técnicas no dirigidas o no supervisadas.

La Ilustración 14 contiene el escenario de técnicas no dirigidas.

Ilustración : Escenario Técnicas No Dirigidas



Escenario 2

Para este escenario surgen dos cuestionamientos fundamentales, cuando una impresión es buena y cuando es mala. La segunda es a que perfiles de usuarios se le debe asignar el servicio de impresión. La Ilustración 15 contiene el escenario de técnicas dirigidas.

Ilustración : Escenario Técnicas Dirigidas

En conclusión se utilizará la técnica de árboles de decisión por el lado de las técnicas dirigidas y la detección automática de clúster por el lado de técnicas no dirigidas, cada escenario con su respectivo archivo de datos y la misma herramienta para el análisis.

Las razones por las cuales se seleccionó la técnica de árboles de decisión para analizar el escenario donde se plantearon los cuestionamientos, es decir donde se utilizara técnicas de minería de datos dirigidas son las siguientes:


  • Ya que se plantearon dos problemas específicos estos podrán ser analizados independientemente y a medida, es decir orientando y alimentando el árbol para encontrar una solución esperada.

  • Por medio de los árboles de decisión es posible cuantificar el costo y a probabilidad que suceda un evento.

  • Por su estructura jerárquica en forma de árbol, permite estimar cuales son las opciones para investigar y cuál podría ser su resultado.

  • Los arboles de decisión ayudan a tomar mejores decisiones sobre los datos analizados.

  • Los problemas planteados no tienen más de dos soluciones, por lo que un árbol de decisión es indicado para validar y analizar estas soluciones con eficiencia y mayor certeza.

Para el escenario donde el objetivo es identificar relaciones entre las variables y de ese modo encontrar patrones de comportamiento, se seleccionó la técnica de detección automática de clúster. La razón es que esta técnica permite determinar grupos diferenciados del resto de los datos, por medio de esta técnica se puede realizar un procedimiento de aprendizaje cuando no se parte una premisa específica, lo anterior quiere decir que esta técnica es ideal para el escenario donde no es evidente ningún tipo de relación entre las variables de los datos analizados, y se busca que por medio de un conjunto de reglas llegar a una solución eficaz y adecuada al problema planteado.

La herramienta que se empleará para el estudio fue Weka 3.6 [43], debido a que es de software libre y a la sencillez en la instalación, su configuración y manejo de la misma.


Construcción del modelo de pruebas


Para la construcción del modelo de prueba se generó un plan para probar la calidad y validez del modelo que se construirá. Se realizó un ejercicio tomando los valores y atributos que definió el cliente para determinar si una impresión era buena o mala.

La Ilustración 16 muestra el análisis de impresiones buenas, regulares y malas.



Ilustración : Análisis impresión es Buenas - Malas

Siguiendo las indicaciones y parámetros que definió el cliente se realizó un ejercicio manual, para validar en que rango de categoría podría estar la impresión, buena, regular o mal. Cada atributo se asigna un valor dependiendo del tamaño del mismo, al final se realiza una sumatoria para definir su categoría. Si el resultado de la sumatoria es igual a 7 o menor, la impresión se considera buena, si el resultado es igual a 8 se considera una impresión regular, finamente si la impresión es mayor a 7 se define como una impresión mala. A continuación se muestra las formulas utilizada en Excel para realizar el cálculo descrito.


=SUMA(SI(A3>10,1,0),SI(A3>25,1,0),SI(A3>35,2,0),SI(B3="Si",1,0), SI(E3="Si",1,0),SI(F3>3500,2,0),SI(G3>10000,1,0), SI(I3="Si",1,0),SI(J3<>"'plain'",1,0),SI(K3<>"'carta (8.5x11 in)'",1,0),SI(L3>1000,1,0),SI(M3<700,1,0),SI(N3<700,1,0))

=SUMA(SI(A9>10,1,0),SI(A9>25,1,0),SI(A9>35,2,0),SI(B9="Si",1,0), SI(E9="Si",1,0),SI(F9>3500,2,0),SI(G9>10000,1,0), SI(I9="Si",1,0),SI(J9<>"'plain'",1,0),SI(K9<>"'carta (8.5x11 in)'",




=SI(O2>7,SI(O2>8,"MALO","REGULAR"),"BUENO")



Implementación del modelo


Para la mostrar la forma en que se realizó la implementación del modelo definido utilizando la herramienta Weka diríjase al Anexo Manual de usuario. En este documento encontrará cada una de las funcionalidades que brinda la herramienta, su descripción y la forma en que fue aplicada al problema.

Evaluación del modelo


En esta sección se interpreta los modelos de acuerdo al conocimiento del dominio de los criterios de éxitos preestablecidos. La Ilustración 17 muestra todas las funcionalidades de la opción Explorer en la herramienta Weka.

Ilustración : Explorador Weka



Filtro: Algoritmo Discretize

  • Se realizó sobre el atributo y no sobre la instancia.

  • Se utilizó un algoritmo que ya fue supervisado y aprobado por la herramienta Weka

  • Es un algoritmo ágil y confiable.

Clúster

Seleccionamos el algoritmo SimpleKMeans para la funcionalidad de clúster de la herramienta Weka. El algoritmo SimpleKMeans consiste en el análisis de datos por grupos. Este algoritmo funciona dividendo los datos recolectados en conjuntos o bloques llamados Clúster y esta separación se realiza por agrupaciones con características similares.



Este algoritmo permite separar los datos en subconjuntos de datos para realizar análisis de manera independiente. Las ventajas que se analizaron para la utilización de este algoritmo fueron las siguientes:

  • Es un algoritmo eficiente

  • Tiene un nivel de precisión es alto

  • No están en proceso de revisión

  • Es un algoritmo supervisado y aceptado por la herramienta utilizada para el estudio de minería de datos.

La siguiente Tabla contiene los resultados de los datos predominantes en cada uno de los registros. La Tabla 5 contiene los resultados del Clúster.

Atributo / Clúster

Full Data: 611334

Clúster 0: 388488

Clúster 1: 222886

Modelo

HP Color CP4520

HP Color CP4520

HP M4345

Color

Gris

Azul

Gris

Tipo

Color

Color

Monocromática

Multifuncional

No

No

Si

Panel de Control

No

No

Si

Lector

Si

Si

Si

Opción Seleccionar Documento

No

No

Si

Opción Eliminar Documento

No

No

Si

Tiempo de Respuesta Impresión

5

5

4

Número de páginas impresas

1

1

1

Número de páginas impresas en modo simple

1

1

1

Número de páginas impresas dúplex

0

0

0

Número de páginas blanco y negro impresas

0

0

1

Número de páginas impresas en color

0

1

0

Precio Total

(25-27775)

(25-27775)

(25-27775)

Tamaño del documento

(125484.5-inf)

(125484.5-inf)

(125484.5-inf)

modo económico

No

No

No

Tipo de Papel

plain

plain

Plain

Media

carta (8.5x11 in)

carta (8.5x11 in)

carta (8.5x11 in)

Dominio

pre

pre

Pre

nombre de grupo

Finanzas -110

Finanzas -110

Unspecified

Usuario

unspecified ()

unspecified ()

unspecified ()

Nombre

null

null

Null

departamento

Finanzas

Finanzas

Finanzas

Píxeles negros estimados

(1951.5-inf)

(1951.5-inf)

(1951.5-inf)

Píxeles amarillos estimados

(-inf-0.5)

(228.5-9942)

(-inf-0.5)

Píxeles magenta estimados

(-inf-17.5)

(171.5-1481222)

(-inf-17.5)

Fecha de impresión

(1353862800000-1359306000000)

(1353862800000-1359306000000)

(1353862800000-1359306000000)

Día

11

15

11

Mes

9

10

9

Ano

2013

2013

2013

Hora

11

11

9

Minuto

39

37

47

Segundo

0

0

0

Mañana-Tarde

AM

AM

AM

Nombre Mes

Septiembre

Octubre

Septiembre

Día Semana

2

2

2

Nombre día Semana

Martes

Martes

Martes

Semana de ano

38

40

38

Semestre

2

2

2

Trimestre

3

3

3

Bimestre

5

5

5

Festivo

No

No

No

Ultimo día del mes

Si

Si

Si

Última semana del mes

No

No

No

Tabla : Resultados Clúster
Conclusión

Podemos ver que los datos no son constantes, los registros están distribuidos de manera no uniforme por lo que los resultados en diferentes clúster pueden ser totalmente diferentes.



Asociación

Nos permite ver la información oculta detrás de los registros ingresados.



  • Seleccionamos el algoritmo de asociación: Algoritmo Apriori.

El algoritmo Apriori es utilizado para encontrar reglas de asociación entre variables dentro de un conjunto de datos. Como su nombre lo indica “A priori” quiere decir previo, y en el contexto del problema consiste en el conocimiento previo de los conjuntos frecuentes de datos. La razón principal para la utilización de este algoritmo en el estudio de minería de datos y la detección de asociaciones es para reducir el espacio de búsqueda y de esa manera aumentar la eficiencia en dicha búsqueda.

Otra ventaja significativa que posee el algoritmo Apriori es que controla los datos de transacciones. Un ejemplo para el caso específico, es que en un conjunto de registros de impresión, el algoritmo podría controlar que hora del día suelen realizar las impresiones los empleados de la compañía.



  • Soporte mínimo de todas las instancias: 0.95 (580767 instancias)

  • Métricas mínimas (coincidencias): 0.9

  • Numero de ciclos: 1

Mejores reglas encontradas

En este campo se encuentra las relaciones o recomendaciones que encontró la herramienta según los datos ingresados:

La Ilustración 18 contiene el resultado de la primera asociación.

Ilustración : Primer Resultado Asociación

La Ilustración 19 contiene el resultado de la segunda asociación.

Ilustración : Segundo Resultado Asociación

La Ilustración 20 contiene el resultado de la tercera asociación.

Ilustración : Tercer Resultado Asociación



Análisis de resultado

Según los resultados anteriores podemos evidenciar que en las dos primera iteraciones los atributos que están en todas las reglas con el de tipo de papel, tamaño de papel y si el día es festivo o no. La razón de estos resultados es que el porcentaje de repetición de valores es muy alto, más del 90% lo que ocasionó que no se encuentre ninguna relación relevante para la investigación.

En la tercera iteración se realizó el ejercicio de remover esos atributos que no era relevantes y que estaban ocasionando ruido para el estudio, el resultado de esa iteración evidenció un aumento en la impresión a final de mes y con mayor porcentaje de actividad en horas de la mañana. Siendo consecuentes con el análisis en la opción de clúster, nos dice que el área o centro de costos que más utiliza el servicio de impresión a finales del mes es el departamento de Finanzas.

Selección de atributos

Nos permite identificar cuáles son los atributos más relevantes para el desarrollo del estudio de minería de datos:



  • El método que se seleccionó fue el mejor primero. (BestFirst)

Este algoritmo fue utilizado dentro de la funcionalidad selección de atributo, el objetivo es determinar que atributos son los más relevantes para la investigación y de ese modo identificar la variable más influyente. Entre las opciones de algoritmo que se contemplaron para identificación de atributos fueron: Búsqueda exhaustiva, Búsqueda genérica y el algoritmo BestFirst.

El algoritmo BestFirst tiene tres formas de buscar:



  • Comienza con el conjunto vacío de atributos y busca hacia adelante

  • Comienza con el conjunto completo de atributos y busca hacia atrás

  • Comienza desde cualquier punto y realiza una búsqueda en ambas direcciones

El algoritmo explora en el grafo y expande el nodo más prometedor seleccionado por una regla específica, intentando predecir un posible camino a la solución final. Este algoritmo es útil para la selección eficiente del mejor candidato para una solución, implementando una cola de prioridad.

Después de realizar el primer análisis la herramienta nos recomienda dos variables:



  • Tiempo fecha

  • Tiempo es festivo

Entonces seleccionamos las variables que nos recomendó para realizar un nuevo análisis. En primer lugar utilizamos la variable tiempo fecha. Este atributo nos muestra los datos más relevantes y cuál es el más importante entre ellos.

Resultado:

  • Dominio

  • Tiempo mes

  • Tiempo nombre mes

  • Tiempo semana ano

  • Tiempo es última semana mes – Es el más importante para la herramienta.

Con la segunda recomendación, utilizamos la variable tiempo es festivo.

Resultado:

  • Tiempo día mes

  • Tiempo día semana

  • Tiempo día semana nombre

  • Tiempo semana ano

  • Tiempo es última semana mes – Es el más importante para la herramienta.

Visualización:

Muestra gráficamente la distribución de todos los atributos, mostrando graficas en dos dimensiones en las que representa en los ejes todos los posibles pares de combinación de los atributos. Nos permite ver correlaciones y asociaciones entre los atributos en una forma gráfica.


1   2   3   4   5   6   7   8


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal