Ingeniería en Estadística Informática



Descargar 1.12 Mb.
Página1/26
Fecha de conversión26.01.2017
Tamaño1.12 Mb.
  1   2   3   4   5   6   7   8   9   ...   26



index_r1_c1

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Instituto de Ciencias Matemáticas



Ingeniería en Estadística Informática


TESIS DE GRADO

Previo a la obtención del Título de

INGENIERO EN ESTADÍSTICA INFORMÁTICA

Presentada por:


Daryna Marycruz Calderón Orozco


GUAYAQUIL - ECUADOR

AÑO 2005




AGRADECIMIENTO

AGRADECIMIENTO



A Dios.

A mi mamá por su apoyo, dedicación y sus sabios consejos.

A mis tíos Vinicio y Wilson por su ayuda incondicional y sus consejos.

A mi abuelita Amalia por su inmenso cariño y por la ayuda que siempre nos ha brindado a mi mamá y a mi.

A todas las personas que colaboraron en la realización de este trabajo, especialmente a la ayuda del Ing. Juan Alvarado Director de Tesis.



DEDICATORIA

A Dios.


A mi madre.

A mis tíos Vinicio y Wilson.

A mi abuelita Rosa Amalia.

Y a todos mis familiares.



TRIBUNAL DE GRADUACIÓN


Ing. Juan Alvarado Ortega

DIRECTOR DE TESIS






Mat. Washington Armas

DIRECTOR DEL ICM






Mat. Jhonny Bustamante R.

VOCAL





Ing. Oscar Mendoza Macias

VOCAL



DECLARACIÓN EXPRESA
“La responsabilidad del contenido de esta Tesis de Grado, me corresponden exclusivamente; y el patrimonio intelectual de la misma a la ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL”
(Reglamento de Graduación de la ESPOL).

Daryna Marycruz Calderón Orozco




RESUMEN
El presente trabajo es desarrollado con el fin de encontrar las causas por las cuales empleados de una empresa de servicios realiza sobretiempo, para esto se utilizó el Método del Árbol de Decisión, de las técnicas de este método se aplicó el Algoritmo C4.5 utilizando el programa WEKA. Este programa implementa el Algoritmo J4.8, el cual es una extensión del Algoritmo C4.5.
El primer capítulo presenta una revisión rápida de los conceptos más importantes de horas normales y horas extras o sobretiempo, segín el código de trabajo.
El segundo capítulo se explica los diferentes métodos para extraer patrones de datos utilizando el proceso de descubrimiento de conocimiento en base de datos.
El tercer capítulo presenta el modelo propuesto para extraer información del comportamiento del sobretiempo, para lo cual se utilizo el Algoritmo J4.8 implementado por el programa WEKA.
Finalmente, en el cuarto capítulo están las conclusiones y recomendaciones del trabajo desarrollado.

ÍNDICE GERERAL

Pág.

RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I

ÍNDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II

ÍNDICE DE TABLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VI

ÍNDICE DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX
INTRODUCCIÓN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1


  1. INTRODUCCIÓN: HORAS NORMALES Y HORAS EXTRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 - 15




  1. MÉTODOS PARA EXTRAER PATRONES DE DATOS

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 - 48

    1. Descubrimiento de Conocimiento en Bases de Datos (KDD)
      1. Metas del KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


      2. El Proceso KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19 - 23

      3. Representación de patrones . . . . . . . . . . . . . . . . . . . . . . 24

                  1. Técnicas no simbólicas . . . . . . . . . . . . . . . . . . 24

                  2. Técnicas simbólicas . . . . . . . . . . . . . . . . . . . . . 24

      1. Tipologías de patrones . . . . . . . . . . . . . . . . . . . . . . . 25 - 28

      2. Técnicas de KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 - 42

        1. Algoritmos supervisados o predictivos . . . . 28 - 30

        2. Algoritmos no supervisados o del descubrimiento del conocimiento . . . . . . . . . . . . . . . . . . . . . 30 - 42

2.1.6 Retos del proceso y de su aplicación . . . . . . . . . . . . 42 - 48


  1. MODELO PROPUESTO PARA EXTRAER INFORMACIÓN DEL COMPORTAMIENTO DEL SOBRETIEMPO . . 49 - 115

    1. Determinar las fuentes de información . . . . . . . . . . . . . . 50 - 51

    2. Diseño del esquema de un almacén de datos . . . . . . . . . 51 - 52

    3. Implantación del almacén de datos . . . . . . . . . . . . . . . . . . . . 53

    4. Selección, limpieza y transformación de los datos que se van a analizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 - 62

3.4.1 Obtención de clases de sobretiempo por medio del gráfico de sus frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 - 62

      1. Seleccionar y aplicar el método de minería de datos apropiado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 - 83

3.5.1 Introducción al programa WEKA . . . . . . . . . . . . . . . 63 - 66

3.5.2 Aplicación del programa WEKA . . . . . . . . . . . . . . . .66 - 83

3.5.2.1 Tabla de Contingencia . . . . . . . . . . . . . . . . 68 - 70

3.5.2.2 Análisis del atributo SOBRETMP con los demás atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .70 - 76

3.5.2.3 Aplicación de algoritmo J4.8 . . . . . . . . . . . . 76 - 83


      1. Evaluación, interpretación, transformación y representación de los patrones extraídos . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 - 98

3.6.1 Resumen de Datos Obtenidos . . . . . . . . . . . . . . . . .86 - 88

3.6.2 Modificación del Algoritmo J4.8 . . . . . . . . . . . . . . . .89 - 98



              1. Cuadro de Ganancias por nodos de cada categoría . . . . . . . . . . . . . . . . . . . . . . . . . 92 - 94

              2. Análisis del Cuadro de Ganancias por nodo de cada categoría . . . . . . . . . . . . . . . . . . . . . 95 - 96

              3. Nodos a destacar según el Análisis del Cuadro de Ganancias por nodo de cada categoría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 - 98

3.7 Aplicación del Algoritmo J4.8 con sobre-muestreo . . . . 98 - 115

3.7.1 Cuadro de Ganancias por nodos de cada categoría . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 - 109

3.7.2 Análisis del Cuadro de Ganancias por nodo de cada categoría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .109 - 111

3.7.3 Nodos a destacar según el Análisis del Cuadro de Ganancias por nodo de cada categoría . . . . . . . . . . . . 111 - 115


  1. CONCLUSIONES Y RECOMENDACIONES . . . . 116 – 122

BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

ÍNDICE DE TABLAS

Pág.

Tabla 3.1 Datos obtenidos del query de frecuencias de sobretiempo . . 58

Tabla 3.2 Tabla de Contingencia de SOBRETMP con NIVE . . . . . . . . . 71

Tabla 3.3 Contraste de Hipótesis de SOBRETMP con NIVE . . . . . . . . . 71

Tabla 3.4 Tabla de Contingencia de SOBRETMP con SEXO . . . . . . . . 72

Tabla 3.5 Contraste de Hipótesis de SOBRETMP con SEXO . . . . . . . . 72

Tabla 3.6 Tabla de Contingencia de SOBRETMP con ESTACIVI . . . . . 73

Tabla 3.7 Contraste de Hipótesis de SOBRETMP con ESTACIVI . . . . . 73

Tabla 3.8 Tabla de Contingencia de SOBRETMP con CODSUPER . . . 74

Tabla 3.9 Contraste de Hipótesis de SOBRETMP con CODSUPER . . . 74

Tabla 3.10 Tabla de Contingencia de SOBRETMP con CARGAS . . . . . . 75

Tabla 3.11 Contraste de Hipótesis de SOBRETMP con CARGAS . . . . . . 75

Tabla 3.12 Matriz de Confusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Tabla 3.13 Clasificación del atributo Supervisor . . . . . . . . . . . . . . . . . . . 85

Tabla 3.14 Resumen de datos obtenidos . . . . . . . . . . . . . . . . . . . . . 87 - 88

Tabla 3.15 Cuadro de Ganancias por nodo de la Clase 2 . . . . . . . . . 93 - 94

Tabla 3.16 Cuadro de Ganancias por nodo de la Clase 3 . . . . . . . . . . . . 94

Tabla 3.17 Cuadro de Ganancias por nodo de la Clase 4 . . . . . . . . . . . . 94

Tabla 3.18 Nodos a destacar según Cuadro de Ganancias de la Clase 2 . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 - 97



Tabla 3.19 Nodos a destacar según Cuadro de Ganancias de la Clase 3 . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97



Tabla 3.20 Nodos a destacar según Cuadro de Ganancias de la Clase 4 . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97



Tabla 3.21 Cuadro de Ganancias por nodo de la Clase 1 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Tabla 3.22 Cuadro de Ganancias por nodo de la Clase 2 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Tabla 3.23 Cuadro de Ganancias por nodo de la Clase 3 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Tabla 3.24 Cuadro de Ganancias por nodo de la Clase 4 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 - 109

Tabla 3.25 Nodos a destacar según Cuadro de Ganancias de la Clase 1 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Tabla 3.26 Nodos a destacar según Cuadro de Ganancias de la Clase 2 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Tabla 3.27 Nodos a destacar según Cuadro de Ganancias de la Clase 3 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . . . . . 114

Tabla 3.28 Nodos a destacar según Cuadro de Ganancias de la Clase 4 (datos sobremuestreados) . . . . . . . . . . . . . . . . . . . . . . 114 - 115

ÍNDICE DE FIGURAS

Pág.

Figura 2.1 Jerarquía que existe en una base de datos entre datos, información y conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Figura 2.2 Proceso de Extracción de Conocimiento. . . . . . . . . . . . . . . . . 19

Figura 2.3 Esfuerzo requerido en cada etapa del Proceso KDD. . . . . . . . 20

Figura 3.1 Modelo Entidad-Relación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Figura 3.2 Query usado para filtrar los datos. . . . . . . . . . . . . . . . . . 54 - 56

Figura 3.3 Query usado para obtener las frecuencias de sobretiempo. . . 57

Figura 3.4 Gráfico de frecuencias de sobretiempo. . . . . . . . . . . . . . . . . . 58

Figura 3.5 Query que transforma datos en formato DBF a ARFF. . . 60 - 61

Figura 3.6 Datos en formato ARFF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Figura 3.7 Primera pantalla de WEKA . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Figura 3.8 Pantalla principal del Explorador de WEKA. . . . . . . . . . . . . . . 65

Figura 3.9 Archivo TRELOJ_MODIFICADO.ARFF abierto. . . . . . . . . . . . 66

Figura 3.10 Ejemplo de Tabla de Contingencia. . . . . . . . . . . . . . . . . . . . . 69

Figura 3.11 Selección del Algoritmo J4.8. . . . . . . . . . . . . . . . . . . . . . . . . . 77

Figura 3.12 Aplicación del Algoritmo J4.8. . . . . . . . . . . . . . . . . . . . . . . . . . 78

Figura 3.13 Árbol de Decisión obtenido mediante la utilización del Algoritmo J4.8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 - 82

Figura 3.14 Modificación de parámetros del Algoritmo J4.8. . . . . . . . . . . . 90

Figura 3.15 Árbol de Decisión obtenido de la modificación del parámetro minNumObj del Algoritmo J4.8. . . . . . . . . . . . . . . . . . . . . 90 - 91

Figura 3.16 Query utilizado para hacer el sobre-muestreo a la tabla Treloj_modificado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 - 101

Figura 3.17 Árbol de Decisión obtenido de datos sobre-muestreados y de la

modificación del parámetro minNumObj del Algoritmo J4.8 . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102 - 104


INTRODUCCIÓN
Debido a la crisis económica en la que se encuentra el país muchas personas se encuentran con la necesidad de buscar la forma de sustentar sus gastos, ya sea teniendo trabajos adicionales o haciendo sobretiempo en las empresas en las que laboran, siendo esto último, la causa de dolor de cabeza y preocupación de los dueños o administradores de las mismas, por tener que pagar gastos imprevistos.
Analizar las causas por las cuales, empleados de una empresa de servicios realizan sobretiempo es el objetivo principal de esta tesis, para ello se diseñará e implementará un modelo que ayude a los dueños o administradores de la misma a tomar las decisiones que considere pertinentes, enfocándose en el grupo que más sobretiempo realiza.
Para lograr esto, se aplicaran los diferentes pasos del proceso de KDD (descubrimiento del conocimiento en bases de datos), el cual va ha permitir identificar o descubrir patrones de sobretiempo dentro de los datos.
De las técnicas existentes en minería de datos se aplicará los árboles de decisión mediante el uso de WEKA. Este programa implementa numerosos algoritmos de aprendizaje y múltiples herramientas para transformar las bases de datos y realizar un exhaustivo análisis. De los algoritmos que WEKA implementa, trabajaré con el Algoritmo J4.8, el cual es una extensión del Algoritmo C4.5.

  1   2   3   4   5   6   7   8   9   ...   26


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal