Pontificia universidad javeriana facultad de ingenieria carrera de ingenieria de sistemas



Descargar 287.56 Kb.
Página1/8
Fecha de conversión10.01.2017
Tamaño287.56 Kb.
  1   2   3   4   5   6   7   8

Pontificia Universidad Javeriana Memoria de Trabajo de Grado – Estudio de Minería de Datos



CIS1310IS02
Aplicación de Minería de Datos para la Identificación de Patrones de comportamiento en las organizaciones enfocado en Prácticas de Impresión: Caso de Estudio

Daniel Augusto Solano Oviedo

escudo150.gif

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

BOGOTÁ, D.C.

2013


CIS1310IS02
Aplicación de Minería de Datos para la Identificación de Patrones de comportamiento en las organizaciones enfocado en Prácticas de Impresión: Caso de Estudio

Autor:

Daniel Augusto Solano Oviedo

MEMORIA DEL TRABAJO DE GRADO REALIZADO PARA CUMPLIR UNO DE LOS REQUISITOS PARA OPTAR AL TITULO DE INGENIERO DE SISTEMAS

Director

Álvaro Fernando Quintero González



Jurados del Trabajo de Grado

Julio Ernesto Carreño Vargas

Blanca Elvira Oviedo Torres

Página web del Trabajo de Grado

 http://pegasus.javeriana.edu.co/~CIS1310IS02

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

BOGOTÁ, D.C.

NOVIEMBRE, 2013
PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERIA

CARRERA DE INGENIERIA DE SISTEMAS

Rector Magnífico

Joaquín Emilio Sánchez García S.J.



Decano Académico Facultad de Ingeniería

Ingeniero Jorge Luis Sánchez Téllez



Decano del Medio Universitario Facultad de Ingeniería

Padre Sergio Bernal Restrepo S.J.



Director de la Carrera de Ingeniería de Sistemas

Ingeniero Germán Alberto Chavarro Flórez



Director Departamento de Ingeniería de Sistemas

Ingeniero Rafael Andrés González Rivera



Artículo 23 de la Resolución No. 1 de Junio de 1946

La Universidad no se hace responsable de los conceptos emitidos por sus alumnos en sus proyectos de grado. Sólo velará porque no se publique nada contrario al dogma y la moral católica y porque no contengan ataques o polémicas puramente personales. Antes bien, que se vean en ellos el anhelo de buscar la verdad y la Justicia”

Contenido


Contenido 5

INTRODUCCIÓN 10

I - DESCRIPCION GENERAL DEL TRABAJO DE GRADO 11

1. Oportunidad, Problemática, Antecedentes 11

1.1 Descripción del contexto 11

1.2 Formulación del problema planteado 12

1.3 Justificación 12

1.4 Impacto Esperado 13

2. Descripción del Proyecto 14

2.1 Visión global 14

2.2 Objetivo general 14

2.3 Fases Metodológicas o conjunto de objetivos específicos 14

II - MARCO TEÓRICO 14

1. Marco Contextual 15

2. Marco Conceptual 15

2.1 Historia 15

2.2 Conceptos Básicos 17

2.3 Conceptos sobre la problemática 18

2.4 Técnicas Minería de Datos 19

2.4.1 Las técnicas dirigidas 20

2.4.2 Las técnicas no dirigidas 23

2.5 Herramientas Minería de Datos 26

2.5.1 Software Libre 26

2.5.2 Software licenciado 32

3. Marco Institucional 33

III – DESARROLLO DEL TRABAJO 35

Fase 1 Entendimiento del Negocio 36

Determinar los objetivos del negocio 36

Evaluar la situación 37

Elaborar el plan del proyecto 38

Fase 2 Entendimiento de los Datos 38

Recopilar los Datos iniciales 39

Descripción de los Datos 40

Revisar los Datos 46

Verificar la calidad de datos 46

Fase 3 Preparación de los datos 47

Seleccionar los Datos 47

Limpieza de los datos 47

Construcción de los datos 49

Aplicar formatos a los datos 51

Fase 4 Modelado 53

Seleccionar la técnica de modelado 54

Construcción del modelo de pruebas 58

Implementación del modelo 60

Evaluación del modelo 60

Fase 5 Evaluación 70

Evaluación de los resultados 70

Revisión del proceso 70

Determinar los próximos pasos 71

Fase 6 Transferencia 71

Plan de transferencia 72

Producción del reporte final 73

Revisión del Proyecto 73

IV - RESULTADOS Y REFLEXIÓN SOBRE LOS HALLAZGOS 73

V – CONCLUSIONES, RECOMENDACIONES Y TRABAJOS FUTUROS 75

1. Conclusiones 75

2. Recomendaciones 76

3. Trabajos Futuros 77

VI - REFERENCIAS Y BIBLIOGRAFÍA 77

1. Referencias 78

2. Bibliografía 81

VII - ANEXOS 83

Anexo1. Glosario 83

Anexo2. Post-Mortem 83

Actas de Reunión 83

Reportes MegaTrack 84

Registros-MegaTrack 84

Registros-MegaTrack-BuenasMalas 84

Análisis impresión Buenas-Malas 84

Arquitectura de la solución 84

Descripción Diagramas Tabla de Hechos 84

Manuales 84

Manual de Usuario 84

Manual de instalación 84

Archivos herramienta Weka 84

Registros-Dirigido 84

Registros-NoDirigido 84

Cronograma – Plan de trabajo Proyecto 84

Carta cliente – Printer On Line Integral Document SAS 84

Presentación Trabajo de Grado 84

Tablas

Ilustraciones


ABSTRACT

This document describes a data mining process, from the understanding of the business to the results analysis. The objective of this study is identifying behavior patterns related to printing practices among medium and large organizations. The purpose of the study is to reduce the consumption of resources used in daily routine work. The problematic and opportunities for this work is explained thoroughly in the document description, as well as the development process and the methodologies used.

RESUMEN

El presente documento describe el proceso de desarrollo de un estudio de minería de datos, desde el entendimiento del negocio hasta el análisis de resultados. El objetivo de este estudio es identificar si existen patrones de conducta en las medianas y grandes organizaciones relacionadas con prácticas de impresión, lo anterior con el fin de reducir el consumo excesivo e innecesario de recursos que diariamente se utilizan en las actividades rutinarias de trabajo. En la descripción del documento se explica ampliamente la problemática y oportunidad para este trabajo de grado, así como el proceso de desarrollo y las metodologías utilizadas.



RESUMEN EJECUTIVO

En los últimos años, nació la iniciativa en algunas empresas por la conservación del medio ambiente. Esta nueva forma de pensar es inculcada en los trabajadores para mejorar sus actividades rutinarias dentro de las organizaciones y consecuentemente mejorar su la calidad de vida, así como promover el cuidado del medio ambiente. Las empresas que buscan este objetivo emplean diferentes técnicas o estrategias para realizarlo, desde campañas en pro del manejo de desperdicios hasta la utilización de recursos que no sean perjudiciales para la naturaleza. Los ejemplos más sobresalientes sobre este tipo de campañas se pueden enfocar en el correcto uso de los recursos en los baños y de los ascensores, así como los recursos que se brindan en las cafeterías y salas de libre esparcimiento. No obstante, rara vez se ataca una problemática muy evidente, considerando que es un recurso esencial en las actividades laborales de cualquier organización; estamos hablando de las prácticas de impresión. Los recursos utilizados para estas prácticas, incluido el dinero, representan un valor significativo que debe ser analizado. Aun considerando los avances tecnológicos y las herramientas que permiten digitalizar cualquier tipo de documento, la impresión física de documentos es un recurso muy utilizado actualmente. Las medianas y grandes organizaciones emplean altas cantidades de dinero para brindarles esta posibilidad a sus empleados, donde su consumo es desmedido y no maneja un control ni por parte de los empleados ni de las mismas organizaciones; es precisamente del análisis de esta situación donde nace el planteamiento del presente trabajo de grado.

Algunas empresas ya empezaron a emplear sistemas para controlar este tipo de prácticas, por medio de la implementación de un software que permite llevar un control de impresiones y una estadística de consumo. Es en este punto donde nace una segunda inquietud. ¿De qué sirve llevar un control estadístico de consumo de impresión y recolectar información relevante para la organización si no se van a utilizar estos datos para mejorar la situación actual de la empresa? Es sobre estos dos cuestionamientos donde nace la propuesta de este trabajo de grado.

La propuesta consiste en realizar un estudio de minería de datos que permita identificar patrones de conducta o comportamiento de los empleados en medianas y grandes empresas en el momento de realizar prácticas de impresión. El objetivo es muy claro, con el fin de brindarle a las empresas las herramientas necesarias para la toma de decisiones sobre estrategias y/o campañas que mejoren el consumo de recursos de impresión, resulta necesario conocer la situación que se desarrolla internamente en la empresa. Para poder terminar de aterrizar el problema y el planteamiento de la solución, se realizaron los siguientes cuestionamientos. ¿Es posible reducir el consumo de impresión en una compañía mejorando la utilización del servicio?, ¿Cómo los empleados de una compañía utilizan el servicio de impresión?, ¿Qué es una buena práctica de impresión? / ¿Qué es una mala práctica de impresión?, ¿Qué usuarios deben tener acceso al servicio de impresión?, ¿En qué casos se debe realizar una impresión en color? / ¿En qué casos de debe realizar una impresión en blanco y negro?, ¿Debe existir un límite de páginas impresas al mes por centro de costos?, ¿Todos los centros de costos deberían tener límite de páginas impresas por mes?, ¿Debe existir un límite de páginas impresas al mes por usuario?, ¿Todos los usuarios deberían tener ese límite de páginas por mes? Una vez claras las metas del proyecto y los objetivos a alcanzar se realizaron los planteamientos de la solución.

La metodología implementada para el desarrollo del estudio de minería de datos fue la metodología CRISP-DM, la cual está conformada por 6 fases: Entendimiento del negocio, entendimiento de los datos, preparaciones de los datos, modelado evaluación y finalmente transferencia. Cada una de estas fases está compuesta por un conjunto de actividades que permiten llevar a cabo el análisis de los datos y de esa forma cumplir con el propósito del proyecto. En las primeras etapas de desarrollo del proyecto fue fundamental la participación activa del cliente donde se llevó a cabo el estudio. Lo anterior, en la medida que era el encargado de brindar la información para el entendimiento del negocio y su familiarización, así como de suministrar los datos para su posterior análisis, razón por la que se realizaron varias reuniones hasta lograr el objetivo de estas primeras fases del estudio.

Una vez terminado el entendimiento del negocio y de los datos, se avanzó con la preparación de los mismos. Paralelamente se realizaron ejercicios solucionados con técnicas de minería de datos, con el objetivo de lograr una mejor preparación para el presente estudio, poder elegir la técnica más adecuada al problema y finalmente seleccionar la herramienta que será utilizada en las siguientes etapas.

Debido a todos los factores involucrados en el entendimiento del negocio y el análisis del problema se plantearon dos escenarios y consecuentemente dos técnicas de minera de datos. Se utilizó la técnica de árboles de decisión por el lado de las técnicas dirigidas y la detección automática de clúster por el lado de técnicas no dirigidas, cada escenario con su respectivo archivo de datos y la misma herramienta para el análisis. La herramienta utilizada para el estudio fue Weka 3.6 [31], debido a que es de software libre y a la sencillez en la instalación, su configuración y manejo de la misma.

Se presentó un inconveniente en la etapa de recolección de datos. Inicialmente se planteó que los datos que serían analizados corresponderían a la información obtenida del software de control de impresión (MegaTrack) y los datos de los usuarios. Debido a la confidencialidad de la información de los usuarios, respaldados por la ley de protección de datos [9] no fue posible contar con la misma, por lo que fue necesario limitar los datos a los extraídos por la herramienta MegaTrack.

Una vez superado este inconveniente se continuó con el modelado y posterior análisis de los datos. El resultado del estudio de minería de datos no fue el esperado en el planteamiento de la solución, los resultados analizados después de implementar las técnicas de minería de datos no arrojaron información trascendental que pudiera ser determinante para la organización. La razón de este resultado es posiblemente la limitante en la utilización de los datos, más que por las técnicas de minería de datos utilizadas. Para concluir, aunque los resultados no fueron del todo los esperados, se abre la ventana a posibles soluciones de un tema de gran importancia y de interés para todas las empresas. Como se describió en la problemática, no sólo concierne a una cuestión monetaria, sino a la lucha por la conservación del medio ambiente, que también juega un papel fundamental en esta situación.

  1   2   3   4   5   6   7   8


La base de datos está protegida por derechos de autor ©bazica.org 2016
enviar mensaje

    Página principal