1122

  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View 1122 as PDF for free.

More details

  • Words: 23,857
  • Pages: 110
. UNIVERSIDAD MAYOR DE SAN ANDRÉS FACULTAD DE CIENCIAS PURAS Y NATURALES CARRERA DE INFORMÁTICA

“PROYECTO DE GRADO” TEMA: “MINERIA DE DATOS EN EL SISTEMA DE INFORMACIÓN EDUCATIVA CASO: EDUCACIÓN FORMAL”

POSTULANTE:

GLIZETH ROJAS FERNÁNDEZ

DOCENTE TUTOR:

Msc. MARIO LOAYZA MOLINA

DOCENTE REVISOR: Lic. MENFY MORALES RIOS

La Paz - Bolivia

1

.

AGRADECIMIENTOS A Dios por guiar mi camino para alcanzar esta etapa de mi vida.

Al

Dr. Ing. Ramiro Aguilar Quispe, por su gran apoyo en el desarrollo del proyecto, por sus

contribuciones

y su generosa disposición para realizar las correcciones que han permitido

concluir el presente proyecto.

A la Lic. Menfy Morales Ríos, por su disponibilidad en el proceso de revisión del proyecto, por sus sugerencias y su valiosas recomendaciones.

Al Lic. Mario Loayza Molina, por la confianza depositada y por haberme guiado en el desarrollo del proyecto.

Al Ministerio de Educación y Culturas por brindarme la información necesaria y al personal por la colaboración brindada.

A la Lic. Wendy Sotomayor Segales, por sus sugerencias, sus recomendaciones y el incentivo para la realización de este proyecto.

A todos los docentes de la carrera por haberme transmitido sus enseñanzas y paciencia a lo largo de la carrera.

A mis padres por su gran apoyo, su constante aliento y la confianza depositada .

A mis amigos por su gran cariño y amistad en especial a mis amigos: Aleida, Mirian, Zulma, Yolanda, Verónica, Grober, Jheny, Karen, María, Waldir.

2

.

RESUMEN En el presente proyecto se describe la aplicación de Minería de datos sobre los datos de Educación Formal del Sistema de Información Educativa (SIE) del Ministerio de Educación y Culturas para descubrir patrones de comportamiento acerca del sector educativo, para tal efecto se lleva a cabo el proceso de descubrimiento de conocimiento en bases de datos (de las palabras en inglés Knowledge Discovery in Databases - KDD)

Las etapas del proceso incluyen la selección, el preprocesamiento, la transformación, la minería de datos y la interpretación de resultados. En la fase de selección se extraen los atributos de las tablas más relevantes relacionados con la matriculación

del SIE para

unificar en una sola tabla denominada data set, en la etapa de preprocesamiento se utilizan métodos estadísticos y descriptivos para conocer mejor los datos seleccionados y en la etapa de transformación se modifica la forma de los datos.

En la etapa de minería de datos se utiliza la herramienta Weka para aplicar Clustering con el objeto de agrupar los datos para detectar similitudes entre las unidades educativas y también se aplican Árboles de Decisión para tratar de conocer los atributos relevantes en el clustering.

Se desarrolla una herramienta de minería de datos que incluye la visualización de datos de forma multidimensional que constituye una herramienta visual de análisis exploratorio

y

el algoritmo k-means de Clustering.

Palabras Clave: Minería de Datos, Sistema de Información Educativa, Visualización multidimensional, Weka, Clustering, Árboles de Decisión.

3

.

INDICE GENERAL Dedicatoria Agradecimientos Resumen

CAPITULO I

1.1 Introducción ...........................................................................................................

1

1.2 Antecedentes ...........................................................................................................

2

1.3 Planteamiento del problema.....................................................................................

3

1.4 Objetivos..................................................................................................................

4

1.4.1 Objetivo general....................................................................................................

4

1.4.2 Objetivos específicos..................................................................... ......................

4

1.5 Límites y Alcances..................................................................................................

5

1.6 Justificación ............................................................................................................

5

1.6.1 Justificación Técnica.................................. ............................................

5

1.6.2 Justificación Social .................................................................................

5

1.7 Aspectos Metodológicos..........................................................................................

6

CAPITULO II MARCO TEÓRICO

2.1 Aprendizaje Automático...........................................................................................

8

2.2 Minería de Datos....................................................................................................... 9 2.3 Proceso de Extracción de Conocimiento...................................................................

9

2.3.1 Preparación de Datos..................................................................................

12

2.3.1.1 Fase de Selección.........................................................................

12

2.3.1.2 Fase de Preprocesamiento............................................................

13

2.3.2 Transformación ..........................................................................................

14

2.3.3 Exploración de Datos. ..............................................................................

16 4

. 2.3.3.1 Exploración mediante visualización...........................................

17

2.4 Técnicas de Minería de Datos.................................................................................

18

2.5 Agrupamiento (Clustering).....................................................................................

19

2.5.1 Algoritmo k-means...................................................................................

20

2.5.1.1 Medida de distancias ................................................................

22

2.6 Árboles de decisión...............................................................................................

23

2.6.1 Algoritmo ID3..........................................................................................

24

2.6.2 Algoritmo C4.5.........................................................................................

25

2.7 La Educación Formal en Bolivia...........................................................................

27

2.7.1 Sistema de Información Educativa (SIE)................................................

28

2.7.2 Distritos Educativos.................................................................................

29

2.7.3 Población Escolar ...................................................................................

29

2.7.4 Indicadores..............................................................................................

31

2.7.4.1 Tasa de Culminación por Niveles............................................

31

2.7.4.2 Tasa de Aprobación por Niveles.............................................

32

2.7.4.3 Tasa de Abandono por Niveles...............................................

33

2.7.4.4 Rezago Escolar........................................................................

33

2.8 Herramientas de Minería de Datos........................................................................

34

2.8.1 WEKA.....................................................................................................

34

2.8.1.1 Formatos de entrada..................................................................

35

2.8.1.2 Tareas........................................................................................

36

2.8.1.3 Formas de acceso......................................................................

37

2.9 Conclusiones del capítulo.......................................................................................

38

CAPITULO III DESARROLLO

3.1

Análisis de la Fuente de datos del Sistema de Información Educativa.............

39

3.2

Preparación de datos..........................................................................................

43

3.2.1 Fase de Selección.........................................................................

43

3.2.1.1 Consolidación de la Información en un data set..........

47

3.2.2 Fase de Preprocesamiento....................................................... 3.2.2.1 Tratamiento de valores faltantes..............................

50 56

5

. 3.2.2.2 Tratamiento de valores erróneos..............................

56

3.3 Proceso de Transformación ................................................................................

57

3.4 Minería de Datos..................................................................................................

60

3.4.1 Análisis mediante la herramienta de Minería de Datos WEKA.................. 61 3.4.1.1 Aplicación de Clustering.........................................................

66

3.4.1.2 Análisis de distancias para determinar el número de clusters....

65

3.4.1.3 Análisis de los grupos............................................................

67

3.4.1.2 Aplicación de árboles de decisión........................................................

73

3.5 Implementación de la herramienta de minería de datos...........................................

76

3.5.1 Visualización Multidimensional.............................................................

79

3.5.2 Algoritmo k-means..............................................................................

83

3.5.3 Criterios de calidad de la herramienta........................................................ 86 3.5.4 Análisis de los grupos obtenidos por la herramienta. ...............................

86

3.6 Conclusiones del capítulo............................................................................................. 87

CAPITULO IV ANÁLISIS DE RESULTADOS

4.1

Análisis de la Fuente de datos del Sistema de Información Educativa................... 87

4.2

Realización del proceso de forma iterativa para reforzar y complementar los ......90 resultados

3.6 Conclusiones del capítulo.............................................................................................100

CAPITULO V CONCLUSIONES Y RECOMENDACIONES

5.1 Conclusiones.................................................................................................................101 5.2 Recomendaciones ........................................................................................................102 REFERENCIAS ANEXOS

6

.

CAPÍTULO I

1.1 INTRODUCCIÓN La educación en Bolivia es uno de los pilares fundamentales para el desarrollo de nuestro País, es por ello que uno de los objetivos que persigue el Ministerio de Educación y Culturas es brindar una educación con calidad y pertinencia para todos mediante políticas educativas.

Para diseñar políticas educativas es necesario conocer la situación educativa. Una manera de conocer la situación educativa es analizar minuciosamente los datos estadísticos que nos servirán para

encontrar indicadores educativos, índices, frecuencias y otros componentes

del estado situacional de la educación.

Para proveer información para la gestión educativa, se ha desarrollado el Sistema de Información Educativa (SIE) que integra sistemas informáticos con instrumentos de recopilación, procesamiento y difusión de datos educativos. Para el proceso de recopilación, las Unidades Educativas llenan sus datos en formularios y reportan a sus Direcciones Distritales que a su vez, transcriben y validan estos datos, para luego remitirlos al Servicio Departamental de Educación (SEDUCA) que realiza el control de calidad, posteriormente el Ministerio de Educación consolida los datos en el SIE de todos los departamentos a nivel nacional para proporcionar información confiable y oportuna para brindar los insumos y realizar el seguimiento a la ejecución de las políticas educativas. Para todo este proceso se utilizan sistemas informáticos como el Sistema de Información Estadística (SIESTA),

7

. Registro de Unidades Educativas (RUE), Registro Único de Estudiantes (RUDE), Sistema de Infraestructura Educativa (INFRAEDU); todas ellas conforman el SIE.

El SIE comenzó su operación en 1998 y hasta el momento cuenta con una inmensa cantidad de información que debería ser aprovechada en la toma de decisiones. En los últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de forma semiautomática , una de ellas es la Minería de Datos para extraer conocimiento útil y comprensible en grandes cantidades de datos.

En este sentido aplicar técnicas de Minería de datos en el SIE resulta un gran avance para la toma de decisiones y coadyuvará a la formulación de nuevos programas en el área educativa.

1.2 ANTECEDENTES Las necesidades organizacionales en cuanto a requerimientos de información esta creciendo, por lo que surge el concepto de información estratégica que corresponde a la información con una visión global.

El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos ha crecido espectacularmente en las últimas décadas, gran parte de esta información es histórica. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosión de datos no supone un aumento de nuestro conocimiento, puesto que resulta difícil procesarlos con los métodos clásicos.

Para superar este problema, en los últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los mismos de forma automática. La Minería de Datos se define como el proceso no trivial de extraer conocimiento de forma automática o semiautomática desde grandes cantidades de datos[Witten].

8

En el

Ministerio de Educación y Culturas la

primera

publicación

educativos se desarrolló en la gestión 2004 con el libro Bolivia, indicadores, cifras y resultados” Dirección General estadísticos

de

desarrollado por

titulado

sobre

. indicadores

“La Educación en

la Dirección de Análisis

de la

Estrategia Educativa. Esta publicación contiene información y datos

sobre la

población en edad

escolar,

analfabetismo, características

demográficas, económicas y sociales, educación superior y alternativa. Actualmente publicada

en la

está

página web del Ministerio de Educación , en la sección de estadísticas

educativas. A partir de esta

publicación se han realizado

varios informes e indicadores

estadísticos de cada gestión.

Otro de los reportes de de cubos dinámicos

la situación educativa es el Generador de Reportes a través

mediante

un

programa Informático, con el que el usuario puede

realizar un análisis Multidimensional eligiendo

y combinando las variables de interés.

Los informes Estadísticos y los Cubos dinámicos están publicados en la página del Ministerio de Educación para que la población pueda adquirir información sobre la situación educativa.

1. 3 PLANTEAMIENTO DEL PROBLEMA Actualmente el SIE cuenta

con información

de los nueve departamentos desde las

gestiones 1999 hasta el 2007, el tamaño de esta base de datos esta creciendo enormemente, por ejemplo en

el

departamento de La Paz se han registrado 4028, 4053, 4079,

4078, 4137, 4168 y 4159

Unidades Educativas tanto

del área rural

como urbana,

durante las gestiones 2000, 2001, 2002, 2003, 2004, 2005 y 2006 respectivamente. Se puede observar que se va incrementando las Unidades Educativas, este comportamiento también se da en el resto de los

departamentos

por tanto la cantidad de registros

almacenados resulta ser demasiado grande. El análisis de

esta enorme cantidad de

datos resulta dificultoso y supera el alcance de la estadística.

Este problema limita el conocimiento de los datos y puede generar incongruencias en la toma adecuada de decisiones, en las proyecciones

y en las nuevas políticas

que se

requieren para mejorar el sector educativo.

9

Actualmente, el Ministerio cuenta con cuadros estadísticos y herramientas para el análisis de los datos problema de esta información es que

del Sistema de

resulta

gran cantidad de datos. Por otra parte, a pesar herramientas OLAP soportan

no generan

Información Educativa.

El

más descriptiva que cuando se trata de de

cierto análisis

permite transformar los datos en otros

. cubos dinámicos como

que los cubos

dinámicos

y

descriptivo y de "sumarización" que

datos agregados o

cruzados de manera sofisticada,

reglas, patrones, pautas, es decir conocimiento que pueda ser entendido a más

alto nivel. Por tanto, se hace necesario alguna metodología que nos ayude a comprender mejor los datos. Estos problemas y limitaciones han dado lugar al surgimiento de la Minería de Datos, que constituye una herramienta de análisis que permite obtener patrones de conocimiento útil a partir de grandes volúmenes de datos.

1. 4. OBJETIVOS

1.4.1 OBJETIVO GENERAL Aplicar Minería de Datos sobre la base de datos SIE del Ministerio de Educación y Culturas descubriendo patrones

de comportamiento

y características de la población

estudiantil de las Unidades Educativas del área rural y urbana para conocer mejor el sector educativo y apoyar a la toma de decisiones.

1.4.2 OBJETIVOS ESPECÍFICOS 9

Identificar la información a detalle proveniente del sistema de información educativa SIE.

9

Aplicar

el proceso de descubrimiento de conocimiento en bases de datos

KDD para la selección, preparación y transformación de los datos. 9

Utilizar una herramienta ya implementada y gratuita de Minería de Datos denominada WEKA

para la aplicación de técnicas de preprocesado,

agrupamiento y visualización.

10

9

Aplicar

árboles de decisión

para identificar

. modelos de predicción

mediante reglas con la herramienta WEKA 9

Desarrollar una herramienta de minería de datos programado en Delphi utilizando librerías OpenGL para la visualización multidimensional de los datos y para aplicar el algoritmo k-means con el objeto de agrupar las unidades educativas según similitud y características en grupos o clusters distintos

9

Analizar e interpretar los resultados obtenidos.

1. 5

LIMITES Y ALCANCES

Este

proyecto se delimitará en analizar los datos sobre la matriculación

Educación Formal entre las

proporcionada por

gestiones

2000 al

el Sistema

de la

de Información Educativa (SIE)

2006 y no así sobre la Educación Alternativa ni

la Educación Superior. La Educación Formal o Educación Regular se refiere al proceso educativo que consiste los niveles Inicial ( Preescolar), Primaria y Secundaria para la población de, más o menos, 4 a 17 años de edad .

1. 6. JUSTIFICACIÓN

1.6.1 JUSTIFICACIÓN TÉCNICA Las nuevas necesidades , en particular, las nuevas características de los datos en cuanto al volumen y tipología hacen que la Minería de Datos sea una herramienta importante para un análisis minusioso y útil para la toma de decisiones. Gracias al avance de la tecnología se puede implementar los algoritmos de Minería de Datos en Sistemas Informáticos que

son capaces de procesar

la enorme cantidad de

datos. En este proyecto se realizará la implementación de técnicas de Minería de Datos y de visualización para que pueda ser utilizada en el área de análisis. Además se propone aplicar técnicas y herramientas de Minería de Datos mediante un software gratuito WEKA por contar con distribución libre, interfaz gráfica amigable y su fácil manejo, que será útil para comparar los resultados obtenidos con el programa diseñado.

11

. 1.6.2 JUSTIFICACIÓN SOCIAL El Equipo de Indicadores e Investigación Sectorial del Ministerio de Educación busca aplicar tecnologías Matemáticas e Informáticas para entender mejor los datos del Sistema de Información Educativa, de esta manera aplicar Minería de datos resulta adecuado para coadyuvar a la toma de decisiones. La Minería de Datos no obtiene información extensional o descriptiva, sino intencional es decir conocimiento que por lo general no es una parametrización de ningún modelo preestablecido o intuido por el usuario, sino que es un modelo novedoso y original. Por otro lado, el análisis visual de los datos aprovecha la gran capacidad humana para facilitar la compresión de los datos a partir de imágenes, es por ello que en el proyecto se realizará una herramienta de visualización y exploración de datos para su mejor comprensión y sugerir posibles patrones.

1.7

ASPECTOS METODOLÓGICOS

Para el desarrollo del proyecto se utilizará el proceso de extracción de conocimiento en base de datos KDD que tiene las siguientes etapas: ¾

Preparación de datos ƒ

Selección de datos

ƒ

Preprocesamiento

¾

Transformación de datos

¾

Minería de datos

¾

Interpretación y Evaluación.

Preparación de Datos:

En esta etapa se crea el conjunto de datos , seleccionando y

preparando el subconjunto de variables sobre los que se realizará el descubrimiento. El procesamiento de datos incluye las fases de Selección y Preprocesamiento.

Selección de Datos:

En esta fase se realiza la extracción de los datos relevantes para el

análisis siguiendo los objetivos trazados a un principio.

12

. Preprocesamiento: El objetivo del preprocesamiento es asegurar la calidad de los datos seleccionados, para ello se utiliza una combinación de métodos estadísticos y técnicas de visualización de datos como Distribución de frecuencia, histogramas, gráficos de dispersión, Con la ayuda de los resúmenes y

características de los

valores nominales se puede

determinar fácilmente valores faltantes y valores erróneos.

Transformación de datos:

La transformación

de datos engloba cualquier proceso que

modifique la forma de los datos para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos. Las operaciones que transforman los datos son: Reducción de dimensionalidad por transformación, el aumento de dimensionalidad mediante núcleos, la discretización y la numeración.

Minería de datos: La fase de Minería de Datos es la más característica del KDD. El objetivo de esta fase es producir nuevo

conocimiento que pueda utilizar el usuario.

construyendo un modelo basado en los datos recopilados descripción

de los

patrones y relaciones

Esto ser realiza

para este efecto. El modelo de

entre los datos que pueden usarse para hacer

predicciones , para entender los datos o para explicar situaciones pasadas.

Interpretación y Evaluación: Idealmente, los patrones descubiertos deben tener tres cualidades: ser precisos, comprensibles e interesantes.

13

.

CAPÍTULO II MARCO TEORICO

2.1 APRENDIZAJE AUTOMÁTICO El Aprendizaje Automático (Machine Learning) es el campo dedicado al desarrollo de métodos

computacionales para los procesos de aprendizaje. Estos programas

computacionales son

sistemas de aprendizaje capaces de

adquirir conocimientos,

estrategias para la resolución de problemas mediante ejemplos, hechos o

descripciones

[Michalski, 1998].

Los sistemas de Aprendizaje Automático tienen la intención de construir un modelo a partir de los datos de entrada y cambian su comportamiento de manera tal que son capaces de clasificar nuevos datos y desarrollarse mejor en antiguas situaciones, es decir los sistemas son capaces de aprender. Aún no sabemos, sin embargo, cómo hacer para que los sistemas aprendan en el mismo grado que los humanos [Mitchell, 1997]. Por lo que, debemos preguntarnos cómo aprenden los seres humanos y analizar si los si los sistemas son capaces de aprender de la misma manera. Los humanos aprendemos mediante tres mecanismos distinguibles: inducción, deducción y abducción. Podemos afirmar que los sistemas aprenden cuando son capaces de generar nuevos conocimientos, por cualquiera de los tres métodos anteriores [Monter, 2001]. En un sistema de Aprendizaje Automático, dicha generación de conocimientos se realiza cuando los datos se transforman a un nivel superior que nos es más útil. Pero, ¿por qué y para qué lograr este aprendizaje?. Algunas razones ingenieriles son [Aguilar, 2003]:

14



. Algunas tareas no pueden ser definidas excepto por ejemplos; esto es, se pueden disponer de pares de entrada y salida pero no se puede explicar una relación concisa entre ellas. Entonces, se necesitan máquinas que ajusten sus estructuras internas aprendiendo enormes cantidades de ejemplos y posteriormente emitan una salida coherente a la vez que generen una función aproximada con la relación implícita de los ejemplos.



Es posible la existencia de enormes cantidades

de estructuras de datos con

importantes relaciones y correlaciones. Los métodos del Aprendizaje Automático se usan para extraer esas relaciones. •

Típicamente, el diseñador humano produce máquinas que deben trabajar en los entornos en los cuales son usados. Sería interesante que la mejora de estas máquinas se haga de forma automática en base a la experiencia.



Generalmente, la cantidad disponible de conocimiento sobre ciertas tareas es difícil de codificar explícitamente por los humanos.

Las

máquinas pueden aprender

gradualmente ese conocimiento. •

Los entornos cambian en el tiempo. Las máquinas pueden adaptarse a estos cambios reduciendo la constante necesidad de rediseño.

2.2 MINERIA DE DATOS Se define a la Minería de Datos como el proceso no trivial de extraer conocimiento útil y comprensible de forma automática o semiautomática, previamente desconocido, desde grandes cantidades de datos. Es decir, la tarea fundamental de la Minería de Datos es encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o semi-automático y el uso de los patrones descubiertos debería ayudar a la toma de decisiones [Witten, 2000] .

La Minería de Datos como parte del proceso de descubrimiento de conocimiento y como la aplicación de los algoritmos para obtener patrones proclives a ser traducidos en

15

. conocimiento, elementalmente busca predecir y descubrir. La predicción involucra el uso de algunas variables o atributos en el conjunto de datos para predecir otras variables de interés o características desconocidas. La descripción se enfoca en busca de patrones humanamente interpretables que divulguen a los datos. En este entendido, la Minería de Datos puede entenderse como un proceso dual de síntesis ( predicción) y análisis (descripción) sobre los datos [Aguilar, 2003].

Según algunos autores [Fayyad, 1996], la Minería de Datos como análisis de información sólo es un paso en todo el proceso de descubrimiento de conocimiento, pero actualmente se considera la Minería de Datos como todo el proceso de descubrimiento de conocimiento como el núcleo fundamental dentro del contexto de la ingeniería del conocimiento [Aguilar, 2003].

Por lo

tanto, se considera a la

Minería de Datos como el proceso de extracción de

conocimiento de forma automática o semiautomática, desde grandes cantidades de datos y representa el núcleo fundamental dentro del proceso de descubrimiento de conocimiento en bases de datos.

2.3 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO El descubrimiento de conocimiento en bases de datos que proviene del inglés "Knowledge Discovery in Databases" (KDD), se define como el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los datos [Fayyad, 1996].

El proceso de descubrimiento de conocimiento se organiza entorno a cinco fases como se ilustra en la Figura II.1. Se muestra además que es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede

hacer volver a pasos anteriores y

porque a menudo son necesarias varias iteraciones para descubrir conocimiento de alta calidad. Es interactivo porque el usuario o un experto en el dominio del problema debe ayudar en la preparación de los datos, validación del conocimiento, etc [Fayyad 1996].

16

. El proceso de descubrimiento de conocimiento se divide en las siguientes etapas [Fayyad 1996]: •

Determinación de objetivos: generales y específicos.



Preparación de datos: o Selección o Preprocesamiento .



Transformación: conversión de datos a un modelo analítico



Minería de datos : tratamiento automatizado de los datos seleccionados con una combinación apropiada de técnicas y algoritmos.



Análisis de resultados : interpretación de los resultados obtenidos en la etapa anterior generalmente con la ayuda de una técnica de visualización.



Asimilación del conocimiento: aplicación del conocimiento descubierto a los negocios, investigaciones, etc. Interpretación y evaluación Minería de datos Transformación Preprocesamiento Conocimiento

Selección de datos Patrones

Datos Preprocesados

Datos transformados

Datos seleccionados

Datos

Figura II.1. Etapas del Proceso KDD [Fayyad, 1996 ]

Además de las fases descritas en la Figura II.1 frecuentemente se incluye una fase previa de análisis de las necesidades de la organización y definición del problema en la que se establecen los objetivos de minería de datos [Hernández, 2000].

17

. 2.3.1 PREPARACIÓN DE DATOS En algunos casos, y dependiendo de la aplicación, los datos necesarios para poder llevar a cabo un proceso de KDD pertenecen a diferentes organizaciones, a distintos departamentos de una misma entidad. Esto representa un reto, ya que cada fuente de datos usa diferentes formatos de registro, diferentes claves primarias, diferentes tipos de error, etc. Lo primero por lo tanto, es integrar todos estos datos mediante la tecnología de almacenes de datos ( Data Warehousing) [Hernández, 2004].

Un almacén de datos es un repositorio de información coleccionada desde varias fuentes, almacenadas bajo un esquema unificado que normalmente reside en un único emplazamiento [John Wang, 2005].

Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base de datos multidimensional. Esta visión multidimensional hace a los almacenes de datos adecuados para el procesamiento analítico en línea ( on-line analytical processing, OLAP).

Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. En realidad, se puede hacer minería de datos sobre un simple archivo de datos [John Wang, 2005].

Un aspecto muy importante a la hora de realizar los procesos de integración limpieza, selección y transformación es que se debe conocer el dominio de donde provienen los datos [Cabena, 1998].

El proceso de preparación de datos incluye las fases de Selección y Preprocesamiento. A continuación se desarrollan estas fases.

2.3.1.1

FASE DE SELECCIÓN

En esta fase se realiza la extracción de los datos relevantes para el análisis siguiendo los objetivos trazados a un principio. La calidad del conocimiento descubierto no sólo depende del algoritmo de minería utilizado, sino también de la calidad de los datos. Por lo tanto,

18

. después de la recopilación, el siguiente paso en el proceso es seleccionar y preparar el subconjunto de datos sobre los que se realizará el descubrimiento [Hernández, 2004]. Se selecciona los datos con variables de tipo [Aguilar, 2003]: Clasificatorias: que toman valores finitos y difieren en el tipo. Nominales: nombran el tipo de objeto sin establecer un orden Ordinales: sus valores posibles tienen un orden.

Cuantitativas: existe una diferencia medible entre los valores posibles. Continuas: sus valores son números reales Discretas: sus valores son números enteros.

Las variables seleccionadas para minería de datos se llaman variables activas. En esta etapa hay que determinar la estabilidad de las variables y tener en cuenta los algoritmos posibles de minería para tratar esos datos [Aguilar, 2003].

2.3.1.2

FASE DE PREPROCESAMIENTO

Cuando los datos se encuentran integrados lo primero que se debe realizar es un resumen de las características de atributos, con la ayuda de éstos resúmenes y características de los valores nominales se puede determinar fácilmente valores faltantes y valores erróneos. En el resumen se muestran las características

generales de los atributos (medias, mínimos,

máximos, posibles valores) [Han, 2006].

Valores Faltantes: es importante detectar valores faltantes porque minería de datos requieren datos completos para llevar a cabo

muchas tareas de

un algoritmo. Para los

valores faltantes se debe seguir las fases de detección y tratamiento.

Tanto

para la

detección, como para su tratamiento posterior, es importante saber el porqué de los valores faltantes. Algunos valores faltantes expresan características relevantes, otros valores no existen o simplemente son datos incompletos [Hernández, 2004].

Si se han conseguido establecer los datos faltantes e, idealmente, sus causas, se procederá a su tratamiento. Un método es reemplazar la información faltante por la media o la moda del atributo [Ochoa, 2004]. Pero existen otras acciones que se mencionan a continuación:

19

. •

Ignorar, algunos algoritmos son robustos a datos faltantes



Eliminar, filtrar o reemplazar toda la columna



Filtrar la fila, claramente sesga los datos.



Reemplazar el valor, se puede reemplazar por un valor que preserve la media o la varianza.



Segmentar, se segmentan las tuplas por los valores que tienen disponibles.

Valores erróneos: son valores en la que una o más variables tienen valores que están significativamente fuera de la línea del valor promedio que es espera para esas variables. Del mismo modo que para los campos faltantes, se debe distinguir entre la detección y el tratamiento de los mismos, los tratamientos sobre datos erróneos son [Hernández, 2004]. : •

Ignorar, algunos algoritmos son robustos a datos anómalos



Filtrar la columna, solución extrema



Filtrar la fila, puede sesgar los datos



Reemplazar el valor, por el valor 'nulo' o predecir a partir de otros datos.



Discretizar, transformar un valor continuo en uno discreto.

2.3.2 TRANSFORMACIÓN La transformación de datos engloba cualquier proceso que modifique la forma de los datos para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos [Pyle, 1999] Las operaciones que transforman los datos son: Reducción de dimensionalidad, aumento de dimensionalidad, discretización, numeración

y normalización [Hernández,

2004].

Discretización La discretización o cuantización es la conversión de un valor numérico a un valor nominal ordenado. No obstante, el orden del atributo nominal puede ser preservado y utilizado por los pasos subsiguientes o bien puede olvidarse y tratarse el atributo como un valor nominal sin orden [Hernández, 2004].

20

. Numerización Es el proceso inverso a la discretización. Aunque es menos común que la discretización, también existen casos donde puede ser extremadamente útil, especialmente cuando el método de Minería de Datos que se vamos a utilizar no admite datos nominales por ejemplo regresión lineal [Hernández, 2004].

Normalización Las variables tienden a tener rangos que varían mucho de unos a otros. Por ejemplo, si en las Ligas de Béisbol, los jugadores promedios de bateo que van desde cero a menos de 0.4, mientras que el número de cuadrangulares éxito en una temporada que van desde cero

a

alrededor de 70. Para algunos algoritmos de minería de datos, tales diferencias en los rangos dan lugar a una tendencia a que la variable con mayor rango va ha tener una

influencia

indebida sobre los resultados. Por lo tanto, antes de aplicar un algoritmo los datos, se deben normalizar sus variables numéricas, para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. Existen varias técnicas. Existen varias técnicas para la normalización, y vamos a examinar dos de los métodos más frecuentes: Normalización MinMax y la Estandarización Z-Score [Larose, 2005].

Normalización Min-Max

X* =

X − min( X ) X − min ( X ) = range ( X ) max( X ) − min ( X )

Donde X es la variable original y X*, el valor normalizado. min(X) es el valor mínimo y max(X) es el valor máximo de todas las variables [Larose, 2005].

Estandarización Z-Score, es muy utilizado en el área del análisis estadístico, se basa en la

diferencia entre el valor del campo y el valor medio, dividido entre la desviación estándar de los valores de campo, la fórmula es la siguiente [Larose 2005]:

X* =

X − mean ( X ) SD( X )

21

. 2.3.3 EXPLORACIÓN DE DATOS

La Minería de Datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo existente a un conjunto de datos. Las herramientas existentes actualmente incluyen mecanismos para la preparación de los datos, su visualización y la interpretación de los resultados. Muchas de las herramientas funcionan bien en espacios de pocas dimensiones con datos numéricos, pero sus limitaciones comienzan a aparecer en espacios de mayores dimensiones o con datos no numéricos, por lo tanto es necesario realizar un análisis exploratorio [Thrun et al, 1998].

Una vez los datos están recopilados, integrados y limpios, todavía no están listos para aplicar una tarea de minería de datos. Es necesario, además, realizar un reconocimiento o análisis exploratorio de los datos con el objetivo de conocerlos con detalle, para tal efecto se cuenta con técnicas diversas : algunas técnicas simples del análisis exploratorio de datos, técnicas de visualización previa, de agrupamiento exploratorio, técnicas de selección, ya sea, eliminando filas o eliminando atributos, interfaces gráficas y técnicas de consulta y agregación [Hernández, 2004].

CONOCIENTO PREVIO

Dominio

Datos

Desnormalización, agregaciones, generalizaciones, selección de atributos muestreo.....

NECESIDADES Y EXPECTATIVAS

VISTA MINABLE

TAREA Y CRITERIOS DE EVALUACIÓN

PRESENTACIÓN DEL CONOCIMIENTO

Figura II.2 De los datos, dominio y usuarios a la vista minable [Hernández, 2004].

22

. La figura II.2 esquematiza el proceso que lleva de los datos, del conocimiento del dominio y

de los usuarios a cuatro aspectos que son necesarios para llevar a cabo la fase propia de minería de datos. Estos cuatro aspectos se explican a continuación [Hernández 2004]:

Vista minable : consiste en una vista en el sentido más clásico de base de datos: una tabla.

La mayoría de métodos de minería de datos son sólo capaces de tratar una tabla en cada tarea.

Tarea, método y presentación: Se trata de decidir qué tarea (clasificación, regresión,

agrupamiento, reglas de asociación, etc) cuáles son las entradas y las salidas, qué método se va aplicar y de qué manera se van a presentar los resultados.

Criterios de calidad: se debe establecer criterios de compresibilidad de los modelos,

criterios de fiabilidad, criterios de utilidad y criterios de novedad o interés.

Conocimiento previo: para ayudar al propio algoritmo de minería de datos puede ser

necesario establecer e incluso expresar de una manera formal cierto conocimiento previo.

2.3.3.1 EXPLORACIÓN MEDIANTE VISUALIZACIÓN

Las tecnologías de la visualización son buenas para ubicar patrones en un conjunto de datos y pueden ser usadas al comienzo de un proceso de Data Mining, para observar la calidad del conjunto de datos.

Los modelos de visualización pueden ser bidimensionales,

tridimensionales o incluso multidimensionales. Se han desarrollado varias herramientas de visualización para integrarse con las bases de datos ofreciendo una visualización de forma interactiva a la Minería de Datos [Marcano 2007].

Según algunos autores [Wong, 1999], el término "minería de datos visual" realiza minería de datos manejando e interactuando con gráficos, pero según otros autores [Cleveland, 1993] no se puede hacer minería de datos sólo con gráficas porque lo que caracteriza la minería de datos de técnicas del análisis de datos es que los modelos son extraídos por algoritmos y por tanto no son vistos o descubiertos visualmente por el usuario ,éste último es el enfoque adoptado para la realización del presente proyecto.

23

. Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos

[Hernández, 2004]: •

Aprovechar la gran capacidad humana de ver patrones, anomalías y tendencias a partir de imágenes y facilitar la comprensión de datos



Ayudar al usuario a comprender rápidamente patrones descubiertos automáticamente por un sistema de KDD.

2.4 TÉCNICAS DE MINERÍA DE DATOS

La minería de datos ha

dado lugar

a una paulatina sustitución del análisis de datos

dirigido a la verificación por un enfoque de análisis de datos dirigido al descubrimiento del conocimiento. La principal diferencia entre ambos se encuentra en que en el último se descubre información sin necesidad de formular previamente una hipótesis. La aplicación automatizada de algoritmos de minería de datos permite detectar fácilmente patrones en los datos, razón por la cual esta

técnica es mucho más eficiente que el análisis dirigido a la

verificación cuando se intenta explorar datos procedentes de repositorios de gran tamaño y complejidad elevada. Dichas técnicas emergentes se encuentran en continua evolución como resultado de la colaboración entre campos de investigación tales como bases de datos, reconocimiento

de

patrones,

inteligencia

artificial,

sistemas

expertos,

estadística,

visualización, recuperación de información, y computación de altas prestaciones [Moreno, 2001].

Los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o predictivos y no supervisados [Weiss, 1998]. Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la predicción en datos cuya etiqueta es desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases:

24

. Entrenamiento (construcción de un modelo usando un subconjunto de datos con etiqueta

conocida) y prueba (prueba del modelo sobre el resto de los datos) [Moreno, 2001].

Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese caso hay que recurrir a los métodos no supervisados que descubren patrones y tendencias en los datos actuales. El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio (científico o de negocio) de ellas [Moreno, 2001].

2.5 AGRUPAMIENTO (CLUSTERING)

El agrupamiento o clustering representa la división de datos en grupos de objetos similares llamados clusters. De esta manera se busca maximizar la similitud de las instancias en cada cluster y minimizar la similitud entre clusters [Han, 2006]. Clustering es un conjunto de datos con similares entidades encontrado por un algoritmo de clustering [Mirkin, 2005].

Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y Kmeans [Mirkin, 2005].

K-means es un método de agrupamiento por vecindad en el que se parte de un número

determinado de prototipos y de un conjunto de ejemplos a agrupar, sin etiquetar. La idea de K-means es situar a los centros en el espacio, de forma que los datos pertenecientes a

mismo prototipo tengan características similares [Hernández, 2004].

SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982. Se

trata de un modelo de red neuronal con capacidad para formar mapas de características de manera similar a como ocurre en el cerebro. SOM está basado en el

aprendizaje no

supervisado y competitivo, lo cual quiere decir que no se necesita intervención humana durante el mismo y que se necesita saber muy poco sobre las características de la información de entrada. SOM provee un mapa topológico de datos, que se representan en varias dimensiones, utilizando unidades de mapa (las neuronas) para simplificar la representación

25

. [Kohonen, 1995]. Las neuronas usualmente forman un mapa bidimensional, por lo que el

mapeo transforma un problema de muchas dimensiones en el espacio, a un plano. La propiedad de preservar la topología significa que el mapeo preserva las distancias relativas entre puntos. Los puntos que están cerca unos de los otros en el espacio original de entrada son mapeados a neuronas cercanas en SOM. Por esta razón, SOM es muy útil como herramienta de análisis de clases de datos de muchas dimensiones [Vesanto, 2000], y además tiene la capacidad de generalizar [Essenreiter, 1999], lo que implica que la red puede reconocer o caracterizar entradas que nunca antes ha encontrado.

Otros algoritmos de clustering son: PAM (Partition around medoids) y CLARA (Clustering Large Applications) [Kaufman, 1990]. Este último permite manejar conjuntos de datos más

grandes que el primero. CLARANS [Han, 1994] integra los algoritmos PAM y CLARA en uno.

2.5.1 ALGORITMO K-MEANS

Uno de los algoritmos más utilizados para hacer clustering es el k-medias (kmeans) [MacQueen, 1967]. La idea de K-means es situar a los prototipos o centros en el espacio, de forma que los datos

pertenecientes al mismo prototipo tenga características

similares

[Moody & Darken 1989, MacQueen, 1967].

En primer lugar se debe especificar por adelantado cuantos clusters se van a crear, éste es el parámetro k, para lo cual se seleccionan k elementos aleatoriamente, que representarán el centro o media de cada cluster. A continuación cada una de las instancias, ejemplos, es asignada al centro del cluster más cercano de acuerdo con la distancia que le separa de él. Para cada uno de los clusters así construidos se calcula el centroide(representante de clase) de todas sus instancias. Estos centroides son tomados como los nuevos centros de sus respectivos clusters. Finalmente se repite el proceso completo con los nuevos centros de los clusters. La iteración continúa hasta que se repite la asignación de los mismos ejemplos a los mismos clusters, ya que los puntos centrales de los clusters se han estabilizado y permanecerán invariables después de cada iteración. El algoritmo de k-means es el siguiente[Molina, 2006]:

26

. 1. Elegir k ejemplos que actúan como semillas(k número de clusters). 2. Para cada ejemplo, añadir ejemplo a la clase más similar 3. Calcular el centroide de cada clase, que pasan a ser las nuevas semillas. 4. Si no se llega a un criterio de convergencia (por ejemplo, dos iteraciones no cambian

las clasificaciones de los ejemplos), volver al paso 2.

Para obtener los centroides, se calcula la media o la moda según se trate de atributos numéricos o simbólicos. A continuación, en la Figura II.4, se

muestra un ejemplo de

clustering con el algoritmo kmeans.

En este caso se parte de un total de nueve ejemplos o instancias, se configura el algoritmo para que obtenga 3 clusters, y se inicializan aleatoriamente los centroides de los clusters a un ejemplo determinado. Una vez inicializados los datos, se comienza el bucle del algoritmo. En cada una de las gráficas inferiores se muestra un paso por el algoritmo. Cada uno de los ejemplos se representa con un tono de color diferente que indica la pertenencia del ejemplo a un cluster determinado, mientras que los centroides siguen mostrándose como círculos de mayor tamaño y sin relleno. Por ultimo el proceso de clustering finaliza en el paso 3, ya que en la siguiente pasada del algoritmo ningún ejemplo cambiaría de cluster [Molina, 2006].

Figura II.4 Pasos del Algoritmo K-means [Molina, 2006].

27

. El algoritmo puede seguir dos enfoques distintos: kmeans por lotes y kmeans en línea. El

primero se aplica cuando todos los datos de entrada están disponibles desde un principio, mientras que el segundo se aplica cuando no se dispone de todos los datos desde el primer momento, sino que pueden añadirse ejemplos adicionales más tarde. Cuando se aplica la versión por lotes, se debe seleccionar arbitrariamente una partición inicial de forma que cada clase disponga de, al menos, un ejemplo. Como la totalidad de los datos están disponibles, los centros de cada partición se calculan como la media de los ejemplos pertenecientes a esa clase [Hernández, 2004].

2.5.1.1 MEDIDA DE DISTANCIAS.

Dados dos objetos O1, O2, cada uno definido por un conjunto de atributos, una función de distancia es aquella métrica que el clasificador emplea para determinar el parecido existente entre O1 y O2 de acuerdo al valor de los atributos. También suele decirse que la función de distancia calcula la similitud entre dos objetos (función de similitud). Mientras más parecidos sean dos objetos, la distancia entre estos es menor y de manera contraria sucede para objetos lejanos. Una función de distancia comúnmente empleada es la distancia euclidiana, la cual se define como [Olvera 2005] :

d( O 1 , O 2 ) =

Donde O1 , O2

n

∑ (x i =1

1

( O1 ) − x 1 ( O 2 )) 2

son los objetos de los cuales se calculará la distancia, n es el número de

atributos y xi(O1), xi(O2) es el valor de la variable x para el atributo i en los objetos O1, O2. Otras funciones empleadas para el cálculo de distancias son [Olvera 2005]:

Manhattan : n

D ( O1 , O 2 ) = ∑ x 1 ( O1 ) − x 2 ( O 2 ) i =1

Chebychev: n

D ( O1 , O 2 ) = max x 1 (O1 ) − x 2 (O 2 ) i =1

28

. Minkowsky :

1

⎛ n r ⎞r D ( O1 , O 2 ) = ⎜⎜ ∑ x 1 (O1 ) − x 2 (O 2 ) ⎟⎟ ⎝ i =1 ⎠

La distancia euclidiana, al igual que las distancias anteriores se emplea en el caso en que todos los atributos del objeto son valores numéricos [Olvera 2005].

2.6 ÁRBOLES DE DECISIÓN

Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. La tarea de aprendizaje para la cual los árboles de decisión se adecuan mejor es la clasificación. De hecho, clasificar es determinar de entre varias clases a qué clase pertenece un objeto; la estructura de condición y ramificación de un árbol de decisión es idónea para este problema. Debido al hecho de que la clasificación trata con clases o etiquetas disjuntas, un árbol de decisión conducirá un ejemplo hasta una sola hoja, asignando, por tanto, una única clase al ejemplo. Esta propiedad dio lugar al esquema básico de los primeros algoritmos de aprendizaje de árboles de decisión de partición o algoritmos de "divide y vencerás". [Hernández, 2004].

Esto es lo que diferencia fundamentalmente

los distintos algoritmos de

"partición"

existentes hasta la fecha, como CART [Breiman, 1984], ID3 [Quinlan, 1983], C4.5[Quinlan, 1993],etc.

Una de las primeras técnicas asociadas a la inducción por medio de árboles de decisión fue la presentada por Ross Quinlan y fue denominada ID3 . Ésta fue una gran influencia para gran número de investigaciones efectuadas sobre árboles de decisión.

En este método se

seleccionan atributos en cada uno de los nodos del arbol y se trata de minimizar la cantidad de atributos a analizar para determinar a qué clase corresponde una muestra. El criterio es el de ubicar lo más alto posible en el arbol a aquellos atributos cuyos valores se corresponden consistentemente con instancias que tienen valores particulares para el atributo objetivo[Cartagenova, 2005]. 29

. Pero, ¿ cómo puede cuantificarse la relación entre el valor y el atributo objetivo ? Una

medida utilizada de la Teoría de la Información en el algoritmo ID3 y en muchos otros árboles de decisión es la “Entropía”. Podemos decir que la entropía de un conjunto de datos puede ser vista como cuán desordenados se encuentran dichos datos. De alguna manera se ha demostrado que cuanto mayor es el valor de la entropía o la incertidumbre de algunos datos, se requiere más información para describir de manera completa a los datos.

Cuando se construye un árbol de decisión, se apunta a decrementar la entropía del conjunto de datos hasta que se haya llegado a los nodos hoja, en cuyo nivel el subconjunto asociado es puro, o tiene entropía cero, y representa instancias de alguna clase [Cartagenova, 2005].

2.6.1 ALGORITMO ID3

El algoritmo ID3 fue desarrollado por Quinlan, es un algoritmo simple y, sin embargo, potente, cuya misión es la elaboración de un árbol de decisión. El procedimiento para generar un árbol de decisión consiste, como se comentó anteriormente en seleccionar un atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto es, se selecciona otro atributo y se genera una nueva rama para cada posible valor del atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos[Molina, 2006].

En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo está ordenado el universo. La teoría de la información (basada en la entropía) calcula el número de bits (información, preguntas sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación. La definición de entropía que da Shannon en su Teoría de la Información (1948) es: Dado un conjunto de eventos A={A1, A2,..., An}, con probabilidades {p1, p2,..., pn}, la información en el

30

conocimiento de un suceso Ai

. (bits) y A(bits) se define las siguientes ecuaciones [Molina,

2006]: ⎛1⎞ I( A1 ) = log 2 ⎜⎜ ⎟⎟ = − log 2 ( p1 ) ⎝ p1 ⎠ n

n

i =1

i =1

I( A ) = ∑ p1 I( A 1 ) = − ∑ p1 log 2 ( p1 )

Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se discrimina un atributo Ai . Una vez explicada la heurística empleada para seleccionar el mejor atributo en un nodo del árbol de decisión, se muestra el algoritmo ID3 [Molina, 2006]:

1. Seleccionar el atributo Ai que maximice la ganancia G(Ai) 2. Crear un nodo para este atributo con tantos sucesores como valores tenga. 3. Introducir los ejemplos en los sucesores según el valore que tenga el atributo Ai. 4. Por cada sucesor: a. Si sólo hay ejemplos de una clase, Ck, entonces etiquetarlo con Ck. b. Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo,

eliminando la columna del atributo Ai.

El inconveniente que tiene este Algoritmo, es que favorece indirectamente a aquellos atributos con muchos valores, los cuales no tienen que ser, precisamente, los más útiles [Aguilar, 2003].

2.6.2 ALGORITMO C4.5

El algoritmo C4.5 desarrollado por Quinlan es la extensión del algoritmo ID3 para generar árboles de decisión. El algoritmo utiliza el concepto de ganancia de información o de reducción de la entropía para seleccionar la óptima división.[Larose, 2005].

El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma. El C4.5 construye un árbol de decisión y evalúa la información en cada caso utilizando los

31

. criterios de entropía y ganancia o proporción de ganancia, según sea el caso [Servente,

2002].

El algoritmo ID3, toma objetos de una clase conocida y los describe en términos de una colección fija de propiedades o de variables, produciendo un árbol de decisión sobre estas variables que clasifica

correctamente todos los objetos [Quinlan, 1993]. Hay ciertas

cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de inducción crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajar con masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con dificultad [Servente, 2002].

En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Los tres tipos de pruebas posibles propuestas por C4.5 son [Quinlan, 1993]:

i.

La prueba "estándar" para las variables discretas, con un resultado y una rama para cada valor posible de la variable

ii.

Una prueba más compleja, basada en una variable discreta, en donde los valores

posibles son asignados a un número variable de grupos con un

resultado posible para cada grupo, en lugar de para cada valor

iii.

Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria con resultados A <= Z y A > Z, para lo cual debe determinarse el valor límite Z.

Todas estas pruebas se evalúan de la misma manera, mirando el resultado de la proporción de ganancia, o alternativamente, el de la ganancia resultante de la división que producen. Ha sido útil agregar una restricción adicional: para cualquier división, al menos dos de los subconjuntos Ti deben contener un número razonable de casos. Esta restricción, que evita las subdivisiones casi triviales, es tenida en cuenta solamente

cuando el conjunto T es

pequeño[Servente, 2002].

32

. Pseudo-código del algoritmo C4.5

El algoritmo del método C4.5 para la construcción de árboles de decisión a grandes rasgos es muy similar al del ID3. Varía en la manera en que realiza las pruebas sobre las variables. A continuación se muestra el Pseudo-código [Servente, 2002] :

Función C4.5 (R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento) devuelve un árbol de decisión; Comienzo Si S está vacío, Devolver un único nodo con Valor Falla; Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un único nodo con dicho valor; Si R está vacío, Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados en este caso]; Si R no está vacío, D Å atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R; Sean {dj | j=1,2,...., m} los valores del atributo D; Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj respectivamente; Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,....,dm, que van respectivamente a los árboles C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm); Fin

2.7 LA EDUCACIÓN FORMAL EN BOLIVIA

La Ley de Reforma Educativa promulgada en 1994 priorizó su accionar solo en el nivel primario; El plan Nacional de Desarrollo actual prioriza una transformación de la educación en todos los niveles.

33

. La educación en Bolivia engloba la educación formal, alternativa y superior. La educación

formal se refiere a la educación

de niveles Inicial, Primaria y Secundaria sin tomar en

cuenta la educación de adultos o educación especial .

La educación alternativa está orientada a completar la formación de las personas y posibilitar el acceso a la educación a quienes, por razones de edad, condiciones físicas y mentales excepcionales, no hubieran iniciado o concluido sus estudios en la educación formal. La educación alternativa se divide en tres grandes áreas: educación de adultos, educación especial y educación permanente.

La educación superior comprende la formación técnico-profesional de tercer nivel, la tecnológica, humanístico- artística y la científica, incluyendo la capacitación y la especialización de postgrado.

2.7.1

SISTEMA DE INFORMACIÓN EDUCATIVA (SIE)

El SIE se creo en 1997, cuyo objetivo es consolidar la información para facilitar la toma de decisiones para las políticas educativas en el País. Engloba información de unidades educativas, infraestructura escolar, alumnos y docentes como se muestra en el siguiente esquema:

Figura II.5 Mapa conceptual SIE [Fuente: Ministerio de Educación ]

El SIE tiene la visión de lograr la provisión de un soporte tecnológico y de información para la gestión educativa en Bolivia. También tiene la misión de ofrecer servicios de información 34

. y tecnología a todo el Sistema Nacional de Educación en Bolivia y a todas las entidades

relacionadas con el Sector. En la Figura II.6 se muestra la descripción general del SIE.

Figura II.6 Descripción del SIE [Fuente: Ministerio de Educación ]

2.7.2 DISTRITOS EDUCATIVOS

Hasta finales del año 2006, el país estaba estructurado política y administrativamente en 9 departamentos, 112 provincias, 327 municipios y 275 distritos educativos tal como se observa en la Tabla II.1

Tabla II.1 División política y administrativa de Bolivia. [Fuente: Ministerio de Educación]

2.7.3 POBLACIÓN ESCOLAR

La evolución de la población en edad escolar (de 4 a 18 años) del año 2000 al 2006 tuvo un incremento de 11,1%; la población en edad escolar pasó de 3.062.076 (49,2% mujeres y 50,8% hombres) a 3.402.628 (49,1% mujeres y 50,9% hombres). Si bien en la población total 35

. la relación de mujeres frente a hombres es 50,2% frente a 49,8% respectivamente, se deduce

que la población total de mujeres es considerablemente baja frente a la población de mujeres en edad escolar (de 4 a 18 años), es decir 1,1% de diferencia.

La cobertura neta se define como el número de alumnos inscritos en un determinado nivel de educación que tienen la edad oficial para asistir a ese nivel, expresada como porcentaje de la población total en edad correspondiente. Por su parte, la cobertura bruta (o tasa bruta de matrícula) se define como el número de los alumnos inscritos en un determinado nivel de educación, sin distinción de edad, expresado como porcentaje de la población en edad escolar, en un año dado.

En la Tabla II.2 se muestra la evolución de la cobertura neta en los niveles primario y secundario desagregados por género, en el periodo 2000 - 2006. La cobertura neta en primaria sufrió un leve descenso de los años 2000 al 2006, bajó de 94,1% a 92,8% en las niñas y pasó de 95,4% a 92,5% en los niños. La cobertura neta en secundaria en todos los datos del período de tiempo 2000 al 2006 no supera siquiera el 60% lo que representa un bajo acceso a la educación secundaria.

Tabla II.2 Cobertura neta en el nivel primaria y secundaria [Fuente: Ministerio de Educación]

Similarmente, la cobertura bruta (Tabla II.3) en primaria sufrió descensos en el mismo periodo de tiempo, bajó de 104,4% a 102,1% en niñas y bajó de 107,3% a 103,1% en niños. Los valores de la cobertura bruta superan el 100% debido a que el indicador no considera los grupos etáreos lo que significa que los niños o niñas pueden estar inscritos en un nivel de educación pero pueden tener edades mayores a las establecidas para esos niveles. En el nivel secundario en ninguno de los años de estudio superan el 80%. 36

.

Tabla II.3 Cobertura bruta en el nivel primaria y secundaria [Fuente: Ministerio de Educación]

2.7.4 INDICADORES 2.7.4.1 TASA DE CULMINACIÓN POR NIVELES

La tasa de término neta o tasa de culminación neta de un determinado curso es el porcentaje de alumnos promovidos, considerando la edad en dicho curso, respecto de la población en edad de ingresar en dicho curso (por ejemplo 13 años en 8° de primaria). La tasa de término bruta (tasa de culminación bruta) de un determinado curso es el número de alumnos promovidos de dicho curso, sin distinción de edad, respecto a la población total en edad de cursar dicho curso.

La Figura II.7 muestra la evolución de las tasas de término neta y bruta en el periodo de tiempo de los años 2000 al 2006 en dos grados: 8° de primaria y 4° de secundaria. En 8° de primaria, las tasas de término tuvieron un ascenso leve en dicho periodo; pasaron de 26,1% a 32,2% en niñas y de 25% a 29,8% en niños. Pero esos valores no son alentadores ya que la tasa de término neta no supera en ningún caso el 33%, eso significa que apenas uno de cada tres adolescentes de la población escolarizada de 13 años de edad permanece y culmina 8° de primaria. Peor aún, la tasa de término neta en cuarto de secundaria en todo el periodo de tiempo no supera el 25% (aunque haya ascendido levemente de 17,7% a 23,1% en mujeres y de 15,9% a 20,4% en varones) lo que significa que apenas uno de cuatro estudiantes de 17 años de último grado de secundaria permanece y culmina dicho grado.

37

.

Figura II.7: Evolución de la tasa de término neta y tasa de término bruta. [Fuente: Ministerio de Educación]

2.7.4.2 TASA DE APROBACIÓN POR NIVELES.

La evolución de la tasa de aprobación en los niveles primaria y secundaria mostró un comportamiento diferente de los años 2000 al 2006 (Figura II.8). Del año 2000 al año 2005, la tasa de aprobación en primaria experimentó un leve ascenso de 88,5% a 92,1% en el área rural y variando de 90,6% a 93,3%. Si embargo, esa tasa de aprobación en primaria experimentó una caída importante en el año 2006, tanto para el área Rural como para el área Urbana. Eso se debió a que con la finalización de la modalidad de año de extensión por condición de reprobación la tasa de aprobación en el área Rural de las niñas baje de 92,5% a 87% y de los niños baje de 91,8% a 85,6%. De manera similar, en ese mismo año, en el área Urbana, del 2005 al 2006 ocurrió un descenso significativo, de 94% a 90,7% en las mujeres y de 92,7% a 88,3% en los hombres.

Figura II.8 Evolución de la tasa de aprobación por niveles y género. [Fuente: Ministerio de Educación]

38

. 2.7.4.3 TASA DE ABANDONO POR NIVELES

La evolución de la tasa de abandono de los años 2000 al 2006 no experimentó grandes cambios y tanto para el área Rural como para el área Urbana. Pero hay diferencias significativas en el nivel secundaria sobretodo en el área Urbana, ya que la tasa de abandono de las mujeres ronda el 7% mientras que la tasa de abandono de los hombres es del 9%. En general, la mayor tasa de abandono se presenta en nivel secundario del área Rural, con un valor de 10% tanto en hombres como en mujeres. Por su parte, la tasa de abandono del nivel primaria del área Urbana es la que presenta tasas no muy alarmantes pero significativas rondando el 5%. Observe esos comportamientos en la Figura II.9.

Figura II. 9. Evolución de la tasa de abandono por niveles [Fuente: Ministerio de Educación]

2.7.4.4 REZAGO ESCOLAR

Por rezago escolar se entiende a la proporción de niños que tiene una edad superior a la edad oficial (o razonablemente adecuada) para asistir a un determinado curso respecto al total de niños inscritos en ese curso. La tasa de sobreedad calcula la proporción de alumnos de la matrícula inicial con edad mayor a la teórica más uno para el grado correspondiente.

La tasa de sobreedad por grado en el año 2006 mejoró respecto del año 2000 (Ver Figura II.10). En el año 2000 se observaba una mayor tasa de sobreedad en las unidades educativas rurales públicas y en las unidades educativas urbanas públicas.

39

.

Figura II.10. Tasa de sobre edad por área geográfica y por dependencia [Fuente: Ministerio de Educación]

En las unidades educativas rurales públicas, en quinto de primaria se tenía un 38,7% y los grados posteriores 36%, 37% y 38%; en las unidades educativas urbanas públicas el mayor rezago se presentaba en secundaria con porcentajes cercanos al 30%. Pero en el año 2006, las unidades educativas públicas rurales tenían menor tasa de sobreedad que en el año 2000, por ejemplo en el nivel secundaria, los valores porcentuales bajaron del 38% al 33%, y el rezago en 5° de primaria se convirtió en de 38,7% a 26,5% .

2.8 HERRAMIENTAS DE MINERÍA DE DATOS

Se pueden encontrar tanto en ámbitos comerciales como académicos una serie de entornos software diseñados para dar soporte al ejercicio de minería de datos, como por ejemplo SPSS Clementine, WEKA, ODMS (Oracle Data Mining Suite), Kepler, DBMiner y otros. En este proyecto se ha elegido la herramienta WEKA por su fácil manejo, interfaz de visualización y la libre distribución por la licencia GPL [Hernández, 2004].

2.8.1 WEKA

Weka (Waikato Envioronment for Knowledge Análisis), es una herramienta desarrollada por un equipo de investigadores de la universidad de

Waikato ( Nueva Zelanda),esta

implementada en Java con arquitectura independientes, ya

que funciona

en cualquier

plataforma. La licencia de Weka es GPL lo que significa que este programa es de libre distribución y de difusión [Garcia, 2005].

40

. WEKA está constituido por una serie de paquetes de código abierto con diferentes técnicas

de preprocesado, clasificación, agrupamiento, asociación, y

visualización, así como

facilidades para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de entrada seleccionados. Estos paquetes análisis de datos, e incluso

pueden ser integrados en cualquier proyecto de

pueden extenderse con contribuciones de los usuarios que

desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas [Garcia, 2005].

Figura II.11: Interfaz visual Explorer (WEKA)

2.8.1.1 FORMATOS DE ENTRADA

Los formatos de los datos de entrada a la herramienta pueden ser de tipo [Garcia, 2005]:

1. ARFF que corresponde a un fichero de texto con un encabezado de identificación

de cada atributo y los datos separados por comas. Este formato está compuesto por una estructura claramente diferenciada en tres partes:

Cabecera. Se define el nombre de la relación. Su formato es el siguiente:

41

. @relation <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo

String*. Si dicho nombre contiene algún

espacio será necesario expresarlo

entrecomillado.

Declaraciones de atributos. En esta sección se declaran los atributos que compondrán

el archivo junto a su tipo. La sintaxis es la siguiente: @attribute <nombre-delatributo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos, estos son:

a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta

de formato entrecomillada. d) STRING Expresa cadenas de texto, con las restricciones del tipo String e )ENUMERADO El identificador de este tipo consiste en expresar entre

llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres).

Sección de datos. Declaramos los datos que componen la relación separando entre

comas los atributos y con saltos de línea las relaciones.

Aunque éste es el modo “completo" es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo.

2. CSV, corresponde a un formato de Excel en la que los datos están separados por

comas. La primera línea contiene los atributos.

3. C4.5, corresponde a archivos según el formato C4.5. Unos datos codificados según

este formato estarían agrupados de tal manera que en un fichero .names estarían los nombres de los atributos y en un fichero .data estarían los datos en sí.

42

. 2.8.1.2 TAREAS

Weka

permite tareas de

Preprocesado, Clasificación, Clustering, Asociaciones,

Selección y Visualización [Molina, 2006].

1. Preprocesado de los datos y aplicación de filtros, se elige el conjunto de datos el

cual se modifica de diversas maneras.

2. Clasificación. En este modo se puede clasificar por varios métodos los datos ya

cargados como por ejemplo bayes, function, trees, rules y otros.

3. Clustering. Su funcionamiento es similar al de clasificación: se elije un método de

clustering (Cobweb, EM, SimpleKMeans, FarthestFirst) y se selecciona las opciones pertinentes.

4. Búsqueda de Asociaciones, permite aplicar métodos orientados a buscar

asociaciones entre datos. Es importante señalar que éstos métodos sólo funcionan con datos nominales.

5. Selección de atributos, permite acceder al área de selección de atributos. El

objetivo es identificar aquellos atributos que tienen más peso a la hora de determinar si los datos son de una clase u otra.

6. Visualización de datos, es un modo que muestra gráficamente la distribución de

todos los atributos mostrando gráficas en dos dimensiones, en las que va representando en los ejes todos los posibles pares de combinaciones de los atributos.

2.8.1.3 FORMAS DE ACCESO

WEKA se puede utilizar de 3 formas distintas [Garcia, 2005] :

1. Desde la línea de comandos : cada uno de los algoritmos incluidos en WEKA se pueden

invocar desde la línea de comandos de MS-DOS como programas individuales. Los resultados se muestran únicamente en modo texto.

43

. 2. Desde uno de los interfaces de usuario WEKA dispone de 4 interfaces de usuario

distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son: •

Simple CLI (command line interface): interfaz en modo texto.



Explorer: interfaz gráfico básico. (Figura II.11)



Experimenter:

interfaz

gráfico

con

posibilidad

de

comparar

el

funcionamiento de diversos algoritmos de aprendizaje. •

KnowledgeFlow: interfaz gráfico que permite interconectar distintos

algoritmos de aprendizaje en cascada, creando una red.

3. Creando un programa Java : la forma en la que se puede utilizar el programa WEKA es

mediante la creación de un programa Java que llame a las funciones que se desee. El código fuente de WEKA está disponible, con lo que se puede utilizar para crear un programa propio.

2.9 CONCLUSIONES DEL CAPÍTULO

La minería de datos es útil para la extracción de conocimiento en grandes cantidades de datos, para descubrir este conocimiento se debe llevar a cabo las etapas de planteamiento de objetivos, selección, preprocesamiento y transformación antes de aplicar una técnica de minería de datos.

Para elegir una técnica de Minería de datos depende de los resultados que se quiera obtener, se puede elegir entre técnicas supervisadas y no supervisadas. Un ejemplo de una técnica no supervisada es el agrupamiento o clustering que busca segmentar o agrupar un conjunto de datos en subconjuntos o grupos según sus similitudes, un algoritmo de clustering comúnmente utilizado es el algoritmo k-means Para tratar de conocer los atributos relevantes después de aplicar clustering se puede aplicar árboles de decisión.

Por la continua evolución de la minería de datos se puede encontrar varias herramientas, una de ellas es Weka que es conocida por contar con licencia GPL, por la variedad de algoritmos incorporados, la interfase gráfica y su fácil manejo.

44

. Para analizar los datos proporcionados por el Sistema de Información Educativa (SIE), se

tiene varios indicadores como la población escolar, la tasa de aprobación por niveles, la tasa de abandono y el rezago escolar, en los que se concluye que los resultados son críticos más que todo en el área rural.

Por lo tanto, en este capítulo se ha desarrollado los conceptos más importantes que son útiles para el siguiente capítulo, en el que se llevará a cabo las etapas del descubrimiento de conocimiento aplicando el algoritmo k-means y reglas de asociación para finalmente interpretar los resultados obtenidos.

45

.

CAPÍTULO III DESARROLLO

3.1

ANÁLISIS DE LA FUENTE DE DATOS DEL SISTEMA DE INFORMACIÓN

EDUCATIVA

Como el Sistema de Información Educativa (SIE) es la consolidación de la información Educativa a nivel Nacional y con información desde el año 2000 se considera como un Almacén de Datos.

Toda la información con la que cuenta el SIE esta almacenada en tablas de una base de datos estructurada en SQL Server de Microsoft y engloba una amplia gama de información, que incluye varios temas como: •

Infraestructura



Matrícula



Formación Docente



Recursos Humanos



Materiales

Para el desarrollo del Proyecto se analiza específicamente la información acerca de la Matriculación que incluye a la vez variedad de información respecto a la descripción de las Unidades Educativas (UE) como

su ubicación, características, cantidad de alumnos

(matriculación) en cada nivel y grado, cantidad de paralelos y otros aspectos que se detallarán

más adelante.

Es cierto que los temas de Infraestructura, la formación de

Docentes, la distribución de aulas y la asignación de Items influye en la matriculación de

46

.

las UE pero dicha información no será considerada por el momento.

A partir del SIE se procede a

realizar las fases de Selección, Preprocesamiento y

Transformación para conformar el Data set que se procesará por una técnica de Minería de Datos, como se muestra en la siguiente Figura:

Interpretación Minería De Datos Transformación Preprocesamiento

Conocimiento Patrones

4

Selección

3 2 1

Datos Seleccionados

Datos Transformados

Datos Preprocesados

SIE Datos

Figura III.1. Etapas del Proceso KDD

Este proceso puede realizarse de manera cíclica porque muchas veces al aplicar una técnica de Minería de Datos no se obtiene los resultados satisfactorios, por lo que se regresa a las fases anteriores. En este capítulo se explicará el desarrollo y análisis de cada etapa para el descubrimiento de conocimiento (Ver Figura III.1). En la fase de selección se extraen los atributos de las tablas más relevantes relacionados con la matriculación del sistema SIE para unificar en una sola tabla denominada data set. En la fase de preprocesamiento se utilizan métodos estadísticos como histogramas para conocer mejor los datos seleccionados, de esta manera se identifican valores faltantes, mínimos, máximos y erróneos. En la fase de transformación

se realiza la normalización, la numerización, el tratamiento de

dimensionalidad, el tratamiento de valores erróneos y faltantes.

47

. Una vez concluida las fases anteriores ya se tiene un data set limpio preliminar. En la fase

de minería de datos se aplica el algoritmo k-means de Clustering y el algoritmo J.48 de Árboles de Decisión

mediante la herramienta WEKA. Posteriormente se desarrolla una

herramienta de minería de datos programado en Delphi que incluye una herramienta de visualización multidimensional para realizar un análisis exploratorio visual de los datos y el algoritmo k-means de Clustering para agrupar los datos de acuerdo a su similitud. Finalmente, se interpretan y analizan los resultados obtenidos. El diagrama de proceso de éstas etapas se muestra en la Figura III.2

INTERPRETACIÓN DEL PROBLEMA SELECCIÓN

PREPARACIÓN DE DATOS PREPROCESAMIENTO

TRANFORMACIÓN

EXPLORACIÓN MEDIANTE VISUALIZACIÓN

- ANÁLISIS DE LA FUENTE DE DATOS SIE - SELECCIÓN DE ATRIBUTOS RELEVANTES

- HISTOGRAMAS - VALORES MÁXIMOS - VALORES MÍNIMOS - MEDIA. - VALORES FALTANTES - VALORES ERRONEOS

- NUMERIZACIÓN - REDUCCIÓN DE ATRIBUTOS - ATRIBUTOS DERIVADOS

PROGRAMACIÓN DE UNA HERRAMIENTA VISUALIZACIÓN MULTIDIMENSIONAL ALGORITMO K-MEANS

MINERÍA DE DATOS

APLICACIÓN DE LA HERRAMIENTA WEKA ALGORITMO J.48 PROGRAMACIÓN DEL ALGORITMO K-MEANS

INTERPRETACIÓN Y ANÁLISIS DE PATRONES

Figura III.2. Diagrama de Procesos para el desarrollo del Proyecto

48

. 3.2 PREPARACIÓN DE DATOS

3.2.1 FASE DE SELECCIÓN

Para el caso de la Matriculación

incluyen

varias tablas, las principales son: la tabla

Matricula Grado que describe la cantidad de matriculados por grado-nivel y la tabla Matricula Paralelo que describe la cantidad de matriculados por paralelo. Estas tablas están

relacionadas con las tablas de Unidad Educativa, Nivel, Grado, Dependencia, Cerrado y otros.

A continuación se muestra las tablas seleccionadas para el análisis: •

Tabla Unidad Educativa

(t_ues): esta tabla contiene

información acerca de las

características de las unidades educativas como el código, nombre, teléfono, multigrado, etc.

Tabla: Unidad Educativa (t_ues) Descripción Tipo Observaciones

Campo cod_ue

Código de la unidad educativa

numérico

De 8 dígitos Ej: 10710001

gest

Gestión

numérico

1999,2000,2001,2002,2003,2004

des_ue

Nombre de la unidad educativa cadena

cod_conv

Código de convenio

numérico

Ej: 1. Fe y alegría, 3. UNICEF...

multigr

Multigrado

cadena

Falso, Verdadero

teléfonos

Teléfono opcional

numérico

Ej. 2495842

obs_ue

Observaciones de la unidad

cadena

Ej. No se trabaja con transformación

cod_cen

Código de centro

numérico

Ej: Central canuta, German Buch

dependencia

Código de dependencia

cadena

Cada código representa a un tipo de centro. educativo Eje. Fiscal - Privado - Convenio

cod_cerr

Código de cerrado

numérico

Ej. 1=abierto - 2=cerrado

obs_cerr

Observaciones si esta cerrada.

cadena

descripción de motivos de la UE cerrada

rue_ue

Si esta en el rue

cadena

Verdadero o falso

e_mail

correo electronico

cadena

turnos

Turnos con las q cuentan la

cadena

Ej: M-T

cod_org_curr

Código de educación formal

numérico

Ej. 1. formal - 2 alternativa.

des_org_curr

Descripción el tipo de

cadena

moda_bachi

Modalidad de bachillerato

cadena

Ej.Humanistico, Bachiller en humanidades

sie_temp.

Los datos están temporalmente

cadena

Verdadero, falso

fax

dirección de fax

cadena

Tabla III.1 Tabla Unidad Educativa

49



. Tabla Matricula-Grado (t_mat_grad): indica la cantidad de matriculados de cada

gestión (1999-2007) de un determinado nivel y grado, que a su vez están separados por inicio de gestión y fin de gestión por la variable operat ( 1 significa inicio de gestión y 3 significa fin de gestión).

Tabla: Matricula Grado ( t_mat_grad) Descripción Tipo Observaciones

Campos cod_ue

Codigo de UE

Numérico

De 8 dígitos Ej: 10710001

gest

Gestión

Numérico

Ej. 1999-2006

Numérico

Ej Inicio de Ges, 3 Fin de Gest

cadena

De 2 dígitos Ej: 01,02

cod_niv

Número de operativos de levantamiento de información Código de nivel

cod_cic

Codigo de ciclo

Numérico

De 3 dígitos Ej. 001,002

grado

Grado

Numérico

Ej. 1 = primer grado

var_Mat

código de tipo de matriculación

Numérico

Ej. 1= Inscritos nuevos

Sexo

Sexo

Caracter

V,M

Cantidad

Cantidad de alumnos

Numérico

1,2,3,.....

operat

Tabla III.2 Tabla Matricula por Grado



Tabla Matricula-Paralelo (t_mat_para): indica la cantidad de matriculados en cada

paralelo de un determinado nivel y grado entre las gestiones 1999-2007 .

Tabla: Matricula Paralelo ( t_Mat_para) Descripción Tipo Observaciones

Campos cod_ue

Codigo de UE

Numérico

De 8 dígitos Ej: 10710001

gest

Gestión

Numérico

Ej. 1999-2006

operat cod_niv

Número de operativos de levantamiento de información Código de nivel

cod_cic

cadena

Ej Inicio de Ges, 3 Fin de Gest De 2 dígitos Ej: 01,02

Codigo de ciclo

Numérico

De 3 dígitos Ej. 001,002

grado

Grado

Numérico

Ej. 1 = primer grado

cod_turn

Codigo de turno

Numérico

De 1 dígito Ej 1=mañana

Paralelo

Paralelo

Caracter

A-Z

Sexo

Sexo

Caracter

V,M

Cantidad

Cantidad de alumnos

Numérico

1,2,3,.....

Numérico

Tabla III.3 Tabla Matricula por Paralelo

50



. Tabla Departamento (t_depar): asigna un código único a cada uno de los nueve

departamentos para que puedan acceder las tablas que hacen referencia al departamento.

Tabla: Departamento( t_depar) Cod_dep Des_dep 1 2 3 4 5 6 7 8 9

Chuquisaca La Paz Cochabamba Oruro Potosi Tarija Santa Cruz Beni Pando

Tabla III.4 Tabla Departamento



Tabla Cantón (t_canton): asigna un código único a un cantón en el campo cod_can y su

nombre en el campo

des_can, pero además incluye los códigos del departamento,

provincia y sección a la que pertenece el cantón.

Campos

Tabla: Cantón ( t_canton) Descripción Tipo

Observaciones

cod_dep cod_pro

Código de Departamento

Numérico

1-9

Código de provincia

Numérico

0-20

cod_sec

Código de sección

Numérico

0-8

cod_can

Código de cantón

Numérico

0-26

des_can

Nombre del cantón

Cadena

Ej. PALCA, COHONI

Tabla III.5 Tabla Cantón



Tabla Nivel (t_nivel): asigna un código único a los nueve niveles existentes tanto en la

educación formal como alternativa.

Cod_niv 01

Tabla: Nivel (t_nivel) Cod_org_curr Des_niv 1

Pre-escolar

02

1

Primaria

03

1

Secundaria

04

3

Superior

05

2

De Adultos

06

2

Especial

Tabla III.6 Tabla Nivel

51



. Tabla Grado(t_grado): asigna un código único a los nueve grados existentes incluyendo

la edad establecida para cursar cada grado.

Grado

Tabla: Grado ( t_grado) Des_grado

0

Guarderia

1

Primero

2

Segundo

3

Tercero

4

Cuarto

5

Quinto

6

Sexto

7

Séptimo

8

Octavo Tabla III.7 Tabla Grado



Tabla Dependencia (t_depn): asigna un código único al tipo de dependencia Fiscal o

Estatal, Privada, Convenio y Comunitaria.

Tabla: Dependencia ( t_depn) Cod_depn Des_depn Cod_tip_adm 1

Fiscal o Estatal

1

2

Convenio

1

3

Privada

2

5

Comunitaria

1

Tabla III.8 Tabla Dependencia



Tabla Tipo de Matricula (t_tipo_mat): Esta tabla contiene los códigos y descripciones

del

tipo

de

matrícula

como

por

ejemplo:

inscritos

nuevos,

efectivos,

promovidos(aprobados), reprobados, etc.

Tabla: Tipo de Matricula ( t_tipo_mat) Cod_Mat Des_Mat 1

Inscritos Nuevos

2

Inscritos Repitentes

4

Efectivos

5

Promovidos

6

No incorporados

7

Extemporáneo nuevo

52

. 8

Extemporáneo repitente

9

Retirado Traslado

10

Retirado Abandono

11

Reprobados Tabla III.9 Tabla tipo de Matricula

3.2.1.1 CONSOLIDACIÓN DE LA INFORMACIÓN EN UN DATA SET Una vez seleccionadas las tablas se extrae los atributos más relevantes para estructurarlo en una sola tabla denominada

Data Set . Este proceso se realiza mediante

consultas SQL

siguiendo los siguientes aspectos:

Unidad Educativa

Los atributos seleccionados con respecto a las características de la UE son:

9

Código: es la identificación de la Unidad Educativa, se representa con un número de

ocho dígitos.

9

Nombre de la UE.

9

Gestión: 2000-2006

9

Cerrado: identifica si la Unidad Educativa esta abierta o cerrada.

9

Multigrado: una Unidad Educativa

es de tipo multigrado si un sólo docente dicta

clases a distintos grados en un mismo ambiente. En la tabla, este atributo se representa con 1 ( si es multigrado) y 0 ( si no es multigrado).

9

Dependencia: se refiere al tipo de la Unidad Educativa, puede ser: 9

Pública: financiado por el Estado.

9

Privada: financiado por los padres o apoderados

9

Convenio: administradas por entidades privadas que han firmado convenio con

el Estado y recibe financiamiento del Estado por los profesores. 9

Comunitaria, los profesores son financiados por los padres de familia.

53

.

Inicial, Primario y Secundario.

9

Nivel:

9

Grado: Los primeros grados pertenecen el ciclo de primeros aprendizajes y al ciclo de

preparación. Los grados

del Nivel Primario incluye

desde Primero de

Primaria hasta Octavo de Primaria. Los grados del Nivel Secundario incluye desde Primero hasta Cuarto de Secundaria.

9

Ubicación : representa la ubicación de la UE descrito por Departamento, Provincia,

Sección, Cantón, Localidad y Zona.

Matrícula

Los atributos seleccionado con respecto a la matriculación son: 9

Paralelo:

cantidad de paralelos de todos los grados y niveles.

9

Matricula: cantidad de

alumnos

que asistieron regularmente a clases hasta la

finalización de una gestión. 9

Tipo de Matriculados: 9

Efectivos, alumnos que asistieron regularmente a clases hasta conclusión del

año escolar. 9

Promovidos, alumnos aprobados.

9

Reprobados, alumnos que perdieron el año.

9

Inscritos Nuevos, alumnos que en la gestión anterior estaban en un grado

inferior al actual y que se inscriben por primera vez al grado. 9

Inscritos repitentes, alumnos que vuelven a cursar el mismo grado en el que

estuvieron inscritos una gestión anterior

ya sea por reprobación o por

abandono. 9

No incorporados, es la cantidad de alumnos que habiéndose inscrito nunca

asistieron a clases. 9

Retirado Traslado, son alumnos que se fueron a otra unidad educativa durante

el transcurso de la gestión escolar. 9

Retirado abandono, son alumnos que dejaron de asistir sin notificación y no

regresaron durante la gestión escolar.

54

. Por lo tanto, el Data set conformado por los atributos seleccionados se muestra en la Tabla

III.10. Se ha preparado 63 tablas, una para cada Departamento (9 departamentos) y Gestión (2000-2006) con los mismos atributos. Por ejemplo en la Tabla III.10 se muestra el data set perteneciente a La Paz de la gestión 2005.

DATA SET LA PAZ 2005 Campos

Descripción

Tipo

Val Min Val Max

Cod_UE

Código de la UE

numérico

Nombre

Nombre de la UE

Nominal

P_INI0

Paralelos en el grado 0 del nivel inicial

numérico

0

2

P_INI1

Paralelos en el grado 1 del nivel inicial

numérico

0

5

P_INI2

Paralelos en el grado 2 del nivel inicial

numérico

0

8

P_PRIM1

Paralelos en 1ro de Primaria

numérico

0

8

P_PRIM2

Paralelos en 2do de Primaria

numérico

0

8

P_PRIM3

Paralelos en 3ro de Primaria

numérico

0

8

P_PRIM4

Paralelos en 4to de Primaria

numérico

0

9

P_PRIM5

Paralelos en 5to de Primaria

numérico

0

7

P_PRIM6

Paralelos en 6to de Primaria

numérico

0

9

P_PRIM7

Paralelos en 7mo de Primaria

numérico

0

9

P_PRIM8

Paralelos en 8vo de Primaria

numérico

0

9

P_SEC1

Paralelos en 1ro de Secundaria

numérico

0

9

P_SEC2

Paralelos en 2do de Secundaria

numérico

0

8

P_SEC3

Paralelos en 3ro de Secundaria

numérico

0

8

P_SEC4

Paralelos en 4to de Secundaria

numérico

0

7

Mat_ INI0

Matriculados en el grado 0 del nivel inicial

numérico

0

44

Mat_INI1

Matriculados en el grado 1 del nivel inicial

numérico

0

153

Mat_INI2

Matriculados en el grado 2 del nivel inicial

numérico

0

269

Mat_PRIM1

Matriculados en 1ro de Primaria

numérico

0

323

Mat_PRIM2

Matriculados en 2do de Primaria

numérico

0

330

Mat_PRIM3

Matriculados en 3ro de Primaria

numérico

0

342

Mat_PRIM4

Matriculados en 4to de Primaria

numérico

0

368

Mat_PRIM5

Matriculados en 5to de Primaria

numérico

0

310

Mat_PRIM6

Matriculados en 6to de Primaria

numérico

0

340

Mat_PRIM7

Matriculados en 7mo de Primaria

numérico

0

403

Mat_PRIM8

Matriculados en 8vo de Primaria

numérico

0

408

Mat_SEC1

Matriculados en 1ro de Secundaria

numérico

0

467

55

. Mat_SEC2

Matriculados en 2do de Secundaria

numérico

0

386

Mat_SEC3

Matriculados en 3ro de Secundaria

numérico

0

355

Mat_SEC4

Matriculados en 4to de Secundaria

numérico

0

318

Efectivos

Cantidad de Efectivos

numérico

8

4.531

Promovidos

Cantidad de Aprobados

numérico

8

4.070

Reprobados

Cantidad de Reprobados

numérico

0

461

Insc_nuevos

Inscritos Nuevos

numérico

8

4.552

Insc_rep

Inscritos Repitentes

numérico

0

198

No_incorpor

No incorporados

numérico

0

152

Retir_tras

Retirados por traslados

numérico

0

152

Retir_aban

Retirados por abandono

numérico

0

354

Multigrado

Aula multigrado

booleano

0

1

Dependencia

Tipo de UE

Nominal

Dirección

Ubicación

Nominal

Zona

Ubicación

Nominal

Provincia

Ubicación

Nominal

Sección

Ubicación

Nominal

Cantón

Ubicación

Nominal

Localidad

Ubicación

Nominal

Area

Área Rural o urbana

Nominal

Tabla III.10 Data Set La Paz 2005

3.2.2 FASE DE PREPROCESAMIENTO

Para esta etapa se puede aplicar diferentes herramientas con el objetivo de

conocer las

características de los atributos, en este caso se aplicará histogramas y más adelante se utilizará la herramienta weka para mostrar este proceso.

El data set que se analizará es el perteneciente a los datos de La Paz de la gestión 2005.A continuación se muestra la distribución de la matrícula por niveles de éstos datos.

Matrícula en los niveles Inicial, Primario y Secundario Nivel Inicial

Solo hay

13 UE que tienen el Nivel Inicial 0

de las que 12 UE tienen menos de 50

alumnos y una UE tiene 103 alumnos (JESUS OBRERO MAÑANA) En el Nivel Inicial 1

56

. hay 215 UE de las cuales 171 tienen menos de 50 alumnos. En el Nivel Inicial 2 hay 2.113

UE de las cuales 1.857 tienen menos de 50 alumnos (Ver Figura III.3) 2000 1900 1800 1700 1600 1500 1400 1300 1200 1100 1000 900 800 700 600 500 400 300 200 100 0

1857

171 12

1

<50

103

151

<50

29

15

51-100

101-192

<50

50- 100

95

10

101- 200

201- 336

INICIAL 0 INICIAL 1 INICIAL 2

Figura III.3 Distribución de matriculación en el Nivel Inicial

Nivel Primario ( 1ro a 5to)

En la Figura III.4 se muestra

que un gran porcentaje de UE tienen una matrícula menor a

10 de 1ro a 5to de primaria. Por ejemplo hay 3.374 UE que tienen Primero de Primaria (azul) tanto del área rural como urbana de las cuales 752 UE tienen menos de 10 alumnos.

2200 2000 1800

1918

1896

1752

1600

1458

1400 1224

1200

1105

1000

914

867

905

826

800 600 400 200

180

213 124

172

196 116

173

204

178

194

117

183

211

115

110

0 <10 10--30 31-50

51100

100283

<10 10--30 31-50

51100

101284

<10 10--30 31-50

51100

101286

<10 10--30 31-50

51100

101269

<10 10--30 31-50

51100

101280

Figura III.4 Distribución de matriculación en el Nivel Primario

57

Para conocer mejor los datos

. matriculación de los nueve

a continuación se describe la

departamentos. En la Tabla III.11 se muestra la cantidad de Unidades Educativas en cada departamento

de la gestión 2006.

Se puede observar que

en

La Paz, Santa Cruz,

Cochabamba y Potosí existe mayor porcentaje de Unidades Educativas que en el resto de los departamentos. U.E. Gestión 2006 Departamento

T arija 5%

Cantidad

Sucre

1168

Cochabamba

2337

Santa Cruz

2795

Potosí

2151

Oruro

696

Tarija

723

Pando

5%

2%

Beni

La Paz

5%

26%

4003

La Paz

Oruro

Sucre 8%

Potosí 14% Santa Cruz 19% Cocha 16%

Beni

786

Pando

230

La P az P o to sí Tarija

Tabla III.11 Unidades Educativas Gestión 2006

Santa Cruz Sucre Oruro

Co chabamba B eni P ando

Figura III.5 Distribución de Unidades Educativas

En las siguientes Tablas y Figuras se muestran la cantidad promedio de alumnos efectivos (alumnos que asistieron regularmente a clases hasta la conclusión del año escolar) de cada departamento. Por ejemplo en la Tabla III.12 se muestra la descripción de la matriculación en el departamento de La Paz. La UE con menor matricula es la UE JUNIN 2005 con 3 alumnos. La Unidad con mayor matricula es la UE BOLIVIANO ALEMAN AVE MARIA 2006 con 4.658 alumnos.

Matriculación La Paz 185

Gestión

Promedio

2000

163

Valor Máximo 4025

Valor Mínimo 7

2001

165

3983

7

170

2002

172

4015

5

165

2003

176

4239

5

2004

179

4340

7

2005

180

4531

3

2006

177

4658

5

Tabla III.12 Alumnos Efectivos en el Departamento de La Paz.

180 175

160 155 150 2000

2001

2002

2003

2004

2005

2006

Figura III.6 Distribución de alumnos Efectivos en el Departamento de La Paz.

58

. En el Departamento de Sucre la distribución de alumnos efectivos es ascendente ( Figura

III.7). La Unidad con menor matricula es la UE LAS LOMAS 2006 con 7 alumnos. La Unidad con mayor matricula es la UE LA RECOLETA 2006 con 2.228 alumnos.

Matriculación Sucre

117

Valor Máximo 2009

Valor Mínimo 14

2001

122

2085

7

2002

126

2122

10

2003

129

2146

9

2004

133

2166

9

2005

133

2188

9

2006

133

2228

7

Gestión

Promedio

2000

135 130 125 120 115 110 105 2000 2001 2002 2003 2004 2005 2006

Tabla III.13 Alumnos Efectivos en el Departamento de Sucre.

Figura III.7 Distribución de alumnos Efectivos en el Departamento de Sucre

En el Departamento de Cochabamba la distribución es más variada (Figura III.8). La Unidad con menor matricula es la UE NIÑO SIMON 2000 con 2 alumnos. La Unidad con mayor matricula es la UE FRANZ TAMAYO 2004 con 2.373 alumnos.

Matriculación Cochabamba Valor Mínimo 2

195

178

Valor Máximo 1883

2001

168

1877

7

180

2002

175

2010

6

175

2003

181

2172

6

2004

184

2373

6

160

2005

186

1755

6

155

2006

190

1825

7

Gestión

Promedio

2000

190 185

170 165

Tabla III.14 Alumnos Efectivos en el Departamento de Cochabamba.

2000

2001

2002

2003

2004

2005

2006

Figura III.8 Distribución de alumnos Efectivos en el Departamento de Cochabamba

En el Departamento de Santa Cruz la distribución es ascendente ( Figura III.9) La Unidad con menor matricula es la UE CHIRGUANAÑAN 2006 con 3 alumnos.

59

. La Unidad con mayor matricula es la UE INTERNACIONAL BETHESDA II 2006 con

3.173 alumnos.

Matriculación Santa Cruz

211

Valor Máximo 2175

Valor Mínimo 3

2001

218

2149

5

2002

227

2176

2

2003

235

2647

7

2004

240

2709

6

2005

241

2964

4

2006

237

3173

3

Gestión

Promedio

2000

Tabla III.15 Alumnos Efectivos en el Departamento de Santa Cruz.

245 240 235 230 225 220 215 210 205 200 195 2000

2001

2002

2003

2004

2005

2006

Figura III.9 Distribución de alumnos Efectivos en el Departamento de Santa Cruz

En el Departamento de Potosí la matriculación del 2003 al 2006 permanece casi constante (Figura III.10). La Unidad con menor matricula es la UE ISLA 2006 con 4 alumnos. La Unidad con mayor matricula es la UE SIGLO XX AMERICA. 2006 con 1.276 alumnos.

Matriculación Potosí 104

95

Valor Máximo 1155

Valor Mínimo 4

2001

96

1171

5

98

2002

99

1159

7

96

2003

101

1228

6

94

2004

101

1265

5

92

2005

101

1274

7

90

2006

102

1276

4

Gestión

Promedio

2000

Tabla III.16 Alumnos Efectivos en el Departamento de Potosí.

102 100

2000

2001

2002

2003

2004

2005

2006

Figura III.10 Distribución de alumnos Efectivos en el Departamento de Potosí

En el Departamento de Tarija la distribución es ascendente. (Figura III.11). La Unidad con menor matricula es la UE CHAUPIUNO 2006 con 5 alumnos.

60

.

La Unidad con mayor matrícula es la UE LA SALLE. 2006 con 1.260 alumnos.

Matriculación Tarija

142

Valor Máximo 1191

Valor Mínimo 7

2001

147

1141

7

2002

150

1148

8

145

2003

154

1192

8

140

2004

159

1275

6

135

2005

162

1254

6

130

2006

157

1260

5

Gestión

Promedio

2000

165 160 155 150

2000

Tabla III.17 Alumnos Efectivos en el Departamento de Tarija.

2001

2002

2003

2004

2005

2006

Figura III.11 Distribución de alumnos Efectivos en el Departamento de Tarija

En el Departamento de Beni la distribución es ascendente. (Figura III.12). La Unidad con menor matricula es la UE EL TORO 2006 con 4 alumnos. La Unidad con mayor matricula es la UE LA SALLE. 2006 con 1.136 alumnos.

Matriculación Beni 160

137

Valor Máximo 801

Valor Mínimo 7

2001

143

861

10

2002

151

942

6

2003

156

1060

7

2004

158

1030

6

130

2005

157

1064

7

125

2006

155

1136

4

Gestión

Promedio

2000

155 150 145

Tabla III.18 Alumnos Efectivos en el Departamento de Beni.

140 135

2000

2001

2002

2003

2004

2005

2006

Figura III.12 Distribución de alumnos Efectivos en el Departamento de Beni.

En el Departamento de Pando la distribución es ascendente. (Figura III.13). La UE con menor matrícula es SANTA ELENA 2000 con 3 alumnos. La UE con mayor matrícula es NUESTRA SEÑORA DEL PILAR FE Y ALEGRIA. 2006 con 872 alumnos.

61

. Matriculación Pando 90

53

Valor Máximo 710

Valor Mínimo 3

2001

57

780

4

2002

62

838

7

2003

65

831

6

2004

67

868

4

10

2005

71

872

6

0

2006

77

801

6

Gestión

Promedio

2000

80 70 60 50 40 30 20

2000

Tabla III.19 Alumnos Efectivos en el Departamento de Pando.

2001

2002

2003

2004

2005

2006

Figura III.13 Distribución de alumnos Efectivos en el Departamento de Pando.

3.2.2.1 TRATAMIENTO DE VALORES FALTANTES

No todas las UE están registradas en el SIE, existen algunas que no cuentan con la documentación

requerida por el Ministerio de Educación por lo que son registradas de

forma manual porque no tienen un código asignado para la inserción al Sistema. Para el desarrollo del proyecto se tomará en cuenta sólo las UE registrados en el Sistema

Existe además otras UE con información incompleta sobre matriculación, que no cuentan con información de fin de gestión. Solo están registrados los de inicio de gestión que no incluyen información de reprobados, aprobados, efectivos y retirados. Estos datos faltantes se ha detectado con consultas SQL y con la comparación con los cubos dinámicos publicados en la página del Ministerio de Educación.

La acción que se decidió con estos datos es eliminarlos porque representan solo el 6% de toda la información.

3.2.1.2.2 TRATAMIENTO DE VALORES ERRONEOS

Se ha detectado algunos posibles errores como en el caso de los valores mínimos de matriculación. Estos valores son muy pequeños

como en el caso de las UE

CHIRGUANAÑAN de Santa Cruz, SANTA ELENA de Pando y JUNIN de La Paz que cuentan con 3 alumnos. Puede que sean errores de transcripción, incompletos o pertenezcan al área rural de tipo multigrado.

62

. En la Tabla III.20 se muestran las características de las Unidades Educativas que tienen la

menor cantidad de alumnos efectivos, por ejemplo (columna 4) en los departamentos de Santa Cruz y Pando existen tres unidades educativas (SANTA ELENA 2000, CHIRGUANAÑAN 2006 y PIQUIRI 2000) con tres alumnos efectivos del área rural y pertenece a multigrado.

Cantidad de Alumnos efectivos posiblemente erróneos Efectivos

Frecuencia

Área

Multigrado

Departamentos

2

1

Rural

No

Santa Cruz

2

1

Urbana

No

Cochabamba

3

1

Urbana

No

La Paz

3

3

Rural

Si

Santa Cruz, Pando

4

12

Rural

Si

Santa Cruz, Potosí, Beni y Pando

5

1

Rural

No

Santa Cruz

5

18

Rural

Si

La Paz, Santa Cruz, Potosí, Oruro, Tarija, Beni y Pando.

Tabla III.20 Cantidad de alumnos efectivos posiblemente erróneos.

Los que no pertenecen a multigrado no

justifican

la poca cantidad de alumnado,

posiblemente no están completos, se cerró la Unidad Educativa o simplemente fue un error de transcripción, por lo que se consideran valores erróneos y se procede a eliminarlos.

3.3 PROCESO DE TRANSFORMACIÓN

Se debe transformar los datos para ajustarlos a los requisitos de entrada del algoritmo de minería de datos. Para este proceso

se realizarán los siguientes pasos: numerización,

reducción de atributos y la extracción de características para la generación de nuevos atributos.

Numerización

Es el proceso de convertir valores nominales a numéricos. Este cambio se realiza porque se adecua mejor los valores numéricos

a los distintos algoritmos que se aplicarán más

adelante. Se tratará los atributos de área y dependencia.

63

.

Área : Rural Æ 1 Urbana Æ 2 Dependencia : Pública o Fiscal Æ 1 Convenio

Æ2

Privada

Æ3

Comunitaria

Æ4

Atributos omitidos

Algunos atributos del data set no están adecuados para aplicar algoritmos de agrupamiento, por ejemplo en el caso del atributo código que es único para cada UE , por lo que no resulta adecuado

introducirlo. Se eliminarán

además los atributos de domiciliaria porque

el

algoritmo de agrupamiento tratará de agruparlos simultáneamente por ubicación pero lo que se quiere lograr es agrupar distintos comportamientos acerca de la matriculación. Por lo que se procederá a eliminar los siguientes atributos: 9

Cod_UE

9

Nombre

9

Dirección

9

Zona

9

Provincia

9

Sección

9

Cantón

9

Localidad

Extracción de Características

En la transformación de atributos se puede transformar un conjunto de atributos en otros, o bien derivar nuevos atributos a partir de otros. En el proyecto se genera dos nuevos atributos: tasa de aprobación y tasa de abandono, usando los datos de: efectivos, promovidos, reprobados, inscritos nuevos, inscritos repitentes, no incorporados, retirado traslado y retirado abandono. Para el cálculo de la tasa de

64

. aprobación se divide la cantidad de estudiantes promovidos entre la cantidad de estudiantes

efectivos como se muestra a continuación:

Tasa de aprob = Promovidos / Efectivos.

El cálculo de la tasa de abandono se realiza de la siguiente manera [1] :

Tasa de abandono = 1-( efectivos / (inscritos nuevos + inscritos repitentes

+ no incorporados ))

Data Set Transformado

El proceso de conformación del data set a partir de una base de datos involucra el proceso de preparación y transformación de datos. El dataset transformado una vez eliminado los campos y generado las tasa de aprobación y tasa de abandono se muestra en la tabla III.21.

DATA SET TRANSFORMADO

Campo

Descripción

Tipo

P_INI0

Paralelos en el grado 0 del nivel inicial

numérico

P_INI1

Paralelos en el grado 1 del nivel inicial

numérico

P_INI2

Paralelos en el grado 2 del nivel inicial

numérico

P_PRIM1

Paralelos en 1ro de Primaria

numérico

P_PRIM2

Paralelos en 2do de Primaria

numérico

P_PRIM3

Paralelos en 3ro de Primaria

numérico

P_PRIM4

Paralelos en 4to de Primaria

numérico

P_PRIM5

Paralelos en 5to de Primaria

numérico

P_PRIM6

Paralelos en 6to de Primaria

numérico

P_PRIM7

Paralelos en 7mo de Primaria

numérico

P_PRIM8

Paralelos en 8vo de Primaria

numérico

P_SEC1

Paralelos en 1ro de Secundaria

numérico

P_SEC2

Paralelos en 2do de Secundaria

numérico

P_SEC3

Paralelos en 3ro de Secundaria

numérico

P_SEC4

Paralelos en 4to de Secundaria

numérico

Mat_ INI0

Matriculados en el grado 0 del nivel inicial

numérico

Mat_INI1

Matriculados en el grado 1 del nivel inicial

numérico

1

El cálculo de la tasa de abandono se puede realizar de varias formas, no necesariamente de la forma propuesta.

65

. Mat_INI2

Matriculados en el grado 2 del nivel inicial

numérico

Mat_PRIM1

Matriculados en 1ro de Primaria

numérico

Mat_PRIM2

Matriculados en 2do de Primaria

numérico

Mat_PRIM3

Matriculados en 3ro de Primaria

numérico

Mat_PRIM4

Matriculados en 4to de Primaria

numérico

Mat_PRIM5

Matriculados en 5to de Primaria

numérico

Mat_PRIM6

Matriculados en 6to de Primaria

numérico

Mat_PRIM7

Matriculados en 7mo de Primaria

numérico

Mat_PRIM8

Matriculados en 8vo de Primaria

numérico

Mat_SEC1

Matriculados en 1ro de Secundaria

numérico

Mat_SEC2

Matriculados en 2do de Secundaria

numérico

Mat_SEC3

Matriculados en 3ro de Secundaria

numérico

Mat_SEC4

Matriculados en 4to de Secundaria

numérico

Efectivos

Cantidad de Efectivos

numérico

Promovidos

Cantidad de Aprobados

numérico

Insc_nuevos

Inscritos Nuevos

numérico

Insc_rep

Inscritos Repitentes

numérico

No_incorpor

No incorporados

numérico

Retir_tras

Retirados por traslados

numérico

Retir_aban

Retirados por abandono

numérico

Tasa_Aprob

Tasa de aprobación

numérico

Tasa_Aban

Tasa de abandono

numérico

Multigrado

Aula multigrado

booleano

Dependencia

Tipo de UE

numérico

Area

Área Rural o urbana

numérico

Tabla III.21 Data set Transformado

3.4 MINERIA DE DATOS

Como el data set ha sido preprocesado y transformado se puede aplicar una tarea de minería de datos. La Clustering

herramienta Weka (Ver Anexo A) proporciona el algoritmo k-means de

para agrupar los datos y detectar las características y similitudes entre las

unidades educativa, posteriormente se aplicará el algoritmo J.45 de para tratar de conocer los atributos

Árboles de Decisión

relevantes en el clustering. Cabe destacar que se

analizará en los siguientes apartados el data set de La Paz 2005 que una vez procesado y transformado resultó con 4.009 instancias y 43 registros.

66

3.4.1

ANÁLISIS

MEDIATE LA

. HERRAMIENTA DE MINERÍA DE DATOS

WEKA

Se ha elegido la herramienta WEKA(Waikato Environment for Knowledge Analysis) por contar con varias ventajas que le distinguen de las demás herramientas. A continuación se listan algunas de estas ventajas:

• Es de distribución libre y gratuita • Cuenta con una interfase gráfica amigable y es fácil de usar • Tiene incorporado un amplio conjunto de algoritmos de minería de datos • Esta programado en código abierto, permitiendo al usuario programador agregar nuevas funciones según su necesidad.

Actualmente existen varias versiones de esta herramienta, pero para el desarrollo del proyecto se utiliza la Versión 3.4.5. La ventana inicial se muestra en la Figura III.14. Tiene cuatro opciones de acceso Simple CLI, Explorer, Experimenter y KnowledgeFlow, la más utilizada por contar una interfaz gráfica es Explorer, es por ello que se elige esta opción.

Figura III.14 Ventana inicial de Weka.

La ventana

Explorer (Ver Figura III.15)

tiene las opciones de: Preprocesamiento,

Clasificación, Agrupamiento , Asociación, Selección de atributos y Visualización.

67

.

Figura III.15 Opciones de Explorer de Weka

Los datos se introducen en el formato CSV (Ver Figura III.16), por ejemplo una hoja de cálculo tiene la opción de guardar los datos con esta extensión.

Figura III.16 Venta de introducción de datos de Weka

La herramienta Weka

proporciona la opción de preprocesamiento (Ver Figura III.17). En

la primera parte de la ventana se visualiza la lista de atributos, en la segunda parte se visualiza el tipo, la media, la varianza, el valor mínimo y máximo si el atributo es de tipo numérico y la cantidad

de instancias de una determinada variable si el atributo es de tipo

nominal, en la tercera parte se muestra en forma gráfica la distribución de los atributos.

68

.

1 2

3

Figura III.17 Ventana de Preprocesamiento de Weka.

En la Figura III.18a se muestra la distribución del atributo ÁREA, se observa que hay 3.038 UE rurales (representado por el color azúl) y 971 UE urbanas (representado por el color rojo). En la Figura III.18b se muestra la distribución del atributo DEPENDENCIA clasificado por área, se observa 3.548 UE fiscales en su mayoría rurales (azul), 239 UE privadas en su mayoría urbanas(rojo), 212 UE de convenio en su mayoría rurales y 10 UE comunitarias.

RURAL

FISCAL

URBANO

PRIVADO

Figura III.18a Distribución del atributo área.

CONVENIO

COMUNITARIO

Figura III.18b Distribución del atributo área.

69

. En la Figura III.18c se muestra la distribución de MULTIGRADO, se observa que la

mayoría de las UE son de tipo multigrado. En la figura III.18d se muestra el atributo TASA DE APROBACIÓN en el rango de 0,66 como mínimo y 1 como máximo, se observa que la mayoría tiene una tasa de aprobación de 1 en el área rural.

MULTIGRADO

NO MULTIGRADO

Figura III.18c Distribución del atributo multigrado

Figura III.18d Distribución de tasa de aprobación

3.4.1.1 APLICACIÓN DE CLUSTERING

Para aplicar el algoritmo de K-means, se debe seleccionar la pestaña Cluster y escoger el algoritmo SimpleKMeans como se muestra en la Figura III.19.

Figura III.19 Ventana Cluster de Weka

70

. El algoritmo requiere el número de Clusters se probará con 2, 3, 4 y 5, posteriormente se

elegirá el número adecuado de clusters por medio de una análisis de distancias. Después de ejecutar el algoritmo se muestra en la parte derecha el número de iteraciones, los Centroides (representantes de grupo) representados por la media y la desviación estándar y

la cantidad de instancias pertenecientes a cada grupo.

3.4.1.2 ANÁLISIS DE DISTANCIAS PARA DETERMINAR EL NÚMERO DE CLUSTERS

Para aplicar clustering es necesario determinar el número adecuado de clusters o grupos, se puede definir y probar con diversos números, pero se necesita un criterio para seleccionar el más coherente. Por tal motivo se ha realizado varios experimentos con 2, 3 , 4 y 5 clusters.

El criterio que se tomó en cuenta para seleccionar el número adecuado de clusters es : "el número óptimo de clusters

es aquel en el que los ejemplos tienen características que

generan pequeñas distancias dentro de los grupos y grandes distancias entre los grupos",

Por lo tanto se realizará el análisis de distancias. Para el análisis de distancias la función más común es la distancia euclidiana que se basa en la longitud de la recta que une dos puntos en el espacio euclídeo, para ello las instancias numéricas. La función esta expresada de la siguiente manera:

d( O1 , O 2 ) =

n

∑ (x i =1

1

( O1 ) − x 1 ( O 2 )) 2

Es necesario normalizar los valores para que no ocurra problemas con los valores mínimos y máximos . Por ejemplo las distancias debidas a diferencias de un atributo que va entre 0 y 100 serán mucho mayores que las distancias debidas a diferencias de un atributo que va entre 0 y 10. La normalización más común es la normalización lineal uniforme, es la que se utilizará en el presente proyecto, donde la variable normalizada esta en el rango de 0 a 1.

71

.

y − min y' = max − min Donde:

v es la variable a normalizar min es el mínimo de los valores dados para ese atributo max es el máximo de los valores dados para ese atributo v' es la variable normalizada.

Los valores de las distancias calculadas para

2, 3 ,4 y 5 clusters se muestra en la Tabla

III.22. DOS CLUSTERING

CINCO CLUSTERING

Distancia entre clusters Distancia 0-1

Distancia entre clusters 1,3

Distancia Acumulado dentro del cluster

Distancia 0-1

1,5

Distancia 0-2

1

Acumulado Cluster 0

2.891

Distancia 0-3

0,3

Acumulado Cluster 1

5.288

Distancia 0-4

0,7

Distancia 1-2

1

Distancia 1-3

1,5

TRES CLUSTERING Distancia entre clusters

Distancia 1-4

1,2

Distancia 0-1

1,5

Distancia 2-3

1

Distancia 0-2

1,4

Distancia 2-4

1,2

Distancia 1-2

1,3

Distancia 3-4

0,7

Distancia Acumulado dentro del cluster

Distancia Acumulado dentro del cluster

Acumulado Cluster 0

2.886

Acumulado Cluster 0

2.925

Acumulado Cluster 1

5.022

Acumulado Cluster 1

5.404

Acumulado Cluster 2

4.093

Acumulado Cluster 2

4.715

Acumulado Cluster 3

3.062

Acumulado Cluster 4

4.067

CUATRO CLUSTERING Distancia entre clusters Distancia 0-1

1,5

Distancia 0-2

1

Distancia 0-3

0,3

Distancia 1-2

1

Distancia 1-3

1

Distancia 2-3

1

Distancia Acumulado dentro del cluster Acumulado Cluster 0

3.923

Acumulado Cluster 1

5.330

Acumulado Cluster 2

4.193

Acumulado Cluster 3

4.396

Tabla III.22 Tabla de distancias.

72

. Se observa que al aplicar dos clusters se tiene una distancia entre clusters de 1,3 y un

promedio de la distancia acumulada de 4.089 Con tres clusters la distancia máxima es 1,5 y la mínima es de 1,3 y el promedio de la distancia mínima acumulada es de 4.000. Con cuatro clusters las distancias entre clusters no son tan bajas, pero los acumulados son mayores que con dos y tres clusters, lo mismo pasa con cinco clusters por lo que se descartan Entre dos clustes y tres clusters no hay mucha diferencia pero el acumulado con tres clusters es menor, es por ello que se ha elegido aplicar tres clusters. 3.4.1.3 ANÁLISIS DE LOS GRUPOS

La tabla de centroides con 43 atributos generado por la herramienta Weka se muestra en la Tabla III.23. Se puede observar que por ejemplo el cluster 0

esta representado por un

promedio de cero paralelos en 8vo de Primaria (atributo P_PRIM8), 6 alumnos en 4to de Primaria (atributo MAT_PRIM4) y tiene una tasa de aprobación (atributo T_APROB) de 99,5 %. P_INI0

P_INI1

P_INI2

P_PRIM1

P_PRIM2

P_PRIM3

Cluster 0

0

0.0215

0.5055

0.959

0.9176

0.898

0.7594

Cluster 1

0

0.029

0.5176

0.5921

0.5797

0.6046

Cluster 2

0.0145

0.2298

1.1408

1.4648

1.4141

1.3892

P_PRIM8 P_SEC1 P_SEC2 P_SEC3 P_SEC4 MAT_INI0

P_PRIM4 P_PRIM5

P_PRIM6

P_PRIM7

0.6723

0.3855

0.2348

0.5942

0.6149

0.7267

0.8219

1.3706

1.3696

1.3737

1.3137

MAT_INI1

MAT_INI2

MAT_PRIM1 MAT_PRIM2 MATPRIM3

0.2121

0.0852

0.0797

0.0699

0.0609

0

0.1297

4.073

7.6746

6.1121

5.9832

0.8302

0.8923

0.8323

0.7847

0.7391

0

0.2774

10.735

12.1511

11.7557

12.4596

1.2702

1.1749

1.0611

0.9876

0.8944

0.2433

5.5828

34.736.

44.4534

42.4834

41.7474

MAT_SEC2

MAT_SEC3

MAT_PRIM4 MAT_PRIM5 MAT_PRIM6 MAT_PRIM7 MAT_PRIM8 MAT_SEC1

MAT_SEC4

5.7969

5.4199

4.2508

2.9355

2.5809

1.2547

0.9906

0.8188

0.6301

12.6729

13.1159

16.7619

18.6501

18.1014

20.617

17.3602

15.6501

13.8923

41.4824

41.4803

42.5248

40.5611

39.7629

40.0031

36.1718

34.1346

30.5787

EFECTIVOS

PROMOV

REPROB

INSC_NUE

INSC_REP

NO_INC

RET_TRAS

RET_ABAN

48.6625

48.1355

0.3664

710.593

0.077

0.9855

0.1578

4.9008

194.2008

187.9172

5.1781

299.005

2.0455

4.5942

1.0186

18.0145

515.9503

498.3313

15.8364

51.6989

7.8137

9.8282

6.7277

24.8913

Cluster 0

2560 ( 64%)

Cluster 1

483 ( 12%)

Cluster 2

966 ( 24%)

73

. T_APROB

T_ABAN

MULTIG

DEPEN

AREA

0.9953 0.9652

0.0981 0.1101

1 0

1.0563 1.0994

1.002 1

0.9679

0.0836

0

1.5466

2

Tabla III.23 Tabla de Centroides

Diagramas de Venn

Para comprender mejor las características de los grupos se puede aplicar diagramas de Venn como se muestra en las Figuras III.20. El diagrama de Venn del Cluster 0 (Figura III.20 a) se interpreta de la siguiente manera:

2.445 instancias que son de tipo multigrado, fiscales

y del área rural; 5 instancias que son de tipo multigrado, fiscales y no pertenecen al área rural; 110 instancias son de tipo multigrado, del área rural pero no son fiscales.

Cluster 0 ( 2560 Instancias)

Multigrado =si (2560)

Dependencia = fiscal (2450) 0

0

5

2445 110

0

0

Área = rural (2555)

Figura III.20 a Diagrama de Venn del Cluster 0

En el diagrama de Venn del Cluster 1 (Figura III.20 b) se observa 439 instancias son de tipo multigrado, fiscales y pertenecientes al área rural, sin embargo sólo 44 instancias son de tipo multigrado que no son fiscales y pertenecen al área rural.

En el diagrama del cluster 2 (Figura III.20 c) se observa que 659 instancias son fiscales que pertenecen al área urbana y no son de tipo multigrado, en cambio 307 instancias no son fiscales, pertenecen al área urbana y no son de tipo multigrado.

74

. Cluster 1 ( 483 Instancias)

Multigrado =no (483)

Dependencia = fiscal (439) 0

0

0

439 44

0

0

Área = rural (483)

Figura III.20 b Diagrama de Venn del Cluster 1

Cluster 2 ( 966 Instancias)

Multigrado =no (966)

Dependencia = fiscal (659) 0

0

0

659 307

0

0

Área = urbana (966) Figura III.20 c Diagrama de Venn del Cluster 2

Gráficos de Dispersión

Con Weka se puede analizar los grupos de forma visual mediante gráficos de dispersión Por ejemplo en la Figura

III.21 se muestra

la distribución de los grupos respecto a la

dependencia. Se observa que el primer grupo (azul) presenta una alta proporción de UE fiscales, seguida por las de convenio y muy pocas privadas El segundo grupo(rojo) en su mayoría son fiscales, seguido por convenio y no presenta ninguna comunitaria. El tercer

75

. grupo(verde) tiene mayor distribución en privadas y de convenio a diferencia de los dos

grupos anteriores.

Figura III.21 Ventana de visualización del atributo dependencia

Con respecto a la matriculación en 4to de secundaria (Ver Figura III.22), se observa que el tercer grupo tiene mayor dispersión

acercándose más a la máxima matriculación, en

contraposición la distribución del primer grupo se acerca más a cero.

Figura III.22 Ventana de visualización del atributo matrícula en 4to Sec.

76

. Gráfico de Barras.

Por medio de los gráficos de barras (Ver Figura III.23) que proporciona Weka, también se puede visualizar la distribución de los grupos.

En la figura b se confirma

que la mayor parte del cluster 0 pertenece al área rural y todos

los del cluster 2 son urbanas. En la figura c se muestra que la mayor parte del cluster 0 tiene una tasa de aprobación de 1, sin embargo en el cluster 2 se tiene una distribución más homogénea, porque

va reduciendo desde 1 casi en la misma proporción hasta

aproximadamente 0,7. En la figura d se muestra que la tasa de abandono del cluster 0 en su mayoría es 0 y va descendiendo hasta 0,28. En la figura e se muestra que la mayoría del cluster 0 y cluster 1 son unidades educativas fiscales, mientras que la mayoría del cluster 2 son unidades educativas privadas.

CLUSTER 0

RURAL

CLUSTER 2

URBANO CLUSTER 1

a) Atributo Cluster

c) Atributo Tasa de aprobación

b) Atributo Área

d) Atributo Tasa de abandono

77

.

MULTIGRADO

FISCAL

NO MULTIGRADO

PRIVADO

CONVENIO

COMUNITARIO

e ) Atributo Dependencia

f) Atributo Multigrado

g ) Atributo Matrícula 1ro de Primaria

h) Atributo Matrícula 4to de Secundaria

Figura III.23 Gráfico de Barras de Weka.

Por lo tanto, en base al análisis de la tabla de centroides, los diagramas de Venn y las herramientas de visualización

se puede dar una primera interpretación:

El primer grupo (64%) se caracteriza por unidades educativas con una baja cantidad de alumnos efectivos, son de tipo multigrado y del área rural que tienen una tasa de abandono promedio del 10% . A diferencia de los demás grupos es el que tiene mayor tasa de aprobación. En cuanto a la matriculación, en el nivel primario se tiene un promedio de 6 alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario. El segundo grupo (12%) se caracteriza por unidades educativas fiscales del área rural pero que no son de tipo multigrado,

tienen mayor tasa de abandono a diferencia de los dos

grupos y la distribución de la matrícula en todos los niveles es casi homogénea.

78

. El tercer grupo (24%) se caracteriza por unidades educativas urbanas, en su mayoría son fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación en todos los niveles

con un promedio de 516 alumnos efectivos y tienen

menor tasa de abandono.

3.4.1.2 APLICACIÓN DE ÁRBOLES DE DECISIÓN

Después de aplicar Clustering, se etiquetan los datos

para identificar a que grupo

pertenece cada instancia. La herramienta Weka genera automáticamente esta etiqueta (Ver Figura III.24) creando un atributo denominado Cluster de tipo nominal después de aplicar un algoritmo de clustering.

Figura III.24 Etiquetado de Clustering en Weka.

Como los datos ya están etiquetados ahora se puede aplicar algoritmos pertenecientes a los árboles de decisión para identificar reglas pertenecientes a los grupos. Un algoritmo de árbol de decisión muy utilizado es el algoritmo C4.5, en Weka se utiliza la terminología J48 para referirse a este algoritmo. Para ejecutar esta opción se ingresa a la ventana de clasificación, se ejecuta la opción J.48 y se elige el atributo clasificador como se muestra en la Figura. III.25

79

.

Figura III.25 Ventana de Clasificación de Weka.

El algoritmo muestra los resultados en forma de diagrama y en forma gráfica mediante un árbol. En la ventana de salida

se muestra el diagrama y la matriz de confusión, para

visualizar el árbol de forma gráfica se hace click con el botón derecho sobre la lista de resultados como se muestra en la Figura III.26.

Figura III.26 Ventana del algoritmo J.48 de Weka.

80

. En la Figura III.27 se muestra el gráfico del árbol de decisión. Con la matriz de confusión se

comprueba que los clusters tienen sentido, ya que la confusión es cero.

Figura III.27 Árbol de decisión

Se puede expresar también mediante el siguiente pseudocódigo.

IF multigrado = si THEN cluster 0 ELSE IF area =rural THEN cluster 1 ELSE area= urbana THEN cluster 2 END END

El gráfico se puede interpretar de la siguiente manera:

" si una UE no es multigrado y pertenece al área urbana, entonces pertenece al cluster 2 (966 instancias)".

81

. " si una UE es de tipo multigrado, entonces pertenece al cluster 0, esta regla se cumple en 2.560 instancias".

" si una UE no es multigrado y pertenece al área rural, entonces pertenece al cluster1

(483

instancias)".

3.5 IMPLEMENTACIÓN DE LA HERRAMIENTA DE MINERÍA DE DATOS

En el presente proyecto se ha desarrollado una herramienta programado en Delphi 7 utilizando OpenGL para representar los datos de manera multidimensional y para usar la técnica de Clustering k-means. El diagrama de secuencia se muestra en la Figura III.28, el cual se observa que la entrada es el data set limpio, el siguiente proceso es la normalización que es un paso previo a la visualización y a la aplicación del algoritmo k-means.

DATA SET

NORMALIZACIÓN

VISUALIZACIÓN MULTIDIMENSIONAL

ALGORITMO K-MEANS

ANÁLISIS DE RESULTADOS

ANÁLISIS MEDIANTE EXPLORACIÓN

VISUALIZACIÓN DE CENTROIDES

Figura III.28 Diagrama de secuencia

82

.

Una presentación inicial del programa se muestra en las Figuras III.29.

Figura III.29 Pantalla Inicial

83

Se tiene

cuatro opciones principales: el acceso a los datos, la

normalización,

. la

visualización multidimensional y el algoritmo k-means.(Ver Figura III.30)

Los datos se cargan en formato de texto donde, en la primera fila están los nombres de los atributos separados por tabulador y continúa con los datos a partir de la segunda fila también separados por tabulador.

Para graficar es necesario normalizar los datos, se debe normalizar las variables numéricas para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. La normalización se hace en los datos de los atributos y no así en todos los datos del Data set.

ENTRADA DE DATOS

NORMALIZACIÓN DE DATOS

INGRESO A LA PANTALLA DE VISUALIZACIÓN

ALGORITMO KMEANS

Figura III.30 Opciones de acceso

84

. 3.5.1 VISUALIZACIÓN MULTIDIMENSIONAL

Aunque los datos están recopilados, seleccionados y limpios todavía no están listos para realizar una tarea de minería de datos.

Es necesario, además realizar un reconocimiento o análisis exploratorio de los datos con el objetivo de conocerlos mejor antes de aplicar una tarea de minería de datos. De esta manera la técnica de visualización es útil para tener un conocimiento previo de los datos para luego comparar y analizar los resultados con una técnica de minería de datos. En la Figura III. 31 se muestra la pantalla de visualización donde se muestra el cubo con los atributos: tasa de aprobación, efectivos, tasa de abandono, dependencia y área.

Figura III.31 Pantalla de visualización multidimensional

85

. En la Figura anterior se muestra en el eje x la tasa de aprobación, en el eje y la cantidad de

alumnos efectivos , en el eje z la tasa de abandono, en el color la dependencia (Rojo=Fiscal, Amarillo=Convenio, Cian = Privado, Azúl = Comunitaria) y en la forma el área ( cubo= rural , esfera = urbana). Una vez cargado los datos se procede a la interpretación, por ejemplo el punto encerrado en una circunferencia de la gráfica se puede interpretar de la siguiente manera:

"El punto representa a una UE fiscal del área urbana con una baja cantidad de alumnos efectivos, una tasa de aprobación regular y una alta tasa de abandono ".

Realizando varias exploraciones

visuales

combinando diferentes variables,

se ha

identificado algunos comportamientos:

"Hay más unidades educativas

fiscales (representado por el color rojo), se observa

además que a mayor matrícula existe menor tasa de abandono" ( Ver Figura III.32).

Figura III.32 Visualización Efectivos-Tasa de aban-Dependencia

Los datos en el ejemplo de la Figura III.33 pertenecen al área urbana, en la parte inferior se muestra a las UE fiscales(rojo), seguido por las UE de convenio (amarillo) y las UE privadas ( cyan). en la que se observa el siguiente comportamiento

86

. " La tasa de aprobación es mayor en las unidades educativas privadas y de convenio que en las unidades educativas fiscales del área urbana".

Figura III.33 Visualización Dependencia- Tasa de aprobación

En las Figuras III.34 y III.35 se muestra la distribución con respecto a la matrícula en 5to de primaria( representado por el eje y), la tasa de aprobación( representado por el eje x), y la tasa de abandono( representado por el eje z), del área rural y urbana.

Figura III.34 Visualización Matrícula en 5to de Primaria - Tasa aprobación - Tasa de abandono del área rural

87

.

Figura III.35 Visualización Matrícula en 5to de Primaria - Tasa aprobación - Tasa de abandono del área urbana

Observando éstos gráficos se deduce lo siguiente:

"En 5to de primaria del área rural

se tiene mayor tasa de abandono y mayor tasa de

aprobación. Sin embargo el área urbana se tiene una distribución más dispersa, donde las unidades educativas con menor matrícula tienen menor tasa de aprobación y mayor tasa de abandono. Estos comportamientos son similares

en los grados de

1ro a 4to de

Primaria".

Con respecto a la matrícula en 4to de secundaria se muestran en las Figuras III.36 y III37.

Figura III.36 Visualización Matrícula en 4to de Secundaria - Tasa aprobación - Tasa de abandono del área urbana

88

.

Figura III.37 Visualización Matrícula en 4to de Secundaria - Tasa aprobación - Tasa de abandono del área urbana

En 4to de Secundaria se

presenta menor tasa de aprobación

sobre todo en el área

urbana. En el área rural se reduce la matriculación más que todo en las unidades educativas fiscales y de igual forma se tiene mayor tasa de abandono, sin embargo en el área urbana, se incrementa la matrícula en unidades educativas fiscales y se reduce la tasa de aprobación. Este comportamiento es similar a 1ro, 2do y 3ro de secundaria.

3.5.2 ALGORITMO K-MEANS

El algoritmo k-means

parte de un número determinado de grupos y los

ejemplos a

agrupar sin etiquetar, los centros de cada partición se calculan como la media de los ejemplos pertenecientes a cada grupo. A medida que el algoritmo se va ejecutando, algunos ejemplos cambian de un grupo a otro, debiendo recalcularse los centros en cada paso.

1. Elegir k ejemplo que actúan como semillas(k número de clusters).

2. Para cada ejemplo, se calcula el grupo

más próximo y se incluye en la lista de

ejemplos de dicho grupo.

89

3. Se calcula

. el centroide de cada grupo por medio de la media o la mediana si los

datos son numéricos y la moda si los datos son nominales, que pasan a ser las nuevas semillas.

4. Se repite el procedimiento hasta que ya no se desplazan los ejemplos.

En la Figura III.38 se muestra la pantalla de k-means donde los datos ya están cargados y se muestran normalizados, en consiguiente

ya se puede elegir la cantidad de grupos y

determinar los centroides.

Cantidad de grupos

Atributo a graficar

Figura III.38 Pantalla del Algoritmo K-means.

En la Figura III.39

se muestra un ejemplo con tres grupos, los centroides se muestran en

una tabla y para comprender mejor la distribución de los grupos se muestra una gráfica en la parte inferior.

90

.

Figura III.39 Determinación y gráfica de los centroides

Para ver los datos completos

de los centroides y no así normalizados, se elige la opción

Datos Completos donde se visualizan los datos con código, nombre, paralelo, matrícula y el

resto de atributos de cada grupo y centroide (Ver Figura III.40).

Figura III.40 Visualización los grupos y centroides

91

. 3.5.3 CRITERIOS DE CALIDAD DE LA HERRAMIENTA

Para evaluar los criterios de calidad de la herramienta implementada se basa en la Norma ISO IECE 9126 en la que evaluando las seis características para categorizar la calidad del software se llegó a la siguiente conclusión:

La herramienta es funcional porque es apropiado para la exploración de datos

que se

adecua al proceso de minería de dato y cumple con la funcionalidad ya que el algoritmo kmeans genera los centroides de los grupos (representantes de cada grupo) por el que se puede identificar el comportamiento de éstos.

La herramienta es usable por la comprensibilidad y la facilidad de aprendizaje mediante la visualización de datos de forma gráfica que resulta atractivo para el usuario.

La herramienta es eficiente porque es una herramienta de análisis y no se necesita actualizar constantemente su estructura, y por la utilización de librerías gráficas para la elaboración de la visualización.

La herramienta es portable porque se puede instalar en cualquier sistema operativo y no necesita notables requerimientos para su ejecución.

3.5.4 ANÁLISIS DE LOS GRUPOS OBTENIDOS POR LA HERRAMIENTA

Las características

de los grupos

y centroides encontrados

mediante la herramienta

implementada son similares a las encontradas con la herramienta Weka. A continuación se describe el comportamiento estos grupos :

El primer grupo (75%)

representa

a las UE

del área rural que en su mayoría son

multigrado y fiscales, tienen un promedio de 70 alumnos efectivos, una tasa de aprobación promedio de 98% y una tasa de abandono promedio de 4%"

El segundo grupo(17% )

constituye

UE urbanas , con un promedio de 296 alumnos

efectivos, tienen una alta tasa de abandono y en su mayoría son fiscales.

92

. El tercer grupo(8%) se caracteriza por UE privadas del área urbana, con un promedio de

953 alumnos efectivos.

3.6 CONCLUSIONES DEL CAPÍTULO

Las etapas de preparación y transformación de datos representa la parte más tediosa que involucra más tiempo para su

porque

desarrollo. Sin embargo dependen de éstas etapas los

resultados que se obtengan después de aplicar una técnica de minería de datos ya que la selección de atributos, el tratamiento de valores faltantes, erróneos o

con ruido, la

transformación de formato y el aumento o reducción de atributos influyen de gran manera en la salida del algoritmo de minería de datos.

Los patrones de comportamiento de los tres grupos encontrados aplicando k-means y las reglas mediante árboles de decisión reflejan el estado situacional de la educación formal. La herramienta weka resulta útil para encontrar éstos patrones, además contiene lo necesario para realizar el análisis como la

visualización, las estadísticas, el filtrado entre

otros.

Al momento de aplicar clustering, es importante determinar el número adecuado de clusters o grupos mediante un análisis de distancias para segmentar de mejor manera los grupos.

La utilización de la herramienta de visualización multidimensional que se ha desarrollado es útil para el análisis exploratorio de los datos ya que resulta efectivo conocer mejor los datos antes de aplicar un algoritmo de minería de datos.

Los patrones obtenidos con la herramienta weka son similares a los encontrados con la herramienta implementada, con lo que se asegura y refuerza el conocimiento encontrado.

De esta manera se ha cumplido los objetivos principal y secundarios formulados en el primer capítulo con excepción del análisis de resultados que se lo realizará en el siguiente capítulo.

93

.

CAPITULO IV ANÁLISIS DE RESULTADOS.

Después de haber realizado el proceso de minería de datos

la siguiente fase es la

interpretación y análisis de los resultados.

4.1 VALIDACIÓN DE RESULTADOS

Para realizar este análisis se validarán los patrones obtenidos en el anterior capítulo con las información preexistente acerca de la situación educativa.

Antes, mencionaremos un resumen de los patrones de comportamiento encontrados en el anterior capítulo :

El primer cluster es el que tiene mayor cantidad de instancias y se caracteriza por unidades educativas con una baja cantidad de alumnos efectivos, son de tipo multigrado, del área rural, tienen mayor tasa de aprobación, una tasa de abandono de 10%

y

la

matriculación en el nivel primario tiene un promedio de 6 alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario.

El segundo cluster se caracteriza por unidades educativas fiscales del área rural pero que no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos grupos y la distribución de la matrícula en todos los niveles es casi homogénea. El tercer cluster se caracteriza por unidades educativas urbanas, en su mayoría son fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación

94

en todos los niveles

. con un promedio de 516 alumnos efectivos y tienen menor tasa de

abandono.

Analizando los grupos anteriores, se puede distinguir los siguientes patrones de comportamiento:

"Si la matrícula es menor a cincuenta y es de tipo multigrado y rural, entonces la tasa de aprobación es mayor que 97%".

"Si la distribución de la matrícula en primaria es similar a la de secundaria y pertenecen al área rural, entonces tienen mayor tasa de abandono"

"Si se tiene mayor matriculación y menor tasa de abandono y una tasa de aprobación menor que 97%, entonces pertenece al área urbana" .

" A mayor tasa de aprobación, entonces existe menor tasa de abandono".

" A menor matrícula, entonces existe mayor tasa de aprobación".

Aplicando árboles de decisión se encontró las siguientes reglas:

Regla 1 Si multigrado = si entonces pertenece al Cluster 0. (2.560 instancias)

Regla 2 Si multigrado = no y área = rural entonces pertenece al Cluster 1. (483 instancias)

95

.

Regla 3 Si multigrado = no y área = urbana entonces pertenece al Cluster 2 (966 instancias).

Analizando estas reglas se tiene que el algoritmo k-means para la segmentación en tres grupos se ha basado principalmente en los atributos multigrado y área.

Según la información preexistente la mayor tasa de analfabetismo, deserción escolar y baja escolaridad se registran en el área rural. La tasa de aprobación en el área rural de la gestión 2005 a nivel nacional

es 93 por ciento en el nivel primario y 83 por ciento en el nivel

secundario, sin embargo en el área urbana se tiene 83 por ciento en el nivel primario y 84 por ciento en el nivel secundario. La tasa de abandono escolar rural es de 7 por ciento y urbano de 5,5 por ciento; el factor para el abandono escolar es la pobreza, los niños y niñas de las familias pobres se insertan tempranamente al mundo laboral y abandonan el sistema educativo En general, la mayor tasa de abandono se presenta en el nivel secundario del área rural, por su parte la tasa de abandono del nivel primario del área urbana es la que presenta tasas no muy alarmantes pero significativas.

Los patrones de comportamiento encontrados coinciden con los aspectos de los indicadores existentes, por ejemplo el algoritmo de minería de datos ha segmentado en dos grupos a las unidades educativas del área rural, una con mayor tasa de abandono porque de hecho incluye el nivel secundario y el otro grupo con menor tasa de abandono pero mayor tasa de aprobación porque en su mayoría pertenecen al nivel primario.

4.2 CONTINUANDO CON EL PROCESO DE FORMA ITERATIVA PARA REFORZAR Y COMPLEMENTAR LOS RESULTADOS.

Después de haber realizado el

proceso de

minería de datos, como ya se mencionó

anteriormente un aspecto que se debe tomar en cuenta es el hecho de que el proceso metodológico para el descubrimiento de conocimiento puede ser de forma iterativa, por tal motivo para reforzar y complementar los resultados del proyecto se ha realizado varias 96

. pruebas con el mismo data set (La Paz 2005). A continuación se muestra a detalle éstos

resultados.

Aplicando árboles de decisión con el atributo dependencia se han generado la siguientes reglas:

Regla 1 Si área =rural entonces es fiscal (3.038 instancias)

Regla 2 Si área = urbana y matrícula en Primero de Secundaria >33 y tasa de abandono >0.06 entonces es fiscal (114 instancias)

Regla 3 Si matrícula en cuarto de secundaria >22 y tasa de aprobación >0.97 y tasa de abandono <=0.15 entonces es privado(80 instancias)

Regla 4 Si área = urbano y Matrícula en quinto de primaria <=38 y Tasa de aprobación >0.92 entonces es privado (127 instancias)

Para comparar y reforzar estas reglas se ha realizado pruebas aplicando reglas de asociación específicamente el algoritmo a priori que proporciona la herramienta Weka. Los resultados obtenidos se muestran mediante las siguientes inferencias encontradas:

97

. "La tasa de aprobación es de 1 en 2.231 UE de tipo multigrado con una confianza del 100%".

" Si la matrícula en 4to de secundaria es cero y la tasa de aprobación es uno, entonces pertenece al área rural, con una confianza de 94% en 2.561 instancias "

"Si una UE es de tipo multigrado y tiene una matrícula en primaria menor a 10, entonces pertenece al área rural. Esta regla se cumple en 1.086 UE con una confianza de 100%."

"Si la tasa de aprobación es 1 y la matrícula en 8vo de primaria es cero, entonces

la

matrícula en 7mo de primaria es cero, con una confianza de 97% en 2.040 instancias".

"Si la tasa de abandono

están en el rango de 0 a 0,1, entonces no pertenecen a

multigrado, con una confianza de 100% en 305 instancias".

"Si la tasa de aprobación

es menor o igual a 0.9, entonces no pertenecen a multigrado,

con una confianza de 100% en 186 instancias".

Como hay muchas UE que tienen sólo el nivel inicial, o el nivel primario o sólo el nivel secundario, generan varios ceros por lo que aplicando Clustering la media puede variar enormemente. Por este motivo se ha agrupado por niveles, por ejemplo en el nivel inicial hay 1.893 UE con matriculación mayor a cero en todos los grados de este nivel.

Nivel Inicial

Por lo tanto se conforma un data set con 1.893 instancias y se procede a aplicar Clustering. Los centroides encontrados se muestra en la Tabla IV.1

Cluster

P_INI0

P_INI1

P_INI2

MAT_INI0

MAT_INI1

MAT_INI2

EFECTIVOS RET_TRASL

RET_ABAN

Cluster 0

0

0

1.751

0

0

55.4434

528.9746

6.6628

20.9307

Cluster 1

0

0

1

0

0

8.0721

60.0889

0.1954

6.012

Cluster 2

0

0

1.109

0

0

23.0616

233.2322

1.1043

20.8294

98

. T_APROB

T_ABAND

MULTIG

DEPEN

AREA

0.9852

0.0744

0

1.6028

2

0.9944

0.0966

1

1.0392

1

0.9858

0.0954

0

1.0995

1

Cluster 0

433 ( 23%)

Cluster 1

1249 ( 66%)

Cluster 2

211 ( 11%)

Tabla IV.1. Tabla de centroides (Nivel Inicial)

El comportamiento de los grupos es similar a los encontrados con el total de instancias (4.009 instancias), pero se añade la información de que en el grupo de UE

multigrado del área

rural se tienen un promedio de 8 alumnos por paralelo en el nivel inicial, sin embargo en el grupo de las UE no multigrado del área rural se tiene un promedio de 23 alumnos por paralelo, y en el grupo de las UE del área urbana se tiene un promedio de 27 alumnos por paralelo.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.1. Se observa

también

que el árbol

representado en la anterior figura es similar al árbol

encontrado con el total de instancias.

a b c <-- classified as 1249 0 0 | a = cluster1 0 211 0 | b = cluster2 0 0 433 | c = cluster0 Figura IV.1. Árbol de decisión ( Nivel Inicial )

99

. 1ero a 5to de Primaria

Hay 2.307 UE que tienen una matrícula mayor a cero en los cursos de 1ro a 5to de primaria. Aplicando clustering se ha encontrado los centroides mostrados en la tabla III.

CLUSTER

P_PRIM1

P_PRIM2

P_PRIM3

P_PRIM4

P_PRIM5 MAT_PRIM1 MAT_PRIM2 MAT_PRIM3 MAT_PRIM4

Cluster 0

1.0019

1

1

1

1

8.6027

7.5278

7.4299

8.3109

Cluster 1

1.8532

1.7941

1.7831

1.7601

1.77

53.2968

51.0515

50.7021

50.5498

Cluster 2

1.0011

1.0011

1.0023

1.0023

1.0057

9.63

8.0859

7.9404

8.6804

CLUSTER

MAT_PRIM5 EFECTIVOS RET_TRAS RET_ABAN T_APROB T _ABAND MULTIG

DEPEND

AREA

Cluster 0

8.5969

76.8733

0.3704

13.572

0.988

0.1871

1

1.0269

1.0019

Cluster 1

50.789

449.809

5.7656

21.104

0.9832

0.0818

0

1.5235

1.736

Cluster 2

8.8981

68.3265

0.1649

3.7171

0.9946

0.0513

1

1.0779

1.0034

Cluster 0

521 ( 23%)

Cluster 1

913 ( 40%)

Cluster 2

873 ( 38%)

Tabla IV.2. Tabla de centroides (1ero -5o de Primaria)

Otro conocimiento que se aporta con el análisis de éstos grupos es que: en el nivel primario, si pertenece al área rural entonces es de tipo multigrado y tienen un promedio de 8 alumnos por paralelo, esto significa que hay pocas unidades educativas de este nivel que pertenecen al área rural pero que no son de tipo multigrado. Además se observa que en un grupo de 521 instancias de tipo multigrado se tiene mayor tasa de abandono expresado en un porcentaje de 18,7%. El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.2.

100

.

a b c <-- classified as 514 0 7 | a = cluster0 0 913 0 | b = cluster1 6 0 867 | c = cluster2 Figura IV.2 Árbol de decisión ( 1ro a 5to de Primaria)

Observando el árbol se obtiene las siguientes reglas: Regla 1 Si multigrado = no entonces pertenece al Cluster 1 (913 instancias)

Regla 2 Si multigrado = si y tasa de abandono <=0.11 entonces pertenece al Cluster 2. (834 instancias)

101

.

Regla 3 Si multigrado = si y tasa de abandono >0.12 entonces pertenece al Cluster 0 (485 instancias)

Regla 4 Si multigrado = si y tasa de abandono =0.12 y efectivos<=62 entonces pertenece al Cluster 2. (37 instancias)

6to a 8vo de Primaria

Se tiene un total de 1327 instancias con matrícula distinto de cero de 6to a 8vo de Primaria. La tabla de centroides se muestra en la siguiente Tabla IV.3 CLUSTER

P_PRIM6

P_PRIM7

P_PRIM8

Cluster 0

1.2732

1.2488

1.2683

32.4049

30.5805

32.8244

425.77

6.4537

Cluster 1

1.0776

1.0803

1.0857

18.2952

18.0259

17.098

155.1728

0.7524

Cluster 2

2.3953

2.3669

2.3127

79.5349

78.3566

76.0413

633.6408

7.1137

MULTIG

DEPEN

AREA

RET_ABAN T_APROB T_ABAND

MAT_PRIM6 MAT_PRIM7 MAT_PRIM8

13.04

0.9799

0.0665

0

2.95

1.98

16.7252

0.9794

0.1223

0.702

1.065

1

36.1602

0.9555

0.0925

0

1.1

2

Cluster 0

433 (15%)

Cluster 1

1249 ( 55%)

Cluster 2

211 (29%)

EFECTIVOS RET_TRASL

Tabla IV.3. Tabla de centroides (6to -8vo de Primaria)

De 6to a 8vo de primaria, pertenecientes al grupo del área rural se tiene menor cantidad de unidades educativas multigrado comparado con 1ro a 5to de primaria, sin embargo en el grupo del área urbana se incrementa la matrícula, llegando a un promedio de 77 alumnos distribuidos en aproximadamente dos paralelos, esto en las UE fiscales, en cambio en las UE privadas se tiene un promedio de 32 alumnos.

102

.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.3

a b c <-- classified as 734 0 1 | a = cluster1 3 202 0 | b = cluster0 0 1 386 | c = cluster2 Figura IV.3 Árbol de decisión (6to -8vo de Primaria)

Observando el árbol se obtiene las siguientes reglas:

Regla 1 Si área = fiscal entonces pertenece al Cluster 1(737 instancias)

Regla 2 Si área = urbano

y dependencia= privado entonces pertenece al Cluster 0(193 instancias)

103

.

Regla 3 Si área = urbano

y dependencia= fiscal entonces pertenece al Cluster 2(350instancias)

Regla 4 Si área = urbano

y dependencia= convenio y matrícula de 6to de primaria >58 entonces pertenece al Cluster 2(37instancias)

Regla 5 Si área = urbano

y dependencia= convenio y matrícula de 6to de primaria <=58 entonces pertenece al Cluster 0(10instancias)

Nivel Secundario

Hay 949 UE que tienen el nivel Secundario de 1ro a 4to. La tabla de centroides se muestra en la Tabla IV.4 P_SEC1

P_SEC2

P_SEC3

P_SEC4

MAT_SEC1 MAT_SEC2 MAT_SEC3 MAT_SEC4

Cluster 0

2.25

2.0714

1.9769

1.8151

77.1239

71.1618

68.6387

62.0567

Cluster 1

1.3186

1.2271

1.1672

1.1262

30.7855

25.8549

23.4385

21.1672

Cluster 2

1.0192

1

0.9872

1

15.8974

12.9423

11.5833

10.3397

EFECTIVOS RET_TRAS RET_ABAND T_ APROB T_ ABAND MULTIG

DEPEND

AREA

Cluster 0

595.029

7.3025

33.111

0.9488

0.0907

0

1.8592

2

Cluster 1

206.962

1.1009

20.281

0.9519

0.1212

0

1.1136

1

Cluster 2

158.596

0.4872

21.821

0.9688

0.1487

1

1.0641

1.0064

Cluster 0

476 ( 50%)

Cluster 1

317 ( 33%)

Cluster 2

156 ( 16%)

Tabla IV.4 Tabla de centroides (Secundaria)

104

. El Cluster 0 es el que más instancias tiene, se caracteriza por UE del área urbana, en su

mayoría son privadas y de convenio, tienen un tasa de aprobación y de abandono menor que los dos grupos la matriculación en secundaria disminuye de 77 en primero de secundaria a 62 en 4to de secundaria.

El cluster 1 representa UE rurales que no son multigrado, la matrícula en secundaria reduce de 31 en 1ero de Secundaria a 21 en 4to de secundaria.

El cluster2 representa UE multigrado rurales con mayor tasa de abandono, la matrícula en secundaria reduce de 16 en 1ero de Secundaria a 10 en 4to de secundaria.

El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.4

a b c <-- classified as 317 0 0 | a = cluster1 0 156 0 | b = cluster2 0 0 476 | c = cluster0 Figura IV.4 Árbol de decisión (Secundaria)

Observando el árbol se obtiene las siguientes reglas: Regla 1 Si multigrado = si entonces pertenece al Cluster 2 (156 instancias)

105

.

Regla 2 Si multigrado = no y área = urbano entonces pertenece al Cluster 0. (476 instancias)

Regla 3 Si multigrado = no y área = rural entonces pertenece al Cluster 1. (317 instancias). 4.3 CONCLUSIONES DEL CAPÍTULO

Los patrones de conocimiento encontrados son válidos porque se adecuan al estado situacional de la educación formal. Estos patrones dan mayor valor agregado al conocimiento del Sistema de Información Educativa

generando varios patrones de conocimiento que coadyuvan a los insumos

necesarios de la línea base para la construcción del Plan Estratégico Sectorial De esta forma, se ha cumplido con los objetivos planteados en el presente proyecto.

106

.

CAPITULO V CONCLUSIONES Y RECOMENDACIONES

5.1 CONCLUSIONES

Aplicar minería de datos a la fuente del sistema de información educativa resulta útil por el crecimiento de la cantidad de información

y por el aporte de conocimiento mediante

patrones de comportamiento de la población estudiantil en el sector educativo.

En el desarrollo metodológico del proyecto para la extracción de conocimiento las etapas más tediosas fueron la preparación y transformación de datos, es decir la conformación del data set. De hecho los resultados que se obtengan después de aplicar una técnica de minería de datos van ha depender de la calidad del data set, es por este motivo que muchas veces se debe trabajar de forma iterativa.

Se ha mostrado en el desarrollo del proyecto que Weka es una herramienta muy potente porque no sólo contiene un conjunto de técnicas de Minería de datos, si no que tiene herramientas como el preprocesamiento y la visualización para mostrar la dispersión de los datos.

La técnica de clustering resulta adecuada para la segmentación en grupos de la población estudiantil y la detección de patrones de estos grupos resultaron válidos en el sentido de que se han comparado con los indicadores existentes.

107

La exploración de datos

mediante visualización multidimensional

aprovecha

. la gran

capacidad humana de ver por ejemplo tendencias o patrones a partir de los datos, de esta forma se aprovecha esta capacidad para facilitar la comprensión de datos.

5.2 RECOMENDACIONES

Con la experiencia obtenida después del desarrollo del proyecto se concluye las siguientes recomendaciones:

Se debe tener un objetivo claro antes de proceder a las siguientes etapas y se debe fortalecer este objetivo aclarando la idea de que patrones se quieren extraer, para ello se puede utilizar herramientas de exploración de datos.

Se debe tener mucho cuidado con los valores ruidosos , o posiblemente erróneos porque pueden afectar de gran manera a los patrones encontrados.

Para una buena segmentación aplicando clustering, es importante determinar el número de clusters adecuado que puede realizárselo mediante un análisis de distancias.

108

.

REFERENCIAS [Aguilar, 2003] Aguilar Quispe,R (2003): " Minería de Datos: Fundamentos, Técnicas y Aplicaciones. [Ale, 2005a] Ale, J., 2005a. Análisis de Clusters. [Ale, 2005b] Ale, J., 2005b. Introducción a Data Mining. [Chen, 1996] Chen, M., J. Han, 1996. Data mining: An overview from database perspective. IEEE Transactions on Knowledge and Data Eng. [Cheeseman, 1996] Cheeseman, P., J. Stutz, 1996. Bayesian classification (AutoClass): Theory and results. In U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining. [Cleveland, 1993] W (1993). "Visualizing Data, Hobar Press, 1993" [Cabena,1998] Cabena P. Hadjinian, P, Stadler, R., Verhees (1998)Discovering data mining From concept to implementation [Garcia, 2005] Garcia Morate D ( 2005) Manual de Weka [Fayyad, 1996] Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R. (eds). 1996 Advances in Knowledge Discovery and Data Mining. [Fisher, 1996] Fisher, D., 1996. Iterative optimization and simplification of hierarchical clusterings. Departament of Computer Science. Vanderbilt University, Nashville, EEUU. [Han, 2006] Han, Jiawei., M. Kamber, 2006. Data mining: Concepts and techniques. [Hernández, 2004] Hernández Orallo, J., 2004 Introducción a la Minería de Datos. [Kaufman, 1990] Kaufman, L., P. J. Rousseeuw, 1990. Finding Groups in Data: an Introduction to Cluster Analysis. Wiley-Interscience. [Kohonen, 1995] Kohonen, T., 1995. Self-Organizing Maps. Springer-Verlag. [Larose, 2005] Larose, D., 2005 Discovering Knowledge in Data. An Introduction to Data Mining. Central Connecticut State University. Published by John Wiley & Sons, Inc., Hoboken, New Jersey. [MacQueen. 1967] MacQueen. 1967 “Some methods for classification and analysis of multivariate observations”. Proc. 5th Berkeley Symp. Math. Statisi. [Marcano, 2007] Marcano,Y ., Talavera,R.2007. Minería de Datos como soporte a la toma de decisiones empresariales Universidad del Zulia 109

. [Michalski, 1998] Michalski R., I. Bratko, M. Kubat, 1998. Machine Learning and data mining: Methods and Applications. Wiley & Sons Ltd., EE.UU.

[Mirkini, 2005] Mirkin Boris 2005. Clustering for Data Mining. A data Recovery Approach. [Molina, 2006] Molina, J., García J. 2006 Técnias de Análisis de Datos Aplicaciones prácticas utilizando Microsoft Excel y Weka Universidad Carlos III de Madrid [Moreno, 2001] Moreno,M., Miguel,L.,García, Polo, M.(2001). Aplicación de técnicas de Minería de Datos en la construcción y validación de modelos predictivos y asociativos a partir de especificaciones de requisitos de software. Universidad de Salamanca. [Ochoa, 2004] Ochoa, M. A. 2004. Herramientas Inteligentes para la Explotación de Información. Trabajo Final: Especialidad en Ingeniería en Sistemas Expertos, Instituto Tecnológico de Buenos Aires (ITBA). [Olvera, 2005] Olvera, A., Carrasco,A. 2005. Edición de muestras basada en búsqueda secuencial Coordinación de Ciencias Computacionales INAOE [Pyle, 1999] Pyle, Dorian 1999. Data Preparation for Data Mining Published 1999 Morgan Kaufmann. [Thurn, 1998] Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. 1998 Automated Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field. CMU-CALD-98-100 [Wang, 2004] Wang, G.A., H. Atabakhsh, T.Petersen, H.Chen, 2004. Discovering Identity Problems a Case Study. [Witten, 2000] Witten, I.H., Frank, E. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Diego, EE.UU. [Weiss, 1998] Weiss,S., Indurkhya,N. 1998. Predictive Data Mining a Practical Guide Weka, 2007. University of Waikato. URL:http://www.cs.waikato.ac.nz/~ml/weka/index.html. Acceso mayo 2007.

110

Related Documents

1122
June 2020 11
1122
June 2020 11
1122.docx
December 2019 29
Data Pipeline 1122
June 2020 13
1122-5272-2-pb.pdf
November 2019 16