. UNIVERSIDAD MAYOR DE SAN ANDRÉS FACULTAD DE CIENCIAS PURAS Y NATURALES CARRERA DE INFORMÁTICA
“PROYECTO DE GRADO” TEMA: “MINERIA DE DATOS EN EL SISTEMA DE INFORMACIÓN EDUCATIVA CASO: EDUCACIÓN FORMAL”
POSTULANTE:
GLIZETH ROJAS FERNÁNDEZ
DOCENTE TUTOR:
Msc. MARIO LOAYZA MOLINA
DOCENTE REVISOR: Lic. MENFY MORALES RIOS
La Paz - Bolivia
1
.
AGRADECIMIENTOS A Dios por guiar mi camino para alcanzar esta etapa de mi vida.
Al
Dr. Ing. Ramiro Aguilar Quispe, por su gran apoyo en el desarrollo del proyecto, por sus
contribuciones
y su generosa disposición para realizar las correcciones que han permitido
concluir el presente proyecto.
A la Lic. Menfy Morales Ríos, por su disponibilidad en el proceso de revisión del proyecto, por sus sugerencias y su valiosas recomendaciones.
Al Lic. Mario Loayza Molina, por la confianza depositada y por haberme guiado en el desarrollo del proyecto.
Al Ministerio de Educación y Culturas por brindarme la información necesaria y al personal por la colaboración brindada.
A la Lic. Wendy Sotomayor Segales, por sus sugerencias, sus recomendaciones y el incentivo para la realización de este proyecto.
A todos los docentes de la carrera por haberme transmitido sus enseñanzas y paciencia a lo largo de la carrera.
A mis padres por su gran apoyo, su constante aliento y la confianza depositada .
A mis amigos por su gran cariño y amistad en especial a mis amigos: Aleida, Mirian, Zulma, Yolanda, Verónica, Grober, Jheny, Karen, María, Waldir.
2
.
RESUMEN En el presente proyecto se describe la aplicación de Minería de datos sobre los datos de Educación Formal del Sistema de Información Educativa (SIE) del Ministerio de Educación y Culturas para descubrir patrones de comportamiento acerca del sector educativo, para tal efecto se lleva a cabo el proceso de descubrimiento de conocimiento en bases de datos (de las palabras en inglés Knowledge Discovery in Databases - KDD)
Las etapas del proceso incluyen la selección, el preprocesamiento, la transformación, la minería de datos y la interpretación de resultados. En la fase de selección se extraen los atributos de las tablas más relevantes relacionados con la matriculación
del SIE para
unificar en una sola tabla denominada data set, en la etapa de preprocesamiento se utilizan métodos estadísticos y descriptivos para conocer mejor los datos seleccionados y en la etapa de transformación se modifica la forma de los datos.
En la etapa de minería de datos se utiliza la herramienta Weka para aplicar Clustering con el objeto de agrupar los datos para detectar similitudes entre las unidades educativas y también se aplican Árboles de Decisión para tratar de conocer los atributos relevantes en el clustering.
Se desarrolla una herramienta de minería de datos que incluye la visualización de datos de forma multidimensional que constituye una herramienta visual de análisis exploratorio
y
el algoritmo k-means de Clustering.
Palabras Clave: Minería de Datos, Sistema de Información Educativa, Visualización multidimensional, Weka, Clustering, Árboles de Decisión.
3
.
INDICE GENERAL Dedicatoria Agradecimientos Resumen
CAPITULO I
1.1 Introducción ...........................................................................................................
1
1.2 Antecedentes ...........................................................................................................
2
1.3 Planteamiento del problema.....................................................................................
3
1.4 Objetivos..................................................................................................................
4
1.4.1 Objetivo general....................................................................................................
4
1.4.2 Objetivos específicos..................................................................... ......................
4
1.5 Límites y Alcances..................................................................................................
5
1.6 Justificación ............................................................................................................
5
1.6.1 Justificación Técnica.................................. ............................................
5
1.6.2 Justificación Social .................................................................................
5
1.7 Aspectos Metodológicos..........................................................................................
6
CAPITULO II MARCO TEÓRICO
2.1 Aprendizaje Automático...........................................................................................
8
2.2 Minería de Datos....................................................................................................... 9 2.3 Proceso de Extracción de Conocimiento...................................................................
9
2.3.1 Preparación de Datos..................................................................................
12
2.3.1.1 Fase de Selección.........................................................................
12
2.3.1.2 Fase de Preprocesamiento............................................................
13
2.3.2 Transformación ..........................................................................................
14
2.3.3 Exploración de Datos. ..............................................................................
16 4
. 2.3.3.1 Exploración mediante visualización...........................................
17
2.4 Técnicas de Minería de Datos.................................................................................
18
2.5 Agrupamiento (Clustering).....................................................................................
19
2.5.1 Algoritmo k-means...................................................................................
20
2.5.1.1 Medida de distancias ................................................................
22
2.6 Árboles de decisión...............................................................................................
23
2.6.1 Algoritmo ID3..........................................................................................
24
2.6.2 Algoritmo C4.5.........................................................................................
25
2.7 La Educación Formal en Bolivia...........................................................................
27
2.7.1 Sistema de Información Educativa (SIE)................................................
28
2.7.2 Distritos Educativos.................................................................................
29
2.7.3 Población Escolar ...................................................................................
29
2.7.4 Indicadores..............................................................................................
31
2.7.4.1 Tasa de Culminación por Niveles............................................
31
2.7.4.2 Tasa de Aprobación por Niveles.............................................
32
2.7.4.3 Tasa de Abandono por Niveles...............................................
33
2.7.4.4 Rezago Escolar........................................................................
33
2.8 Herramientas de Minería de Datos........................................................................
34
2.8.1 WEKA.....................................................................................................
34
2.8.1.1 Formatos de entrada..................................................................
35
2.8.1.2 Tareas........................................................................................
36
2.8.1.3 Formas de acceso......................................................................
37
2.9 Conclusiones del capítulo.......................................................................................
38
CAPITULO III DESARROLLO
3.1
Análisis de la Fuente de datos del Sistema de Información Educativa.............
39
3.2
Preparación de datos..........................................................................................
43
3.2.1 Fase de Selección.........................................................................
43
3.2.1.1 Consolidación de la Información en un data set..........
47
3.2.2 Fase de Preprocesamiento....................................................... 3.2.2.1 Tratamiento de valores faltantes..............................
50 56
5
. 3.2.2.2 Tratamiento de valores erróneos..............................
56
3.3 Proceso de Transformación ................................................................................
57
3.4 Minería de Datos..................................................................................................
60
3.4.1 Análisis mediante la herramienta de Minería de Datos WEKA.................. 61 3.4.1.1 Aplicación de Clustering.........................................................
66
3.4.1.2 Análisis de distancias para determinar el número de clusters....
65
3.4.1.3 Análisis de los grupos............................................................
67
3.4.1.2 Aplicación de árboles de decisión........................................................
73
3.5 Implementación de la herramienta de minería de datos...........................................
76
3.5.1 Visualización Multidimensional.............................................................
79
3.5.2 Algoritmo k-means..............................................................................
83
3.5.3 Criterios de calidad de la herramienta........................................................ 86 3.5.4 Análisis de los grupos obtenidos por la herramienta. ...............................
86
3.6 Conclusiones del capítulo............................................................................................. 87
CAPITULO IV ANÁLISIS DE RESULTADOS
4.1
Análisis de la Fuente de datos del Sistema de Información Educativa................... 87
4.2
Realización del proceso de forma iterativa para reforzar y complementar los ......90 resultados
3.6 Conclusiones del capítulo.............................................................................................100
CAPITULO V CONCLUSIONES Y RECOMENDACIONES
5.1 Conclusiones.................................................................................................................101 5.2 Recomendaciones ........................................................................................................102 REFERENCIAS ANEXOS
6
.
CAPÍTULO I
1.1 INTRODUCCIÓN La educación en Bolivia es uno de los pilares fundamentales para el desarrollo de nuestro País, es por ello que uno de los objetivos que persigue el Ministerio de Educación y Culturas es brindar una educación con calidad y pertinencia para todos mediante políticas educativas.
Para diseñar políticas educativas es necesario conocer la situación educativa. Una manera de conocer la situación educativa es analizar minuciosamente los datos estadísticos que nos servirán para
encontrar indicadores educativos, índices, frecuencias y otros componentes
del estado situacional de la educación.
Para proveer información para la gestión educativa, se ha desarrollado el Sistema de Información Educativa (SIE) que integra sistemas informáticos con instrumentos de recopilación, procesamiento y difusión de datos educativos. Para el proceso de recopilación, las Unidades Educativas llenan sus datos en formularios y reportan a sus Direcciones Distritales que a su vez, transcriben y validan estos datos, para luego remitirlos al Servicio Departamental de Educación (SEDUCA) que realiza el control de calidad, posteriormente el Ministerio de Educación consolida los datos en el SIE de todos los departamentos a nivel nacional para proporcionar información confiable y oportuna para brindar los insumos y realizar el seguimiento a la ejecución de las políticas educativas. Para todo este proceso se utilizan sistemas informáticos como el Sistema de Información Estadística (SIESTA),
7
. Registro de Unidades Educativas (RUE), Registro Único de Estudiantes (RUDE), Sistema de Infraestructura Educativa (INFRAEDU); todas ellas conforman el SIE.
El SIE comenzó su operación en 1998 y hasta el momento cuenta con una inmensa cantidad de información que debería ser aprovechada en la toma de decisiones. En los últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de forma semiautomática , una de ellas es la Minería de Datos para extraer conocimiento útil y comprensible en grandes cantidades de datos.
En este sentido aplicar técnicas de Minería de datos en el SIE resulta un gran avance para la toma de decisiones y coadyuvará a la formulación de nuevos programas en el área educativa.
1.2 ANTECEDENTES Las necesidades organizacionales en cuanto a requerimientos de información esta creciendo, por lo que surge el concepto de información estratégica que corresponde a la información con una visión global.
El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos ha crecido espectacularmente en las últimas décadas, gran parte de esta información es histórica. Sin embargo, contrariamente a lo que pudiera esperarse, esta explosión de datos no supone un aumento de nuestro conocimiento, puesto que resulta difícil procesarlos con los métodos clásicos.
Para superar este problema, en los últimos años ha surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los mismos de forma automática. La Minería de Datos se define como el proceso no trivial de extraer conocimiento de forma automática o semiautomática desde grandes cantidades de datos[Witten].
8
En el
Ministerio de Educación y Culturas la
primera
publicación
educativos se desarrolló en la gestión 2004 con el libro Bolivia, indicadores, cifras y resultados” Dirección General estadísticos
de
desarrollado por
titulado
sobre
. indicadores
“La Educación en
la Dirección de Análisis
de la
Estrategia Educativa. Esta publicación contiene información y datos
sobre la
población en edad
escolar,
analfabetismo, características
demográficas, económicas y sociales, educación superior y alternativa. Actualmente publicada
en la
está
página web del Ministerio de Educación , en la sección de estadísticas
educativas. A partir de esta
publicación se han realizado
varios informes e indicadores
estadísticos de cada gestión.
Otro de los reportes de de cubos dinámicos
la situación educativa es el Generador de Reportes a través
mediante
un
programa Informático, con el que el usuario puede
realizar un análisis Multidimensional eligiendo
y combinando las variables de interés.
Los informes Estadísticos y los Cubos dinámicos están publicados en la página del Ministerio de Educación para que la población pueda adquirir información sobre la situación educativa.
1. 3 PLANTEAMIENTO DEL PROBLEMA Actualmente el SIE cuenta
con información
de los nueve departamentos desde las
gestiones 1999 hasta el 2007, el tamaño de esta base de datos esta creciendo enormemente, por ejemplo en
el
departamento de La Paz se han registrado 4028, 4053, 4079,
4078, 4137, 4168 y 4159
Unidades Educativas tanto
del área rural
como urbana,
durante las gestiones 2000, 2001, 2002, 2003, 2004, 2005 y 2006 respectivamente. Se puede observar que se va incrementando las Unidades Educativas, este comportamiento también se da en el resto de los
departamentos
por tanto la cantidad de registros
almacenados resulta ser demasiado grande. El análisis de
esta enorme cantidad de
datos resulta dificultoso y supera el alcance de la estadística.
Este problema limita el conocimiento de los datos y puede generar incongruencias en la toma adecuada de decisiones, en las proyecciones
y en las nuevas políticas
que se
requieren para mejorar el sector educativo.
9
Actualmente, el Ministerio cuenta con cuadros estadísticos y herramientas para el análisis de los datos problema de esta información es que
del Sistema de
resulta
gran cantidad de datos. Por otra parte, a pesar herramientas OLAP soportan
no generan
Información Educativa.
El
más descriptiva que cuando se trata de de
cierto análisis
permite transformar los datos en otros
. cubos dinámicos como
que los cubos
dinámicos
y
descriptivo y de "sumarización" que
datos agregados o
cruzados de manera sofisticada,
reglas, patrones, pautas, es decir conocimiento que pueda ser entendido a más
alto nivel. Por tanto, se hace necesario alguna metodología que nos ayude a comprender mejor los datos. Estos problemas y limitaciones han dado lugar al surgimiento de la Minería de Datos, que constituye una herramienta de análisis que permite obtener patrones de conocimiento útil a partir de grandes volúmenes de datos.
1. 4. OBJETIVOS
1.4.1 OBJETIVO GENERAL Aplicar Minería de Datos sobre la base de datos SIE del Ministerio de Educación y Culturas descubriendo patrones
de comportamiento
y características de la población
estudiantil de las Unidades Educativas del área rural y urbana para conocer mejor el sector educativo y apoyar a la toma de decisiones.
1.4.2 OBJETIVOS ESPECÍFICOS 9
Identificar la información a detalle proveniente del sistema de información educativa SIE.
9
Aplicar
el proceso de descubrimiento de conocimiento en bases de datos
KDD para la selección, preparación y transformación de los datos. 9
Utilizar una herramienta ya implementada y gratuita de Minería de Datos denominada WEKA
para la aplicación de técnicas de preprocesado,
agrupamiento y visualización.
10
9
Aplicar
árboles de decisión
para identificar
. modelos de predicción
mediante reglas con la herramienta WEKA 9
Desarrollar una herramienta de minería de datos programado en Delphi utilizando librerías OpenGL para la visualización multidimensional de los datos y para aplicar el algoritmo k-means con el objeto de agrupar las unidades educativas según similitud y características en grupos o clusters distintos
9
Analizar e interpretar los resultados obtenidos.
1. 5
LIMITES Y ALCANCES
Este
proyecto se delimitará en analizar los datos sobre la matriculación
Educación Formal entre las
proporcionada por
gestiones
2000 al
el Sistema
de la
de Información Educativa (SIE)
2006 y no así sobre la Educación Alternativa ni
la Educación Superior. La Educación Formal o Educación Regular se refiere al proceso educativo que consiste los niveles Inicial ( Preescolar), Primaria y Secundaria para la población de, más o menos, 4 a 17 años de edad .
1. 6. JUSTIFICACIÓN
1.6.1 JUSTIFICACIÓN TÉCNICA Las nuevas necesidades , en particular, las nuevas características de los datos en cuanto al volumen y tipología hacen que la Minería de Datos sea una herramienta importante para un análisis minusioso y útil para la toma de decisiones. Gracias al avance de la tecnología se puede implementar los algoritmos de Minería de Datos en Sistemas Informáticos que
son capaces de procesar
la enorme cantidad de
datos. En este proyecto se realizará la implementación de técnicas de Minería de Datos y de visualización para que pueda ser utilizada en el área de análisis. Además se propone aplicar técnicas y herramientas de Minería de Datos mediante un software gratuito WEKA por contar con distribución libre, interfaz gráfica amigable y su fácil manejo, que será útil para comparar los resultados obtenidos con el programa diseñado.
11
. 1.6.2 JUSTIFICACIÓN SOCIAL El Equipo de Indicadores e Investigación Sectorial del Ministerio de Educación busca aplicar tecnologías Matemáticas e Informáticas para entender mejor los datos del Sistema de Información Educativa, de esta manera aplicar Minería de datos resulta adecuado para coadyuvar a la toma de decisiones. La Minería de Datos no obtiene información extensional o descriptiva, sino intencional es decir conocimiento que por lo general no es una parametrización de ningún modelo preestablecido o intuido por el usuario, sino que es un modelo novedoso y original. Por otro lado, el análisis visual de los datos aprovecha la gran capacidad humana para facilitar la compresión de los datos a partir de imágenes, es por ello que en el proyecto se realizará una herramienta de visualización y exploración de datos para su mejor comprensión y sugerir posibles patrones.
1.7
ASPECTOS METODOLÓGICOS
Para el desarrollo del proyecto se utilizará el proceso de extracción de conocimiento en base de datos KDD que tiene las siguientes etapas: ¾
Preparación de datos
Selección de datos
Preprocesamiento
¾
Transformación de datos
¾
Minería de datos
¾
Interpretación y Evaluación.
Preparación de Datos:
En esta etapa se crea el conjunto de datos , seleccionando y
preparando el subconjunto de variables sobre los que se realizará el descubrimiento. El procesamiento de datos incluye las fases de Selección y Preprocesamiento.
Selección de Datos:
En esta fase se realiza la extracción de los datos relevantes para el
análisis siguiendo los objetivos trazados a un principio.
12
. Preprocesamiento: El objetivo del preprocesamiento es asegurar la calidad de los datos seleccionados, para ello se utiliza una combinación de métodos estadísticos y técnicas de visualización de datos como Distribución de frecuencia, histogramas, gráficos de dispersión, Con la ayuda de los resúmenes y
características de los
valores nominales se puede
determinar fácilmente valores faltantes y valores erróneos.
Transformación de datos:
La transformación
de datos engloba cualquier proceso que
modifique la forma de los datos para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos. Las operaciones que transforman los datos son: Reducción de dimensionalidad por transformación, el aumento de dimensionalidad mediante núcleos, la discretización y la numeración.
Minería de datos: La fase de Minería de Datos es la más característica del KDD. El objetivo de esta fase es producir nuevo
conocimiento que pueda utilizar el usuario.
construyendo un modelo basado en los datos recopilados descripción
de los
patrones y relaciones
Esto ser realiza
para este efecto. El modelo de
entre los datos que pueden usarse para hacer
predicciones , para entender los datos o para explicar situaciones pasadas.
Interpretación y Evaluación: Idealmente, los patrones descubiertos deben tener tres cualidades: ser precisos, comprensibles e interesantes.
13
.
CAPÍTULO II MARCO TEORICO
2.1 APRENDIZAJE AUTOMÁTICO El Aprendizaje Automático (Machine Learning) es el campo dedicado al desarrollo de métodos
computacionales para los procesos de aprendizaje. Estos programas
computacionales son
sistemas de aprendizaje capaces de
adquirir conocimientos,
estrategias para la resolución de problemas mediante ejemplos, hechos o
descripciones
[Michalski, 1998].
Los sistemas de Aprendizaje Automático tienen la intención de construir un modelo a partir de los datos de entrada y cambian su comportamiento de manera tal que son capaces de clasificar nuevos datos y desarrollarse mejor en antiguas situaciones, es decir los sistemas son capaces de aprender. Aún no sabemos, sin embargo, cómo hacer para que los sistemas aprendan en el mismo grado que los humanos [Mitchell, 1997]. Por lo que, debemos preguntarnos cómo aprenden los seres humanos y analizar si los si los sistemas son capaces de aprender de la misma manera. Los humanos aprendemos mediante tres mecanismos distinguibles: inducción, deducción y abducción. Podemos afirmar que los sistemas aprenden cuando son capaces de generar nuevos conocimientos, por cualquiera de los tres métodos anteriores [Monter, 2001]. En un sistema de Aprendizaje Automático, dicha generación de conocimientos se realiza cuando los datos se transforman a un nivel superior que nos es más útil. Pero, ¿por qué y para qué lograr este aprendizaje?. Algunas razones ingenieriles son [Aguilar, 2003]:
14
•
. Algunas tareas no pueden ser definidas excepto por ejemplos; esto es, se pueden disponer de pares de entrada y salida pero no se puede explicar una relación concisa entre ellas. Entonces, se necesitan máquinas que ajusten sus estructuras internas aprendiendo enormes cantidades de ejemplos y posteriormente emitan una salida coherente a la vez que generen una función aproximada con la relación implícita de los ejemplos.
•
Es posible la existencia de enormes cantidades
de estructuras de datos con
importantes relaciones y correlaciones. Los métodos del Aprendizaje Automático se usan para extraer esas relaciones. •
Típicamente, el diseñador humano produce máquinas que deben trabajar en los entornos en los cuales son usados. Sería interesante que la mejora de estas máquinas se haga de forma automática en base a la experiencia.
•
Generalmente, la cantidad disponible de conocimiento sobre ciertas tareas es difícil de codificar explícitamente por los humanos.
Las
máquinas pueden aprender
gradualmente ese conocimiento. •
Los entornos cambian en el tiempo. Las máquinas pueden adaptarse a estos cambios reduciendo la constante necesidad de rediseño.
2.2 MINERIA DE DATOS Se define a la Minería de Datos como el proceso no trivial de extraer conocimiento útil y comprensible de forma automática o semiautomática, previamente desconocido, desde grandes cantidades de datos. Es decir, la tarea fundamental de la Minería de Datos es encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o semi-automático y el uso de los patrones descubiertos debería ayudar a la toma de decisiones [Witten, 2000] .
La Minería de Datos como parte del proceso de descubrimiento de conocimiento y como la aplicación de los algoritmos para obtener patrones proclives a ser traducidos en
15
. conocimiento, elementalmente busca predecir y descubrir. La predicción involucra el uso de algunas variables o atributos en el conjunto de datos para predecir otras variables de interés o características desconocidas. La descripción se enfoca en busca de patrones humanamente interpretables que divulguen a los datos. En este entendido, la Minería de Datos puede entenderse como un proceso dual de síntesis ( predicción) y análisis (descripción) sobre los datos [Aguilar, 2003].
Según algunos autores [Fayyad, 1996], la Minería de Datos como análisis de información sólo es un paso en todo el proceso de descubrimiento de conocimiento, pero actualmente se considera la Minería de Datos como todo el proceso de descubrimiento de conocimiento como el núcleo fundamental dentro del contexto de la ingeniería del conocimiento [Aguilar, 2003].
Por lo
tanto, se considera a la
Minería de Datos como el proceso de extracción de
conocimiento de forma automática o semiautomática, desde grandes cantidades de datos y representa el núcleo fundamental dentro del proceso de descubrimiento de conocimiento en bases de datos.
2.3 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO El descubrimiento de conocimiento en bases de datos que proviene del inglés "Knowledge Discovery in Databases" (KDD), se define como el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles a partir de los datos [Fayyad, 1996].
El proceso de descubrimiento de conocimiento se organiza entorno a cinco fases como se ilustra en la Figura II.1. Se muestra además que es un proceso iterativo e interactivo. Es iterativo ya que la salida de alguna de las fases puede
hacer volver a pasos anteriores y
porque a menudo son necesarias varias iteraciones para descubrir conocimiento de alta calidad. Es interactivo porque el usuario o un experto en el dominio del problema debe ayudar en la preparación de los datos, validación del conocimiento, etc [Fayyad 1996].
16
. El proceso de descubrimiento de conocimiento se divide en las siguientes etapas [Fayyad 1996]: •
Determinación de objetivos: generales y específicos.
•
Preparación de datos: o Selección o Preprocesamiento .
•
Transformación: conversión de datos a un modelo analítico
•
Minería de datos : tratamiento automatizado de los datos seleccionados con una combinación apropiada de técnicas y algoritmos.
•
Análisis de resultados : interpretación de los resultados obtenidos en la etapa anterior generalmente con la ayuda de una técnica de visualización.
•
Asimilación del conocimiento: aplicación del conocimiento descubierto a los negocios, investigaciones, etc. Interpretación y evaluación Minería de datos Transformación Preprocesamiento Conocimiento
Selección de datos Patrones
Datos Preprocesados
Datos transformados
Datos seleccionados
Datos
Figura II.1. Etapas del Proceso KDD [Fayyad, 1996 ]
Además de las fases descritas en la Figura II.1 frecuentemente se incluye una fase previa de análisis de las necesidades de la organización y definición del problema en la que se establecen los objetivos de minería de datos [Hernández, 2000].
17
. 2.3.1 PREPARACIÓN DE DATOS En algunos casos, y dependiendo de la aplicación, los datos necesarios para poder llevar a cabo un proceso de KDD pertenecen a diferentes organizaciones, a distintos departamentos de una misma entidad. Esto representa un reto, ya que cada fuente de datos usa diferentes formatos de registro, diferentes claves primarias, diferentes tipos de error, etc. Lo primero por lo tanto, es integrar todos estos datos mediante la tecnología de almacenes de datos ( Data Warehousing) [Hernández, 2004].
Un almacén de datos es un repositorio de información coleccionada desde varias fuentes, almacenadas bajo un esquema unificado que normalmente reside en un único emplazamiento [John Wang, 2005].
Esencialmente, los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base de datos multidimensional. Esta visión multidimensional hace a los almacenes de datos adecuados para el procesamiento analítico en línea ( on-line analytical processing, OLAP).
Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. En realidad, se puede hacer minería de datos sobre un simple archivo de datos [John Wang, 2005].
Un aspecto muy importante a la hora de realizar los procesos de integración limpieza, selección y transformación es que se debe conocer el dominio de donde provienen los datos [Cabena, 1998].
El proceso de preparación de datos incluye las fases de Selección y Preprocesamiento. A continuación se desarrollan estas fases.
2.3.1.1
FASE DE SELECCIÓN
En esta fase se realiza la extracción de los datos relevantes para el análisis siguiendo los objetivos trazados a un principio. La calidad del conocimiento descubierto no sólo depende del algoritmo de minería utilizado, sino también de la calidad de los datos. Por lo tanto,
18
. después de la recopilación, el siguiente paso en el proceso es seleccionar y preparar el subconjunto de datos sobre los que se realizará el descubrimiento [Hernández, 2004]. Se selecciona los datos con variables de tipo [Aguilar, 2003]: Clasificatorias: que toman valores finitos y difieren en el tipo. Nominales: nombran el tipo de objeto sin establecer un orden Ordinales: sus valores posibles tienen un orden.
Cuantitativas: existe una diferencia medible entre los valores posibles. Continuas: sus valores son números reales Discretas: sus valores son números enteros.
Las variables seleccionadas para minería de datos se llaman variables activas. En esta etapa hay que determinar la estabilidad de las variables y tener en cuenta los algoritmos posibles de minería para tratar esos datos [Aguilar, 2003].
2.3.1.2
FASE DE PREPROCESAMIENTO
Cuando los datos se encuentran integrados lo primero que se debe realizar es un resumen de las características de atributos, con la ayuda de éstos resúmenes y características de los valores nominales se puede determinar fácilmente valores faltantes y valores erróneos. En el resumen se muestran las características
generales de los atributos (medias, mínimos,
máximos, posibles valores) [Han, 2006].
Valores Faltantes: es importante detectar valores faltantes porque minería de datos requieren datos completos para llevar a cabo
muchas tareas de
un algoritmo. Para los
valores faltantes se debe seguir las fases de detección y tratamiento.
Tanto
para la
detección, como para su tratamiento posterior, es importante saber el porqué de los valores faltantes. Algunos valores faltantes expresan características relevantes, otros valores no existen o simplemente son datos incompletos [Hernández, 2004].
Si se han conseguido establecer los datos faltantes e, idealmente, sus causas, se procederá a su tratamiento. Un método es reemplazar la información faltante por la media o la moda del atributo [Ochoa, 2004]. Pero existen otras acciones que se mencionan a continuación:
19
. •
Ignorar, algunos algoritmos son robustos a datos faltantes
•
Eliminar, filtrar o reemplazar toda la columna
•
Filtrar la fila, claramente sesga los datos.
•
Reemplazar el valor, se puede reemplazar por un valor que preserve la media o la varianza.
•
Segmentar, se segmentan las tuplas por los valores que tienen disponibles.
Valores erróneos: son valores en la que una o más variables tienen valores que están significativamente fuera de la línea del valor promedio que es espera para esas variables. Del mismo modo que para los campos faltantes, se debe distinguir entre la detección y el tratamiento de los mismos, los tratamientos sobre datos erróneos son [Hernández, 2004]. : •
Ignorar, algunos algoritmos son robustos a datos anómalos
•
Filtrar la columna, solución extrema
•
Filtrar la fila, puede sesgar los datos
•
Reemplazar el valor, por el valor 'nulo' o predecir a partir de otros datos.
•
Discretizar, transformar un valor continuo en uno discreto.
2.3.2 TRANSFORMACIÓN La transformación de datos engloba cualquier proceso que modifique la forma de los datos para que se refinen y ajusten a los requisitos de entrada del algoritmo de minería de datos [Pyle, 1999] Las operaciones que transforman los datos son: Reducción de dimensionalidad, aumento de dimensionalidad, discretización, numeración
y normalización [Hernández,
2004].
Discretización La discretización o cuantización es la conversión de un valor numérico a un valor nominal ordenado. No obstante, el orden del atributo nominal puede ser preservado y utilizado por los pasos subsiguientes o bien puede olvidarse y tratarse el atributo como un valor nominal sin orden [Hernández, 2004].
20
. Numerización Es el proceso inverso a la discretización. Aunque es menos común que la discretización, también existen casos donde puede ser extremadamente útil, especialmente cuando el método de Minería de Datos que se vamos a utilizar no admite datos nominales por ejemplo regresión lineal [Hernández, 2004].
Normalización Las variables tienden a tener rangos que varían mucho de unos a otros. Por ejemplo, si en las Ligas de Béisbol, los jugadores promedios de bateo que van desde cero a menos de 0.4, mientras que el número de cuadrangulares éxito en una temporada que van desde cero
a
alrededor de 70. Para algunos algoritmos de minería de datos, tales diferencias en los rangos dan lugar a una tendencia a que la variable con mayor rango va ha tener una
influencia
indebida sobre los resultados. Por lo tanto, antes de aplicar un algoritmo los datos, se deben normalizar sus variables numéricas, para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. Existen varias técnicas. Existen varias técnicas para la normalización, y vamos a examinar dos de los métodos más frecuentes: Normalización MinMax y la Estandarización Z-Score [Larose, 2005].
Normalización Min-Max
X* =
X − min( X ) X − min ( X ) = range ( X ) max( X ) − min ( X )
Donde X es la variable original y X*, el valor normalizado. min(X) es el valor mínimo y max(X) es el valor máximo de todas las variables [Larose, 2005].
Estandarización Z-Score, es muy utilizado en el área del análisis estadístico, se basa en la
diferencia entre el valor del campo y el valor medio, dividido entre la desviación estándar de los valores de campo, la fórmula es la siguiente [Larose 2005]:
X* =
X − mean ( X ) SD( X )
21
. 2.3.3 EXPLORACIÓN DE DATOS
La Minería de Datos abarca un terreno muy amplio, no es solamente aplicar un algoritmo existente a un conjunto de datos. Las herramientas existentes actualmente incluyen mecanismos para la preparación de los datos, su visualización y la interpretación de los resultados. Muchas de las herramientas funcionan bien en espacios de pocas dimensiones con datos numéricos, pero sus limitaciones comienzan a aparecer en espacios de mayores dimensiones o con datos no numéricos, por lo tanto es necesario realizar un análisis exploratorio [Thrun et al, 1998].
Una vez los datos están recopilados, integrados y limpios, todavía no están listos para aplicar una tarea de minería de datos. Es necesario, además, realizar un reconocimiento o análisis exploratorio de los datos con el objetivo de conocerlos con detalle, para tal efecto se cuenta con técnicas diversas : algunas técnicas simples del análisis exploratorio de datos, técnicas de visualización previa, de agrupamiento exploratorio, técnicas de selección, ya sea, eliminando filas o eliminando atributos, interfaces gráficas y técnicas de consulta y agregación [Hernández, 2004].
CONOCIENTO PREVIO
Dominio
Datos
Desnormalización, agregaciones, generalizaciones, selección de atributos muestreo.....
NECESIDADES Y EXPECTATIVAS
VISTA MINABLE
TAREA Y CRITERIOS DE EVALUACIÓN
PRESENTACIÓN DEL CONOCIMIENTO
Figura II.2 De los datos, dominio y usuarios a la vista minable [Hernández, 2004].
22
. La figura II.2 esquematiza el proceso que lleva de los datos, del conocimiento del dominio y
de los usuarios a cuatro aspectos que son necesarios para llevar a cabo la fase propia de minería de datos. Estos cuatro aspectos se explican a continuación [Hernández 2004]:
Vista minable : consiste en una vista en el sentido más clásico de base de datos: una tabla.
La mayoría de métodos de minería de datos son sólo capaces de tratar una tabla en cada tarea.
Tarea, método y presentación: Se trata de decidir qué tarea (clasificación, regresión,
agrupamiento, reglas de asociación, etc) cuáles son las entradas y las salidas, qué método se va aplicar y de qué manera se van a presentar los resultados.
Criterios de calidad: se debe establecer criterios de compresibilidad de los modelos,
criterios de fiabilidad, criterios de utilidad y criterios de novedad o interés.
Conocimiento previo: para ayudar al propio algoritmo de minería de datos puede ser
necesario establecer e incluso expresar de una manera formal cierto conocimiento previo.
2.3.3.1 EXPLORACIÓN MEDIANTE VISUALIZACIÓN
Las tecnologías de la visualización son buenas para ubicar patrones en un conjunto de datos y pueden ser usadas al comienzo de un proceso de Data Mining, para observar la calidad del conjunto de datos.
Los modelos de visualización pueden ser bidimensionales,
tridimensionales o incluso multidimensionales. Se han desarrollado varias herramientas de visualización para integrarse con las bases de datos ofreciendo una visualización de forma interactiva a la Minería de Datos [Marcano 2007].
Según algunos autores [Wong, 1999], el término "minería de datos visual" realiza minería de datos manejando e interactuando con gráficos, pero según otros autores [Cleveland, 1993] no se puede hacer minería de datos sólo con gráficas porque lo que caracteriza la minería de datos de técnicas del análisis de datos es que los modelos son extraídos por algoritmos y por tanto no son vistos o descubiertos visualmente por el usuario ,éste último es el enfoque adoptado para la realización del presente proyecto.
23
. Las técnicas de visualización de datos se utilizan fundamentalmente con dos objetivos
[Hernández, 2004]: •
Aprovechar la gran capacidad humana de ver patrones, anomalías y tendencias a partir de imágenes y facilitar la comprensión de datos
•
Ayudar al usuario a comprender rápidamente patrones descubiertos automáticamente por un sistema de KDD.
2.4 TÉCNICAS DE MINERÍA DE DATOS
La minería de datos ha
dado lugar
a una paulatina sustitución del análisis de datos
dirigido a la verificación por un enfoque de análisis de datos dirigido al descubrimiento del conocimiento. La principal diferencia entre ambos se encuentra en que en el último se descubre información sin necesidad de formular previamente una hipótesis. La aplicación automatizada de algoritmos de minería de datos permite detectar fácilmente patrones en los datos, razón por la cual esta
técnica es mucho más eficiente que el análisis dirigido a la
verificación cuando se intenta explorar datos procedentes de repositorios de gran tamaño y complejidad elevada. Dichas técnicas emergentes se encuentran en continua evolución como resultado de la colaboración entre campos de investigación tales como bases de datos, reconocimiento
de
patrones,
inteligencia
artificial,
sistemas
expertos,
estadística,
visualización, recuperación de información, y computación de altas prestaciones [Moreno, 2001].
Los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o predictivos y no supervisados [Weiss, 1998]. Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la predicción en datos cuya etiqueta es desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases:
24
. Entrenamiento (construcción de un modelo usando un subconjunto de datos con etiqueta
conocida) y prueba (prueba del modelo sobre el resto de los datos) [Moreno, 2001].
Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese caso hay que recurrir a los métodos no supervisados que descubren patrones y tendencias en los datos actuales. El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio (científico o de negocio) de ellas [Moreno, 2001].
2.5 AGRUPAMIENTO (CLUSTERING)
El agrupamiento o clustering representa la división de datos en grupos de objetos similares llamados clusters. De esta manera se busca maximizar la similitud de las instancias en cada cluster y minimizar la similitud entre clusters [Han, 2006]. Clustering es un conjunto de datos con similares entidades encontrado por un algoritmo de clustering [Mirkin, 2005].
Dos de los algoritmos de clustering más utilizados son Self Organizing Maps (SOM) y Kmeans [Mirkin, 2005].
K-means es un método de agrupamiento por vecindad en el que se parte de un número
determinado de prototipos y de un conjunto de ejemplos a agrupar, sin etiquetar. La idea de K-means es situar a los centros en el espacio, de forma que los datos pertenecientes a
mismo prototipo tengan características similares [Hernández, 2004].
SOM, también denominado redes de Kohonen, fue creado por Teuvo Kohonen en 1982. Se
trata de un modelo de red neuronal con capacidad para formar mapas de características de manera similar a como ocurre en el cerebro. SOM está basado en el
aprendizaje no
supervisado y competitivo, lo cual quiere decir que no se necesita intervención humana durante el mismo y que se necesita saber muy poco sobre las características de la información de entrada. SOM provee un mapa topológico de datos, que se representan en varias dimensiones, utilizando unidades de mapa (las neuronas) para simplificar la representación
25
. [Kohonen, 1995]. Las neuronas usualmente forman un mapa bidimensional, por lo que el
mapeo transforma un problema de muchas dimensiones en el espacio, a un plano. La propiedad de preservar la topología significa que el mapeo preserva las distancias relativas entre puntos. Los puntos que están cerca unos de los otros en el espacio original de entrada son mapeados a neuronas cercanas en SOM. Por esta razón, SOM es muy útil como herramienta de análisis de clases de datos de muchas dimensiones [Vesanto, 2000], y además tiene la capacidad de generalizar [Essenreiter, 1999], lo que implica que la red puede reconocer o caracterizar entradas que nunca antes ha encontrado.
Otros algoritmos de clustering son: PAM (Partition around medoids) y CLARA (Clustering Large Applications) [Kaufman, 1990]. Este último permite manejar conjuntos de datos más
grandes que el primero. CLARANS [Han, 1994] integra los algoritmos PAM y CLARA en uno.
2.5.1 ALGORITMO K-MEANS
Uno de los algoritmos más utilizados para hacer clustering es el k-medias (kmeans) [MacQueen, 1967]. La idea de K-means es situar a los prototipos o centros en el espacio, de forma que los datos
pertenecientes al mismo prototipo tenga características
similares
[Moody & Darken 1989, MacQueen, 1967].
En primer lugar se debe especificar por adelantado cuantos clusters se van a crear, éste es el parámetro k, para lo cual se seleccionan k elementos aleatoriamente, que representarán el centro o media de cada cluster. A continuación cada una de las instancias, ejemplos, es asignada al centro del cluster más cercano de acuerdo con la distancia que le separa de él. Para cada uno de los clusters así construidos se calcula el centroide(representante de clase) de todas sus instancias. Estos centroides son tomados como los nuevos centros de sus respectivos clusters. Finalmente se repite el proceso completo con los nuevos centros de los clusters. La iteración continúa hasta que se repite la asignación de los mismos ejemplos a los mismos clusters, ya que los puntos centrales de los clusters se han estabilizado y permanecerán invariables después de cada iteración. El algoritmo de k-means es el siguiente[Molina, 2006]:
26
. 1. Elegir k ejemplos que actúan como semillas(k número de clusters). 2. Para cada ejemplo, añadir ejemplo a la clase más similar 3. Calcular el centroide de cada clase, que pasan a ser las nuevas semillas. 4. Si no se llega a un criterio de convergencia (por ejemplo, dos iteraciones no cambian
las clasificaciones de los ejemplos), volver al paso 2.
Para obtener los centroides, se calcula la media o la moda según se trate de atributos numéricos o simbólicos. A continuación, en la Figura II.4, se
muestra un ejemplo de
clustering con el algoritmo kmeans.
En este caso se parte de un total de nueve ejemplos o instancias, se configura el algoritmo para que obtenga 3 clusters, y se inicializan aleatoriamente los centroides de los clusters a un ejemplo determinado. Una vez inicializados los datos, se comienza el bucle del algoritmo. En cada una de las gráficas inferiores se muestra un paso por el algoritmo. Cada uno de los ejemplos se representa con un tono de color diferente que indica la pertenencia del ejemplo a un cluster determinado, mientras que los centroides siguen mostrándose como círculos de mayor tamaño y sin relleno. Por ultimo el proceso de clustering finaliza en el paso 3, ya que en la siguiente pasada del algoritmo ningún ejemplo cambiaría de cluster [Molina, 2006].
Figura II.4 Pasos del Algoritmo K-means [Molina, 2006].
27
. El algoritmo puede seguir dos enfoques distintos: kmeans por lotes y kmeans en línea. El
primero se aplica cuando todos los datos de entrada están disponibles desde un principio, mientras que el segundo se aplica cuando no se dispone de todos los datos desde el primer momento, sino que pueden añadirse ejemplos adicionales más tarde. Cuando se aplica la versión por lotes, se debe seleccionar arbitrariamente una partición inicial de forma que cada clase disponga de, al menos, un ejemplo. Como la totalidad de los datos están disponibles, los centros de cada partición se calculan como la media de los ejemplos pertenecientes a esa clase [Hernández, 2004].
2.5.1.1 MEDIDA DE DISTANCIAS.
Dados dos objetos O1, O2, cada uno definido por un conjunto de atributos, una función de distancia es aquella métrica que el clasificador emplea para determinar el parecido existente entre O1 y O2 de acuerdo al valor de los atributos. También suele decirse que la función de distancia calcula la similitud entre dos objetos (función de similitud). Mientras más parecidos sean dos objetos, la distancia entre estos es menor y de manera contraria sucede para objetos lejanos. Una función de distancia comúnmente empleada es la distancia euclidiana, la cual se define como [Olvera 2005] :
d( O 1 , O 2 ) =
Donde O1 , O2
n
∑ (x i =1
1
( O1 ) − x 1 ( O 2 )) 2
son los objetos de los cuales se calculará la distancia, n es el número de
atributos y xi(O1), xi(O2) es el valor de la variable x para el atributo i en los objetos O1, O2. Otras funciones empleadas para el cálculo de distancias son [Olvera 2005]:
Manhattan : n
D ( O1 , O 2 ) = ∑ x 1 ( O1 ) − x 2 ( O 2 ) i =1
Chebychev: n
D ( O1 , O 2 ) = max x 1 (O1 ) − x 2 (O 2 ) i =1
28
. Minkowsky :
1
⎛ n r ⎞r D ( O1 , O 2 ) = ⎜⎜ ∑ x 1 (O1 ) − x 2 (O 2 ) ⎟⎟ ⎝ i =1 ⎠
La distancia euclidiana, al igual que las distancias anteriores se emplea en el caso en que todos los atributos del objeto son valores numéricos [Olvera 2005].
2.6 ÁRBOLES DE DECISIÓN
Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. La tarea de aprendizaje para la cual los árboles de decisión se adecuan mejor es la clasificación. De hecho, clasificar es determinar de entre varias clases a qué clase pertenece un objeto; la estructura de condición y ramificación de un árbol de decisión es idónea para este problema. Debido al hecho de que la clasificación trata con clases o etiquetas disjuntas, un árbol de decisión conducirá un ejemplo hasta una sola hoja, asignando, por tanto, una única clase al ejemplo. Esta propiedad dio lugar al esquema básico de los primeros algoritmos de aprendizaje de árboles de decisión de partición o algoritmos de "divide y vencerás". [Hernández, 2004].
Esto es lo que diferencia fundamentalmente
los distintos algoritmos de
"partición"
existentes hasta la fecha, como CART [Breiman, 1984], ID3 [Quinlan, 1983], C4.5[Quinlan, 1993],etc.
Una de las primeras técnicas asociadas a la inducción por medio de árboles de decisión fue la presentada por Ross Quinlan y fue denominada ID3 . Ésta fue una gran influencia para gran número de investigaciones efectuadas sobre árboles de decisión.
En este método se
seleccionan atributos en cada uno de los nodos del arbol y se trata de minimizar la cantidad de atributos a analizar para determinar a qué clase corresponde una muestra. El criterio es el de ubicar lo más alto posible en el arbol a aquellos atributos cuyos valores se corresponden consistentemente con instancias que tienen valores particulares para el atributo objetivo[Cartagenova, 2005]. 29
. Pero, ¿ cómo puede cuantificarse la relación entre el valor y el atributo objetivo ? Una
medida utilizada de la Teoría de la Información en el algoritmo ID3 y en muchos otros árboles de decisión es la “Entropía”. Podemos decir que la entropía de un conjunto de datos puede ser vista como cuán desordenados se encuentran dichos datos. De alguna manera se ha demostrado que cuanto mayor es el valor de la entropía o la incertidumbre de algunos datos, se requiere más información para describir de manera completa a los datos.
Cuando se construye un árbol de decisión, se apunta a decrementar la entropía del conjunto de datos hasta que se haya llegado a los nodos hoja, en cuyo nivel el subconjunto asociado es puro, o tiene entropía cero, y representa instancias de alguna clase [Cartagenova, 2005].
2.6.1 ALGORITMO ID3
El algoritmo ID3 fue desarrollado por Quinlan, es un algoritmo simple y, sin embargo, potente, cuya misión es la elaboración de un árbol de decisión. El procedimiento para generar un árbol de decisión consiste, como se comentó anteriormente en seleccionar un atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto es, se selecciona otro atributo y se genera una nueva rama para cada posible valor del atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos[Molina, 2006].
En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo está ordenado el universo. La teoría de la información (basada en la entropía) calcula el número de bits (información, preguntas sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación. La definición de entropía que da Shannon en su Teoría de la Información (1948) es: Dado un conjunto de eventos A={A1, A2,..., An}, con probabilidades {p1, p2,..., pn}, la información en el
30
conocimiento de un suceso Ai
. (bits) y A(bits) se define las siguientes ecuaciones [Molina,
2006]: ⎛1⎞ I( A1 ) = log 2 ⎜⎜ ⎟⎟ = − log 2 ( p1 ) ⎝ p1 ⎠ n
n
i =1
i =1
I( A ) = ∑ p1 I( A 1 ) = − ∑ p1 log 2 ( p1 )
Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se discrimina un atributo Ai . Una vez explicada la heurística empleada para seleccionar el mejor atributo en un nodo del árbol de decisión, se muestra el algoritmo ID3 [Molina, 2006]:
1. Seleccionar el atributo Ai que maximice la ganancia G(Ai) 2. Crear un nodo para este atributo con tantos sucesores como valores tenga. 3. Introducir los ejemplos en los sucesores según el valore que tenga el atributo Ai. 4. Por cada sucesor: a. Si sólo hay ejemplos de una clase, Ck, entonces etiquetarlo con Ck. b. Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo Ai.
El inconveniente que tiene este Algoritmo, es que favorece indirectamente a aquellos atributos con muchos valores, los cuales no tienen que ser, precisamente, los más útiles [Aguilar, 2003].
2.6.2 ALGORITMO C4.5
El algoritmo C4.5 desarrollado por Quinlan es la extensión del algoritmo ID3 para generar árboles de decisión. El algoritmo utiliza el concepto de ganancia de información o de reducción de la entropía para seleccionar la óptima división.[Larose, 2005].
El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos métodos es la misma. El C4.5 construye un árbol de decisión y evalúa la información en cada caso utilizando los
31
. criterios de entropía y ganancia o proporción de ganancia, según sea el caso [Servente,
2002].
El algoritmo ID3, toma objetos de una clase conocida y los describe en términos de una colección fija de propiedades o de variables, produciendo un árbol de decisión sobre estas variables que clasifica
correctamente todos los objetos [Quinlan, 1993]. Hay ciertas
cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de inducción crece con la dificultad de la tarea. El ID3 fue diseñado específicamente para trabajar con masas de objetos, y el tiempo requerido para procesar los datos crece sólo linealmente con dificultad [Servente, 2002].
En cada nodo, el sistema debe decidir cuál prueba escoge para dividir los datos. Los tres tipos de pruebas posibles propuestas por C4.5 son [Quinlan, 1993]:
i.
La prueba "estándar" para las variables discretas, con un resultado y una rama para cada valor posible de la variable
ii.
Una prueba más compleja, basada en una variable discreta, en donde los valores
posibles son asignados a un número variable de grupos con un
resultado posible para cada grupo, en lugar de para cada valor
iii.
Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria con resultados A <= Z y A > Z, para lo cual debe determinarse el valor límite Z.
Todas estas pruebas se evalúan de la misma manera, mirando el resultado de la proporción de ganancia, o alternativamente, el de la ganancia resultante de la división que producen. Ha sido útil agregar una restricción adicional: para cualquier división, al menos dos de los subconjuntos Ti deben contener un número razonable de casos. Esta restricción, que evita las subdivisiones casi triviales, es tenida en cuenta solamente
cuando el conjunto T es
pequeño[Servente, 2002].
32
. Pseudo-código del algoritmo C4.5
El algoritmo del método C4.5 para la construcción de árboles de decisión a grandes rasgos es muy similar al del ID3. Varía en la manera en que realiza las pruebas sobre las variables. A continuación se muestra el Pseudo-código [Servente, 2002] :
Función C4.5 (R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento) devuelve un árbol de decisión; Comienzo Si S está vacío, Devolver un único nodo con Valor Falla; Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un único nodo con dicho valor; Si R está vacío, Devolver un único nodo con el valor más frecuente del atributo clasificador en los registros de S [Nota: habrá errores, es decir, registros que no estarán bien clasificados en este caso]; Si R no está vacío, D Å atributo con mayor Proporción de Ganancia(D,S) entre los atributos de R; Sean {dj | j=1,2,...., m} los valores del atributo D; Sean {dj | j=1,2,...., m} los subconjuntos de S correspondientes a los valores de dj respectivamente; Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d2,....,dm, que van respectivamente a los árboles C4.5(R-{D}, C, Sl), C4.5(R-{D}, C, S2), C4.5(R-{D}, C, Sm); Fin
2.7 LA EDUCACIÓN FORMAL EN BOLIVIA
La Ley de Reforma Educativa promulgada en 1994 priorizó su accionar solo en el nivel primario; El plan Nacional de Desarrollo actual prioriza una transformación de la educación en todos los niveles.
33
. La educación en Bolivia engloba la educación formal, alternativa y superior. La educación
formal se refiere a la educación
de niveles Inicial, Primaria y Secundaria sin tomar en
cuenta la educación de adultos o educación especial .
La educación alternativa está orientada a completar la formación de las personas y posibilitar el acceso a la educación a quienes, por razones de edad, condiciones físicas y mentales excepcionales, no hubieran iniciado o concluido sus estudios en la educación formal. La educación alternativa se divide en tres grandes áreas: educación de adultos, educación especial y educación permanente.
La educación superior comprende la formación técnico-profesional de tercer nivel, la tecnológica, humanístico- artística y la científica, incluyendo la capacitación y la especialización de postgrado.
2.7.1
SISTEMA DE INFORMACIÓN EDUCATIVA (SIE)
El SIE se creo en 1997, cuyo objetivo es consolidar la información para facilitar la toma de decisiones para las políticas educativas en el País. Engloba información de unidades educativas, infraestructura escolar, alumnos y docentes como se muestra en el siguiente esquema:
Figura II.5 Mapa conceptual SIE [Fuente: Ministerio de Educación ]
El SIE tiene la visión de lograr la provisión de un soporte tecnológico y de información para la gestión educativa en Bolivia. También tiene la misión de ofrecer servicios de información 34
. y tecnología a todo el Sistema Nacional de Educación en Bolivia y a todas las entidades
relacionadas con el Sector. En la Figura II.6 se muestra la descripción general del SIE.
Figura II.6 Descripción del SIE [Fuente: Ministerio de Educación ]
2.7.2 DISTRITOS EDUCATIVOS
Hasta finales del año 2006, el país estaba estructurado política y administrativamente en 9 departamentos, 112 provincias, 327 municipios y 275 distritos educativos tal como se observa en la Tabla II.1
Tabla II.1 División política y administrativa de Bolivia. [Fuente: Ministerio de Educación]
2.7.3 POBLACIÓN ESCOLAR
La evolución de la población en edad escolar (de 4 a 18 años) del año 2000 al 2006 tuvo un incremento de 11,1%; la población en edad escolar pasó de 3.062.076 (49,2% mujeres y 50,8% hombres) a 3.402.628 (49,1% mujeres y 50,9% hombres). Si bien en la población total 35
. la relación de mujeres frente a hombres es 50,2% frente a 49,8% respectivamente, se deduce
que la población total de mujeres es considerablemente baja frente a la población de mujeres en edad escolar (de 4 a 18 años), es decir 1,1% de diferencia.
La cobertura neta se define como el número de alumnos inscritos en un determinado nivel de educación que tienen la edad oficial para asistir a ese nivel, expresada como porcentaje de la población total en edad correspondiente. Por su parte, la cobertura bruta (o tasa bruta de matrícula) se define como el número de los alumnos inscritos en un determinado nivel de educación, sin distinción de edad, expresado como porcentaje de la población en edad escolar, en un año dado.
En la Tabla II.2 se muestra la evolución de la cobertura neta en los niveles primario y secundario desagregados por género, en el periodo 2000 - 2006. La cobertura neta en primaria sufrió un leve descenso de los años 2000 al 2006, bajó de 94,1% a 92,8% en las niñas y pasó de 95,4% a 92,5% en los niños. La cobertura neta en secundaria en todos los datos del período de tiempo 2000 al 2006 no supera siquiera el 60% lo que representa un bajo acceso a la educación secundaria.
Tabla II.2 Cobertura neta en el nivel primaria y secundaria [Fuente: Ministerio de Educación]
Similarmente, la cobertura bruta (Tabla II.3) en primaria sufrió descensos en el mismo periodo de tiempo, bajó de 104,4% a 102,1% en niñas y bajó de 107,3% a 103,1% en niños. Los valores de la cobertura bruta superan el 100% debido a que el indicador no considera los grupos etáreos lo que significa que los niños o niñas pueden estar inscritos en un nivel de educación pero pueden tener edades mayores a las establecidas para esos niveles. En el nivel secundario en ninguno de los años de estudio superan el 80%. 36
.
Tabla II.3 Cobertura bruta en el nivel primaria y secundaria [Fuente: Ministerio de Educación]
2.7.4 INDICADORES 2.7.4.1 TASA DE CULMINACIÓN POR NIVELES
La tasa de término neta o tasa de culminación neta de un determinado curso es el porcentaje de alumnos promovidos, considerando la edad en dicho curso, respecto de la población en edad de ingresar en dicho curso (por ejemplo 13 años en 8° de primaria). La tasa de término bruta (tasa de culminación bruta) de un determinado curso es el número de alumnos promovidos de dicho curso, sin distinción de edad, respecto a la población total en edad de cursar dicho curso.
La Figura II.7 muestra la evolución de las tasas de término neta y bruta en el periodo de tiempo de los años 2000 al 2006 en dos grados: 8° de primaria y 4° de secundaria. En 8° de primaria, las tasas de término tuvieron un ascenso leve en dicho periodo; pasaron de 26,1% a 32,2% en niñas y de 25% a 29,8% en niños. Pero esos valores no son alentadores ya que la tasa de término neta no supera en ningún caso el 33%, eso significa que apenas uno de cada tres adolescentes de la población escolarizada de 13 años de edad permanece y culmina 8° de primaria. Peor aún, la tasa de término neta en cuarto de secundaria en todo el periodo de tiempo no supera el 25% (aunque haya ascendido levemente de 17,7% a 23,1% en mujeres y de 15,9% a 20,4% en varones) lo que significa que apenas uno de cuatro estudiantes de 17 años de último grado de secundaria permanece y culmina dicho grado.
37
.
Figura II.7: Evolución de la tasa de término neta y tasa de término bruta. [Fuente: Ministerio de Educación]
2.7.4.2 TASA DE APROBACIÓN POR NIVELES.
La evolución de la tasa de aprobación en los niveles primaria y secundaria mostró un comportamiento diferente de los años 2000 al 2006 (Figura II.8). Del año 2000 al año 2005, la tasa de aprobación en primaria experimentó un leve ascenso de 88,5% a 92,1% en el área rural y variando de 90,6% a 93,3%. Si embargo, esa tasa de aprobación en primaria experimentó una caída importante en el año 2006, tanto para el área Rural como para el área Urbana. Eso se debió a que con la finalización de la modalidad de año de extensión por condición de reprobación la tasa de aprobación en el área Rural de las niñas baje de 92,5% a 87% y de los niños baje de 91,8% a 85,6%. De manera similar, en ese mismo año, en el área Urbana, del 2005 al 2006 ocurrió un descenso significativo, de 94% a 90,7% en las mujeres y de 92,7% a 88,3% en los hombres.
Figura II.8 Evolución de la tasa de aprobación por niveles y género. [Fuente: Ministerio de Educación]
38
. 2.7.4.3 TASA DE ABANDONO POR NIVELES
La evolución de la tasa de abandono de los años 2000 al 2006 no experimentó grandes cambios y tanto para el área Rural como para el área Urbana. Pero hay diferencias significativas en el nivel secundaria sobretodo en el área Urbana, ya que la tasa de abandono de las mujeres ronda el 7% mientras que la tasa de abandono de los hombres es del 9%. En general, la mayor tasa de abandono se presenta en nivel secundario del área Rural, con un valor de 10% tanto en hombres como en mujeres. Por su parte, la tasa de abandono del nivel primaria del área Urbana es la que presenta tasas no muy alarmantes pero significativas rondando el 5%. Observe esos comportamientos en la Figura II.9.
Figura II. 9. Evolución de la tasa de abandono por niveles [Fuente: Ministerio de Educación]
2.7.4.4 REZAGO ESCOLAR
Por rezago escolar se entiende a la proporción de niños que tiene una edad superior a la edad oficial (o razonablemente adecuada) para asistir a un determinado curso respecto al total de niños inscritos en ese curso. La tasa de sobreedad calcula la proporción de alumnos de la matrícula inicial con edad mayor a la teórica más uno para el grado correspondiente.
La tasa de sobreedad por grado en el año 2006 mejoró respecto del año 2000 (Ver Figura II.10). En el año 2000 se observaba una mayor tasa de sobreedad en las unidades educativas rurales públicas y en las unidades educativas urbanas públicas.
39
.
Figura II.10. Tasa de sobre edad por área geográfica y por dependencia [Fuente: Ministerio de Educación]
En las unidades educativas rurales públicas, en quinto de primaria se tenía un 38,7% y los grados posteriores 36%, 37% y 38%; en las unidades educativas urbanas públicas el mayor rezago se presentaba en secundaria con porcentajes cercanos al 30%. Pero en el año 2006, las unidades educativas públicas rurales tenían menor tasa de sobreedad que en el año 2000, por ejemplo en el nivel secundaria, los valores porcentuales bajaron del 38% al 33%, y el rezago en 5° de primaria se convirtió en de 38,7% a 26,5% .
2.8 HERRAMIENTAS DE MINERÍA DE DATOS
Se pueden encontrar tanto en ámbitos comerciales como académicos una serie de entornos software diseñados para dar soporte al ejercicio de minería de datos, como por ejemplo SPSS Clementine, WEKA, ODMS (Oracle Data Mining Suite), Kepler, DBMiner y otros. En este proyecto se ha elegido la herramienta WEKA por su fácil manejo, interfaz de visualización y la libre distribución por la licencia GPL [Hernández, 2004].
2.8.1 WEKA
Weka (Waikato Envioronment for Knowledge Análisis), es una herramienta desarrollada por un equipo de investigadores de la universidad de
Waikato ( Nueva Zelanda),esta
implementada en Java con arquitectura independientes, ya
que funciona
en cualquier
plataforma. La licencia de Weka es GPL lo que significa que este programa es de libre distribución y de difusión [Garcia, 2005].
40
. WEKA está constituido por una serie de paquetes de código abierto con diferentes técnicas
de preprocesado, clasificación, agrupamiento, asociación, y
visualización, así como
facilidades para su aplicación y análisis de prestaciones cuando son aplicadas a los datos de entrada seleccionados. Estos paquetes análisis de datos, e incluso
pueden ser integrados en cualquier proyecto de
pueden extenderse con contribuciones de los usuarios que
desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas [Garcia, 2005].
Figura II.11: Interfaz visual Explorer (WEKA)
2.8.1.1 FORMATOS DE ENTRADA
Los formatos de los datos de entrada a la herramienta pueden ser de tipo [Garcia, 2005]:
1. ARFF que corresponde a un fichero de texto con un encabezado de identificación
de cada atributo y los datos separados por comas. Este formato está compuesto por una estructura claramente diferenciada en tres partes:
Cabecera. Se define el nombre de la relación. Su formato es el siguiente:
41
. @relation <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo
String*. Si dicho nombre contiene algún
espacio será necesario expresarlo
entrecomillado.
Declaraciones de atributos. En esta sección se declaran los atributos que compondrán
el archivo junto a su tipo. La sintaxis es la siguiente: @attribute <nombre-delatributo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos, estos son:
a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta
de formato entrecomillada. d) STRING Expresa cadenas de texto, con las restricciones del tipo String e )ENUMERADO El identificador de este tipo consiste en expresar entre
llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres).
Sección de datos. Declaramos los datos que componen la relación separando entre
comas los atributos y con saltos de línea las relaciones.
Aunque éste es el modo “completo" es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo.
2. CSV, corresponde a un formato de Excel en la que los datos están separados por
comas. La primera línea contiene los atributos.
3. C4.5, corresponde a archivos según el formato C4.5. Unos datos codificados según
este formato estarían agrupados de tal manera que en un fichero .names estarían los nombres de los atributos y en un fichero .data estarían los datos en sí.
42
. 2.8.1.2 TAREAS
Weka
permite tareas de
Preprocesado, Clasificación, Clustering, Asociaciones,
Selección y Visualización [Molina, 2006].
1. Preprocesado de los datos y aplicación de filtros, se elige el conjunto de datos el
cual se modifica de diversas maneras.
2. Clasificación. En este modo se puede clasificar por varios métodos los datos ya
cargados como por ejemplo bayes, function, trees, rules y otros.
3. Clustering. Su funcionamiento es similar al de clasificación: se elije un método de
clustering (Cobweb, EM, SimpleKMeans, FarthestFirst) y se selecciona las opciones pertinentes.
4. Búsqueda de Asociaciones, permite aplicar métodos orientados a buscar
asociaciones entre datos. Es importante señalar que éstos métodos sólo funcionan con datos nominales.
5. Selección de atributos, permite acceder al área de selección de atributos. El
objetivo es identificar aquellos atributos que tienen más peso a la hora de determinar si los datos son de una clase u otra.
6. Visualización de datos, es un modo que muestra gráficamente la distribución de
todos los atributos mostrando gráficas en dos dimensiones, en las que va representando en los ejes todos los posibles pares de combinaciones de los atributos.
2.8.1.3 FORMAS DE ACCESO
WEKA se puede utilizar de 3 formas distintas [Garcia, 2005] :
1. Desde la línea de comandos : cada uno de los algoritmos incluidos en WEKA se pueden
invocar desde la línea de comandos de MS-DOS como programas individuales. Los resultados se muestran únicamente en modo texto.
43
. 2. Desde uno de los interfaces de usuario WEKA dispone de 4 interfaces de usuario
distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son: •
Simple CLI (command line interface): interfaz en modo texto.
•
Explorer: interfaz gráfico básico. (Figura II.11)
•
Experimenter:
interfaz
gráfico
con
posibilidad
de
comparar
el
funcionamiento de diversos algoritmos de aprendizaje. •
KnowledgeFlow: interfaz gráfico que permite interconectar distintos
algoritmos de aprendizaje en cascada, creando una red.
3. Creando un programa Java : la forma en la que se puede utilizar el programa WEKA es
mediante la creación de un programa Java que llame a las funciones que se desee. El código fuente de WEKA está disponible, con lo que se puede utilizar para crear un programa propio.
2.9 CONCLUSIONES DEL CAPÍTULO
La minería de datos es útil para la extracción de conocimiento en grandes cantidades de datos, para descubrir este conocimiento se debe llevar a cabo las etapas de planteamiento de objetivos, selección, preprocesamiento y transformación antes de aplicar una técnica de minería de datos.
Para elegir una técnica de Minería de datos depende de los resultados que se quiera obtener, se puede elegir entre técnicas supervisadas y no supervisadas. Un ejemplo de una técnica no supervisada es el agrupamiento o clustering que busca segmentar o agrupar un conjunto de datos en subconjuntos o grupos según sus similitudes, un algoritmo de clustering comúnmente utilizado es el algoritmo k-means Para tratar de conocer los atributos relevantes después de aplicar clustering se puede aplicar árboles de decisión.
Por la continua evolución de la minería de datos se puede encontrar varias herramientas, una de ellas es Weka que es conocida por contar con licencia GPL, por la variedad de algoritmos incorporados, la interfase gráfica y su fácil manejo.
44
. Para analizar los datos proporcionados por el Sistema de Información Educativa (SIE), se
tiene varios indicadores como la población escolar, la tasa de aprobación por niveles, la tasa de abandono y el rezago escolar, en los que se concluye que los resultados son críticos más que todo en el área rural.
Por lo tanto, en este capítulo se ha desarrollado los conceptos más importantes que son útiles para el siguiente capítulo, en el que se llevará a cabo las etapas del descubrimiento de conocimiento aplicando el algoritmo k-means y reglas de asociación para finalmente interpretar los resultados obtenidos.
45
.
CAPÍTULO III DESARROLLO
3.1
ANÁLISIS DE LA FUENTE DE DATOS DEL SISTEMA DE INFORMACIÓN
EDUCATIVA
Como el Sistema de Información Educativa (SIE) es la consolidación de la información Educativa a nivel Nacional y con información desde el año 2000 se considera como un Almacén de Datos.
Toda la información con la que cuenta el SIE esta almacenada en tablas de una base de datos estructurada en SQL Server de Microsoft y engloba una amplia gama de información, que incluye varios temas como: •
Infraestructura
•
Matrícula
•
Formación Docente
•
Recursos Humanos
•
Materiales
Para el desarrollo del Proyecto se analiza específicamente la información acerca de la Matriculación que incluye a la vez variedad de información respecto a la descripción de las Unidades Educativas (UE) como
su ubicación, características, cantidad de alumnos
(matriculación) en cada nivel y grado, cantidad de paralelos y otros aspectos que se detallarán
más adelante.
Es cierto que los temas de Infraestructura, la formación de
Docentes, la distribución de aulas y la asignación de Items influye en la matriculación de
46
.
las UE pero dicha información no será considerada por el momento.
A partir del SIE se procede a
realizar las fases de Selección, Preprocesamiento y
Transformación para conformar el Data set que se procesará por una técnica de Minería de Datos, como se muestra en la siguiente Figura:
Interpretación Minería De Datos Transformación Preprocesamiento
Conocimiento Patrones
4
Selección
3 2 1
Datos Seleccionados
Datos Transformados
Datos Preprocesados
SIE Datos
Figura III.1. Etapas del Proceso KDD
Este proceso puede realizarse de manera cíclica porque muchas veces al aplicar una técnica de Minería de Datos no se obtiene los resultados satisfactorios, por lo que se regresa a las fases anteriores. En este capítulo se explicará el desarrollo y análisis de cada etapa para el descubrimiento de conocimiento (Ver Figura III.1). En la fase de selección se extraen los atributos de las tablas más relevantes relacionados con la matriculación del sistema SIE para unificar en una sola tabla denominada data set. En la fase de preprocesamiento se utilizan métodos estadísticos como histogramas para conocer mejor los datos seleccionados, de esta manera se identifican valores faltantes, mínimos, máximos y erróneos. En la fase de transformación
se realiza la normalización, la numerización, el tratamiento de
dimensionalidad, el tratamiento de valores erróneos y faltantes.
47
. Una vez concluida las fases anteriores ya se tiene un data set limpio preliminar. En la fase
de minería de datos se aplica el algoritmo k-means de Clustering y el algoritmo J.48 de Árboles de Decisión
mediante la herramienta WEKA. Posteriormente se desarrolla una
herramienta de minería de datos programado en Delphi que incluye una herramienta de visualización multidimensional para realizar un análisis exploratorio visual de los datos y el algoritmo k-means de Clustering para agrupar los datos de acuerdo a su similitud. Finalmente, se interpretan y analizan los resultados obtenidos. El diagrama de proceso de éstas etapas se muestra en la Figura III.2
INTERPRETACIÓN DEL PROBLEMA SELECCIÓN
PREPARACIÓN DE DATOS PREPROCESAMIENTO
TRANFORMACIÓN
EXPLORACIÓN MEDIANTE VISUALIZACIÓN
- ANÁLISIS DE LA FUENTE DE DATOS SIE - SELECCIÓN DE ATRIBUTOS RELEVANTES
- HISTOGRAMAS - VALORES MÁXIMOS - VALORES MÍNIMOS - MEDIA. - VALORES FALTANTES - VALORES ERRONEOS
- NUMERIZACIÓN - REDUCCIÓN DE ATRIBUTOS - ATRIBUTOS DERIVADOS
PROGRAMACIÓN DE UNA HERRAMIENTA VISUALIZACIÓN MULTIDIMENSIONAL ALGORITMO K-MEANS
MINERÍA DE DATOS
APLICACIÓN DE LA HERRAMIENTA WEKA ALGORITMO J.48 PROGRAMACIÓN DEL ALGORITMO K-MEANS
INTERPRETACIÓN Y ANÁLISIS DE PATRONES
Figura III.2. Diagrama de Procesos para el desarrollo del Proyecto
48
. 3.2 PREPARACIÓN DE DATOS
3.2.1 FASE DE SELECCIÓN
Para el caso de la Matriculación
incluyen
varias tablas, las principales son: la tabla
Matricula Grado que describe la cantidad de matriculados por grado-nivel y la tabla Matricula Paralelo que describe la cantidad de matriculados por paralelo. Estas tablas están
relacionadas con las tablas de Unidad Educativa, Nivel, Grado, Dependencia, Cerrado y otros.
A continuación se muestra las tablas seleccionadas para el análisis: •
Tabla Unidad Educativa
(t_ues): esta tabla contiene
información acerca de las
características de las unidades educativas como el código, nombre, teléfono, multigrado, etc.
Tabla: Unidad Educativa (t_ues) Descripción Tipo Observaciones
Campo cod_ue
Código de la unidad educativa
numérico
De 8 dígitos Ej: 10710001
gest
Gestión
numérico
1999,2000,2001,2002,2003,2004
des_ue
Nombre de la unidad educativa cadena
cod_conv
Código de convenio
numérico
Ej: 1. Fe y alegría, 3. UNICEF...
multigr
Multigrado
cadena
Falso, Verdadero
teléfonos
Teléfono opcional
numérico
Ej. 2495842
obs_ue
Observaciones de la unidad
cadena
Ej. No se trabaja con transformación
cod_cen
Código de centro
numérico
Ej: Central canuta, German Buch
dependencia
Código de dependencia
cadena
Cada código representa a un tipo de centro. educativo Eje. Fiscal - Privado - Convenio
cod_cerr
Código de cerrado
numérico
Ej. 1=abierto - 2=cerrado
obs_cerr
Observaciones si esta cerrada.
cadena
descripción de motivos de la UE cerrada
rue_ue
Si esta en el rue
cadena
Verdadero o falso
e_mail
correo electronico
cadena
turnos
Turnos con las q cuentan la
cadena
Ej: M-T
cod_org_curr
Código de educación formal
numérico
Ej. 1. formal - 2 alternativa.
des_org_curr
Descripción el tipo de
cadena
moda_bachi
Modalidad de bachillerato
cadena
Ej.Humanistico, Bachiller en humanidades
sie_temp.
Los datos están temporalmente
cadena
Verdadero, falso
fax
dirección de fax
cadena
Tabla III.1 Tabla Unidad Educativa
49
•
. Tabla Matricula-Grado (t_mat_grad): indica la cantidad de matriculados de cada
gestión (1999-2007) de un determinado nivel y grado, que a su vez están separados por inicio de gestión y fin de gestión por la variable operat ( 1 significa inicio de gestión y 3 significa fin de gestión).
Tabla: Matricula Grado ( t_mat_grad) Descripción Tipo Observaciones
Campos cod_ue
Codigo de UE
Numérico
De 8 dígitos Ej: 10710001
gest
Gestión
Numérico
Ej. 1999-2006
Numérico
Ej Inicio de Ges, 3 Fin de Gest
cadena
De 2 dígitos Ej: 01,02
cod_niv
Número de operativos de levantamiento de información Código de nivel
cod_cic
Codigo de ciclo
Numérico
De 3 dígitos Ej. 001,002
grado
Grado
Numérico
Ej. 1 = primer grado
var_Mat
código de tipo de matriculación
Numérico
Ej. 1= Inscritos nuevos
Sexo
Sexo
Caracter
V,M
Cantidad
Cantidad de alumnos
Numérico
1,2,3,.....
operat
Tabla III.2 Tabla Matricula por Grado
•
Tabla Matricula-Paralelo (t_mat_para): indica la cantidad de matriculados en cada
paralelo de un determinado nivel y grado entre las gestiones 1999-2007 .
Tabla: Matricula Paralelo ( t_Mat_para) Descripción Tipo Observaciones
Campos cod_ue
Codigo de UE
Numérico
De 8 dígitos Ej: 10710001
gest
Gestión
Numérico
Ej. 1999-2006
operat cod_niv
Número de operativos de levantamiento de información Código de nivel
cod_cic
cadena
Ej Inicio de Ges, 3 Fin de Gest De 2 dígitos Ej: 01,02
Codigo de ciclo
Numérico
De 3 dígitos Ej. 001,002
grado
Grado
Numérico
Ej. 1 = primer grado
cod_turn
Codigo de turno
Numérico
De 1 dígito Ej 1=mañana
Paralelo
Paralelo
Caracter
A-Z
Sexo
Sexo
Caracter
V,M
Cantidad
Cantidad de alumnos
Numérico
1,2,3,.....
Numérico
Tabla III.3 Tabla Matricula por Paralelo
50
•
. Tabla Departamento (t_depar): asigna un código único a cada uno de los nueve
departamentos para que puedan acceder las tablas que hacen referencia al departamento.
Tabla: Departamento( t_depar) Cod_dep Des_dep 1 2 3 4 5 6 7 8 9
Chuquisaca La Paz Cochabamba Oruro Potosi Tarija Santa Cruz Beni Pando
Tabla III.4 Tabla Departamento
•
Tabla Cantón (t_canton): asigna un código único a un cantón en el campo cod_can y su
nombre en el campo
des_can, pero además incluye los códigos del departamento,
provincia y sección a la que pertenece el cantón.
Campos
Tabla: Cantón ( t_canton) Descripción Tipo
Observaciones
cod_dep cod_pro
Código de Departamento
Numérico
1-9
Código de provincia
Numérico
0-20
cod_sec
Código de sección
Numérico
0-8
cod_can
Código de cantón
Numérico
0-26
des_can
Nombre del cantón
Cadena
Ej. PALCA, COHONI
Tabla III.5 Tabla Cantón
•
Tabla Nivel (t_nivel): asigna un código único a los nueve niveles existentes tanto en la
educación formal como alternativa.
Cod_niv 01
Tabla: Nivel (t_nivel) Cod_org_curr Des_niv 1
Pre-escolar
02
1
Primaria
03
1
Secundaria
04
3
Superior
05
2
De Adultos
06
2
Especial
Tabla III.6 Tabla Nivel
51
•
. Tabla Grado(t_grado): asigna un código único a los nueve grados existentes incluyendo
la edad establecida para cursar cada grado.
Grado
Tabla: Grado ( t_grado) Des_grado
0
Guarderia
1
Primero
2
Segundo
3
Tercero
4
Cuarto
5
Quinto
6
Sexto
7
Séptimo
8
Octavo Tabla III.7 Tabla Grado
•
Tabla Dependencia (t_depn): asigna un código único al tipo de dependencia Fiscal o
Estatal, Privada, Convenio y Comunitaria.
Tabla: Dependencia ( t_depn) Cod_depn Des_depn Cod_tip_adm 1
Fiscal o Estatal
1
2
Convenio
1
3
Privada
2
5
Comunitaria
1
Tabla III.8 Tabla Dependencia
•
Tabla Tipo de Matricula (t_tipo_mat): Esta tabla contiene los códigos y descripciones
del
tipo
de
matrícula
como
por
ejemplo:
inscritos
nuevos,
efectivos,
promovidos(aprobados), reprobados, etc.
Tabla: Tipo de Matricula ( t_tipo_mat) Cod_Mat Des_Mat 1
Inscritos Nuevos
2
Inscritos Repitentes
4
Efectivos
5
Promovidos
6
No incorporados
7
Extemporáneo nuevo
52
. 8
Extemporáneo repitente
9
Retirado Traslado
10
Retirado Abandono
11
Reprobados Tabla III.9 Tabla tipo de Matricula
3.2.1.1 CONSOLIDACIÓN DE LA INFORMACIÓN EN UN DATA SET Una vez seleccionadas las tablas se extrae los atributos más relevantes para estructurarlo en una sola tabla denominada
Data Set . Este proceso se realiza mediante
consultas SQL
siguiendo los siguientes aspectos:
Unidad Educativa
Los atributos seleccionados con respecto a las características de la UE son:
9
Código: es la identificación de la Unidad Educativa, se representa con un número de
ocho dígitos.
9
Nombre de la UE.
9
Gestión: 2000-2006
9
Cerrado: identifica si la Unidad Educativa esta abierta o cerrada.
9
Multigrado: una Unidad Educativa
es de tipo multigrado si un sólo docente dicta
clases a distintos grados en un mismo ambiente. En la tabla, este atributo se representa con 1 ( si es multigrado) y 0 ( si no es multigrado).
9
Dependencia: se refiere al tipo de la Unidad Educativa, puede ser: 9
Pública: financiado por el Estado.
9
Privada: financiado por los padres o apoderados
9
Convenio: administradas por entidades privadas que han firmado convenio con
el Estado y recibe financiamiento del Estado por los profesores. 9
Comunitaria, los profesores son financiados por los padres de familia.
53
.
Inicial, Primario y Secundario.
9
Nivel:
9
Grado: Los primeros grados pertenecen el ciclo de primeros aprendizajes y al ciclo de
preparación. Los grados
del Nivel Primario incluye
desde Primero de
Primaria hasta Octavo de Primaria. Los grados del Nivel Secundario incluye desde Primero hasta Cuarto de Secundaria.
9
Ubicación : representa la ubicación de la UE descrito por Departamento, Provincia,
Sección, Cantón, Localidad y Zona.
Matrícula
Los atributos seleccionado con respecto a la matriculación son: 9
Paralelo:
cantidad de paralelos de todos los grados y niveles.
9
Matricula: cantidad de
alumnos
que asistieron regularmente a clases hasta la
finalización de una gestión. 9
Tipo de Matriculados: 9
Efectivos, alumnos que asistieron regularmente a clases hasta conclusión del
año escolar. 9
Promovidos, alumnos aprobados.
9
Reprobados, alumnos que perdieron el año.
9
Inscritos Nuevos, alumnos que en la gestión anterior estaban en un grado
inferior al actual y que se inscriben por primera vez al grado. 9
Inscritos repitentes, alumnos que vuelven a cursar el mismo grado en el que
estuvieron inscritos una gestión anterior
ya sea por reprobación o por
abandono. 9
No incorporados, es la cantidad de alumnos que habiéndose inscrito nunca
asistieron a clases. 9
Retirado Traslado, son alumnos que se fueron a otra unidad educativa durante
el transcurso de la gestión escolar. 9
Retirado abandono, son alumnos que dejaron de asistir sin notificación y no
regresaron durante la gestión escolar.
54
. Por lo tanto, el Data set conformado por los atributos seleccionados se muestra en la Tabla
III.10. Se ha preparado 63 tablas, una para cada Departamento (9 departamentos) y Gestión (2000-2006) con los mismos atributos. Por ejemplo en la Tabla III.10 se muestra el data set perteneciente a La Paz de la gestión 2005.
DATA SET LA PAZ 2005 Campos
Descripción
Tipo
Val Min Val Max
Cod_UE
Código de la UE
numérico
Nombre
Nombre de la UE
Nominal
P_INI0
Paralelos en el grado 0 del nivel inicial
numérico
0
2
P_INI1
Paralelos en el grado 1 del nivel inicial
numérico
0
5
P_INI2
Paralelos en el grado 2 del nivel inicial
numérico
0
8
P_PRIM1
Paralelos en 1ro de Primaria
numérico
0
8
P_PRIM2
Paralelos en 2do de Primaria
numérico
0
8
P_PRIM3
Paralelos en 3ro de Primaria
numérico
0
8
P_PRIM4
Paralelos en 4to de Primaria
numérico
0
9
P_PRIM5
Paralelos en 5to de Primaria
numérico
0
7
P_PRIM6
Paralelos en 6to de Primaria
numérico
0
9
P_PRIM7
Paralelos en 7mo de Primaria
numérico
0
9
P_PRIM8
Paralelos en 8vo de Primaria
numérico
0
9
P_SEC1
Paralelos en 1ro de Secundaria
numérico
0
9
P_SEC2
Paralelos en 2do de Secundaria
numérico
0
8
P_SEC3
Paralelos en 3ro de Secundaria
numérico
0
8
P_SEC4
Paralelos en 4to de Secundaria
numérico
0
7
Mat_ INI0
Matriculados en el grado 0 del nivel inicial
numérico
0
44
Mat_INI1
Matriculados en el grado 1 del nivel inicial
numérico
0
153
Mat_INI2
Matriculados en el grado 2 del nivel inicial
numérico
0
269
Mat_PRIM1
Matriculados en 1ro de Primaria
numérico
0
323
Mat_PRIM2
Matriculados en 2do de Primaria
numérico
0
330
Mat_PRIM3
Matriculados en 3ro de Primaria
numérico
0
342
Mat_PRIM4
Matriculados en 4to de Primaria
numérico
0
368
Mat_PRIM5
Matriculados en 5to de Primaria
numérico
0
310
Mat_PRIM6
Matriculados en 6to de Primaria
numérico
0
340
Mat_PRIM7
Matriculados en 7mo de Primaria
numérico
0
403
Mat_PRIM8
Matriculados en 8vo de Primaria
numérico
0
408
Mat_SEC1
Matriculados en 1ro de Secundaria
numérico
0
467
55
. Mat_SEC2
Matriculados en 2do de Secundaria
numérico
0
386
Mat_SEC3
Matriculados en 3ro de Secundaria
numérico
0
355
Mat_SEC4
Matriculados en 4to de Secundaria
numérico
0
318
Efectivos
Cantidad de Efectivos
numérico
8
4.531
Promovidos
Cantidad de Aprobados
numérico
8
4.070
Reprobados
Cantidad de Reprobados
numérico
0
461
Insc_nuevos
Inscritos Nuevos
numérico
8
4.552
Insc_rep
Inscritos Repitentes
numérico
0
198
No_incorpor
No incorporados
numérico
0
152
Retir_tras
Retirados por traslados
numérico
0
152
Retir_aban
Retirados por abandono
numérico
0
354
Multigrado
Aula multigrado
booleano
0
1
Dependencia
Tipo de UE
Nominal
Dirección
Ubicación
Nominal
Zona
Ubicación
Nominal
Provincia
Ubicación
Nominal
Sección
Ubicación
Nominal
Cantón
Ubicación
Nominal
Localidad
Ubicación
Nominal
Area
Área Rural o urbana
Nominal
Tabla III.10 Data Set La Paz 2005
3.2.2 FASE DE PREPROCESAMIENTO
Para esta etapa se puede aplicar diferentes herramientas con el objetivo de
conocer las
características de los atributos, en este caso se aplicará histogramas y más adelante se utilizará la herramienta weka para mostrar este proceso.
El data set que se analizará es el perteneciente a los datos de La Paz de la gestión 2005.A continuación se muestra la distribución de la matrícula por niveles de éstos datos.
Matrícula en los niveles Inicial, Primario y Secundario Nivel Inicial
Solo hay
13 UE que tienen el Nivel Inicial 0
de las que 12 UE tienen menos de 50
alumnos y una UE tiene 103 alumnos (JESUS OBRERO MAÑANA) En el Nivel Inicial 1
56
. hay 215 UE de las cuales 171 tienen menos de 50 alumnos. En el Nivel Inicial 2 hay 2.113
UE de las cuales 1.857 tienen menos de 50 alumnos (Ver Figura III.3) 2000 1900 1800 1700 1600 1500 1400 1300 1200 1100 1000 900 800 700 600 500 400 300 200 100 0
1857
171 12
1
<50
103
151
<50
29
15
51-100
101-192
<50
50- 100
95
10
101- 200
201- 336
INICIAL 0 INICIAL 1 INICIAL 2
Figura III.3 Distribución de matriculación en el Nivel Inicial
Nivel Primario ( 1ro a 5to)
En la Figura III.4 se muestra
que un gran porcentaje de UE tienen una matrícula menor a
10 de 1ro a 5to de primaria. Por ejemplo hay 3.374 UE que tienen Primero de Primaria (azul) tanto del área rural como urbana de las cuales 752 UE tienen menos de 10 alumnos.
2200 2000 1800
1918
1896
1752
1600
1458
1400 1224
1200
1105
1000
914
867
905
826
800 600 400 200
180
213 124
172
196 116
173
204
178
194
117
183
211
115
110
0 <10 10--30 31-50
51100
100283
<10 10--30 31-50
51100
101284
<10 10--30 31-50
51100
101286
<10 10--30 31-50
51100
101269
<10 10--30 31-50
51100
101280
Figura III.4 Distribución de matriculación en el Nivel Primario
57
Para conocer mejor los datos
. matriculación de los nueve
a continuación se describe la
departamentos. En la Tabla III.11 se muestra la cantidad de Unidades Educativas en cada departamento
de la gestión 2006.
Se puede observar que
en
La Paz, Santa Cruz,
Cochabamba y Potosí existe mayor porcentaje de Unidades Educativas que en el resto de los departamentos. U.E. Gestión 2006 Departamento
T arija 5%
Cantidad
Sucre
1168
Cochabamba
2337
Santa Cruz
2795
Potosí
2151
Oruro
696
Tarija
723
Pando
5%
2%
Beni
La Paz
5%
26%
4003
La Paz
Oruro
Sucre 8%
Potosí 14% Santa Cruz 19% Cocha 16%
Beni
786
Pando
230
La P az P o to sí Tarija
Tabla III.11 Unidades Educativas Gestión 2006
Santa Cruz Sucre Oruro
Co chabamba B eni P ando
Figura III.5 Distribución de Unidades Educativas
En las siguientes Tablas y Figuras se muestran la cantidad promedio de alumnos efectivos (alumnos que asistieron regularmente a clases hasta la conclusión del año escolar) de cada departamento. Por ejemplo en la Tabla III.12 se muestra la descripción de la matriculación en el departamento de La Paz. La UE con menor matricula es la UE JUNIN 2005 con 3 alumnos. La Unidad con mayor matricula es la UE BOLIVIANO ALEMAN AVE MARIA 2006 con 4.658 alumnos.
Matriculación La Paz 185
Gestión
Promedio
2000
163
Valor Máximo 4025
Valor Mínimo 7
2001
165
3983
7
170
2002
172
4015
5
165
2003
176
4239
5
2004
179
4340
7
2005
180
4531
3
2006
177
4658
5
Tabla III.12 Alumnos Efectivos en el Departamento de La Paz.
180 175
160 155 150 2000
2001
2002
2003
2004
2005
2006
Figura III.6 Distribución de alumnos Efectivos en el Departamento de La Paz.
58
. En el Departamento de Sucre la distribución de alumnos efectivos es ascendente ( Figura
III.7). La Unidad con menor matricula es la UE LAS LOMAS 2006 con 7 alumnos. La Unidad con mayor matricula es la UE LA RECOLETA 2006 con 2.228 alumnos.
Matriculación Sucre
117
Valor Máximo 2009
Valor Mínimo 14
2001
122
2085
7
2002
126
2122
10
2003
129
2146
9
2004
133
2166
9
2005
133
2188
9
2006
133
2228
7
Gestión
Promedio
2000
135 130 125 120 115 110 105 2000 2001 2002 2003 2004 2005 2006
Tabla III.13 Alumnos Efectivos en el Departamento de Sucre.
Figura III.7 Distribución de alumnos Efectivos en el Departamento de Sucre
En el Departamento de Cochabamba la distribución es más variada (Figura III.8). La Unidad con menor matricula es la UE NIÑO SIMON 2000 con 2 alumnos. La Unidad con mayor matricula es la UE FRANZ TAMAYO 2004 con 2.373 alumnos.
Matriculación Cochabamba Valor Mínimo 2
195
178
Valor Máximo 1883
2001
168
1877
7
180
2002
175
2010
6
175
2003
181
2172
6
2004
184
2373
6
160
2005
186
1755
6
155
2006
190
1825
7
Gestión
Promedio
2000
190 185
170 165
Tabla III.14 Alumnos Efectivos en el Departamento de Cochabamba.
2000
2001
2002
2003
2004
2005
2006
Figura III.8 Distribución de alumnos Efectivos en el Departamento de Cochabamba
En el Departamento de Santa Cruz la distribución es ascendente ( Figura III.9) La Unidad con menor matricula es la UE CHIRGUANAÑAN 2006 con 3 alumnos.
59
. La Unidad con mayor matricula es la UE INTERNACIONAL BETHESDA II 2006 con
3.173 alumnos.
Matriculación Santa Cruz
211
Valor Máximo 2175
Valor Mínimo 3
2001
218
2149
5
2002
227
2176
2
2003
235
2647
7
2004
240
2709
6
2005
241
2964
4
2006
237
3173
3
Gestión
Promedio
2000
Tabla III.15 Alumnos Efectivos en el Departamento de Santa Cruz.
245 240 235 230 225 220 215 210 205 200 195 2000
2001
2002
2003
2004
2005
2006
Figura III.9 Distribución de alumnos Efectivos en el Departamento de Santa Cruz
En el Departamento de Potosí la matriculación del 2003 al 2006 permanece casi constante (Figura III.10). La Unidad con menor matricula es la UE ISLA 2006 con 4 alumnos. La Unidad con mayor matricula es la UE SIGLO XX AMERICA. 2006 con 1.276 alumnos.
Matriculación Potosí 104
95
Valor Máximo 1155
Valor Mínimo 4
2001
96
1171
5
98
2002
99
1159
7
96
2003
101
1228
6
94
2004
101
1265
5
92
2005
101
1274
7
90
2006
102
1276
4
Gestión
Promedio
2000
Tabla III.16 Alumnos Efectivos en el Departamento de Potosí.
102 100
2000
2001
2002
2003
2004
2005
2006
Figura III.10 Distribución de alumnos Efectivos en el Departamento de Potosí
En el Departamento de Tarija la distribución es ascendente. (Figura III.11). La Unidad con menor matricula es la UE CHAUPIUNO 2006 con 5 alumnos.
60
.
La Unidad con mayor matrícula es la UE LA SALLE. 2006 con 1.260 alumnos.
Matriculación Tarija
142
Valor Máximo 1191
Valor Mínimo 7
2001
147
1141
7
2002
150
1148
8
145
2003
154
1192
8
140
2004
159
1275
6
135
2005
162
1254
6
130
2006
157
1260
5
Gestión
Promedio
2000
165 160 155 150
2000
Tabla III.17 Alumnos Efectivos en el Departamento de Tarija.
2001
2002
2003
2004
2005
2006
Figura III.11 Distribución de alumnos Efectivos en el Departamento de Tarija
En el Departamento de Beni la distribución es ascendente. (Figura III.12). La Unidad con menor matricula es la UE EL TORO 2006 con 4 alumnos. La Unidad con mayor matricula es la UE LA SALLE. 2006 con 1.136 alumnos.
Matriculación Beni 160
137
Valor Máximo 801
Valor Mínimo 7
2001
143
861
10
2002
151
942
6
2003
156
1060
7
2004
158
1030
6
130
2005
157
1064
7
125
2006
155
1136
4
Gestión
Promedio
2000
155 150 145
Tabla III.18 Alumnos Efectivos en el Departamento de Beni.
140 135
2000
2001
2002
2003
2004
2005
2006
Figura III.12 Distribución de alumnos Efectivos en el Departamento de Beni.
En el Departamento de Pando la distribución es ascendente. (Figura III.13). La UE con menor matrícula es SANTA ELENA 2000 con 3 alumnos. La UE con mayor matrícula es NUESTRA SEÑORA DEL PILAR FE Y ALEGRIA. 2006 con 872 alumnos.
61
. Matriculación Pando 90
53
Valor Máximo 710
Valor Mínimo 3
2001
57
780
4
2002
62
838
7
2003
65
831
6
2004
67
868
4
10
2005
71
872
6
0
2006
77
801
6
Gestión
Promedio
2000
80 70 60 50 40 30 20
2000
Tabla III.19 Alumnos Efectivos en el Departamento de Pando.
2001
2002
2003
2004
2005
2006
Figura III.13 Distribución de alumnos Efectivos en el Departamento de Pando.
3.2.2.1 TRATAMIENTO DE VALORES FALTANTES
No todas las UE están registradas en el SIE, existen algunas que no cuentan con la documentación
requerida por el Ministerio de Educación por lo que son registradas de
forma manual porque no tienen un código asignado para la inserción al Sistema. Para el desarrollo del proyecto se tomará en cuenta sólo las UE registrados en el Sistema
Existe además otras UE con información incompleta sobre matriculación, que no cuentan con información de fin de gestión. Solo están registrados los de inicio de gestión que no incluyen información de reprobados, aprobados, efectivos y retirados. Estos datos faltantes se ha detectado con consultas SQL y con la comparación con los cubos dinámicos publicados en la página del Ministerio de Educación.
La acción que se decidió con estos datos es eliminarlos porque representan solo el 6% de toda la información.
3.2.1.2.2 TRATAMIENTO DE VALORES ERRONEOS
Se ha detectado algunos posibles errores como en el caso de los valores mínimos de matriculación. Estos valores son muy pequeños
como en el caso de las UE
CHIRGUANAÑAN de Santa Cruz, SANTA ELENA de Pando y JUNIN de La Paz que cuentan con 3 alumnos. Puede que sean errores de transcripción, incompletos o pertenezcan al área rural de tipo multigrado.
62
. En la Tabla III.20 se muestran las características de las Unidades Educativas que tienen la
menor cantidad de alumnos efectivos, por ejemplo (columna 4) en los departamentos de Santa Cruz y Pando existen tres unidades educativas (SANTA ELENA 2000, CHIRGUANAÑAN 2006 y PIQUIRI 2000) con tres alumnos efectivos del área rural y pertenece a multigrado.
Cantidad de Alumnos efectivos posiblemente erróneos Efectivos
Frecuencia
Área
Multigrado
Departamentos
2
1
Rural
No
Santa Cruz
2
1
Urbana
No
Cochabamba
3
1
Urbana
No
La Paz
3
3
Rural
Si
Santa Cruz, Pando
4
12
Rural
Si
Santa Cruz, Potosí, Beni y Pando
5
1
Rural
No
Santa Cruz
5
18
Rural
Si
La Paz, Santa Cruz, Potosí, Oruro, Tarija, Beni y Pando.
Tabla III.20 Cantidad de alumnos efectivos posiblemente erróneos.
Los que no pertenecen a multigrado no
justifican
la poca cantidad de alumnado,
posiblemente no están completos, se cerró la Unidad Educativa o simplemente fue un error de transcripción, por lo que se consideran valores erróneos y se procede a eliminarlos.
3.3 PROCESO DE TRANSFORMACIÓN
Se debe transformar los datos para ajustarlos a los requisitos de entrada del algoritmo de minería de datos. Para este proceso
se realizarán los siguientes pasos: numerización,
reducción de atributos y la extracción de características para la generación de nuevos atributos.
Numerización
Es el proceso de convertir valores nominales a numéricos. Este cambio se realiza porque se adecua mejor los valores numéricos
a los distintos algoritmos que se aplicarán más
adelante. Se tratará los atributos de área y dependencia.
63
.
Área : Rural Æ 1 Urbana Æ 2 Dependencia : Pública o Fiscal Æ 1 Convenio
Æ2
Privada
Æ3
Comunitaria
Æ4
Atributos omitidos
Algunos atributos del data set no están adecuados para aplicar algoritmos de agrupamiento, por ejemplo en el caso del atributo código que es único para cada UE , por lo que no resulta adecuado
introducirlo. Se eliminarán
además los atributos de domiciliaria porque
el
algoritmo de agrupamiento tratará de agruparlos simultáneamente por ubicación pero lo que se quiere lograr es agrupar distintos comportamientos acerca de la matriculación. Por lo que se procederá a eliminar los siguientes atributos: 9
Cod_UE
9
Nombre
9
Dirección
9
Zona
9
Provincia
9
Sección
9
Cantón
9
Localidad
Extracción de Características
En la transformación de atributos se puede transformar un conjunto de atributos en otros, o bien derivar nuevos atributos a partir de otros. En el proyecto se genera dos nuevos atributos: tasa de aprobación y tasa de abandono, usando los datos de: efectivos, promovidos, reprobados, inscritos nuevos, inscritos repitentes, no incorporados, retirado traslado y retirado abandono. Para el cálculo de la tasa de
64
. aprobación se divide la cantidad de estudiantes promovidos entre la cantidad de estudiantes
efectivos como se muestra a continuación:
Tasa de aprob = Promovidos / Efectivos.
El cálculo de la tasa de abandono se realiza de la siguiente manera [1] :
Tasa de abandono = 1-( efectivos / (inscritos nuevos + inscritos repitentes
+ no incorporados ))
Data Set Transformado
El proceso de conformación del data set a partir de una base de datos involucra el proceso de preparación y transformación de datos. El dataset transformado una vez eliminado los campos y generado las tasa de aprobación y tasa de abandono se muestra en la tabla III.21.
DATA SET TRANSFORMADO
Campo
Descripción
Tipo
P_INI0
Paralelos en el grado 0 del nivel inicial
numérico
P_INI1
Paralelos en el grado 1 del nivel inicial
numérico
P_INI2
Paralelos en el grado 2 del nivel inicial
numérico
P_PRIM1
Paralelos en 1ro de Primaria
numérico
P_PRIM2
Paralelos en 2do de Primaria
numérico
P_PRIM3
Paralelos en 3ro de Primaria
numérico
P_PRIM4
Paralelos en 4to de Primaria
numérico
P_PRIM5
Paralelos en 5to de Primaria
numérico
P_PRIM6
Paralelos en 6to de Primaria
numérico
P_PRIM7
Paralelos en 7mo de Primaria
numérico
P_PRIM8
Paralelos en 8vo de Primaria
numérico
P_SEC1
Paralelos en 1ro de Secundaria
numérico
P_SEC2
Paralelos en 2do de Secundaria
numérico
P_SEC3
Paralelos en 3ro de Secundaria
numérico
P_SEC4
Paralelos en 4to de Secundaria
numérico
Mat_ INI0
Matriculados en el grado 0 del nivel inicial
numérico
Mat_INI1
Matriculados en el grado 1 del nivel inicial
numérico
1
El cálculo de la tasa de abandono se puede realizar de varias formas, no necesariamente de la forma propuesta.
65
. Mat_INI2
Matriculados en el grado 2 del nivel inicial
numérico
Mat_PRIM1
Matriculados en 1ro de Primaria
numérico
Mat_PRIM2
Matriculados en 2do de Primaria
numérico
Mat_PRIM3
Matriculados en 3ro de Primaria
numérico
Mat_PRIM4
Matriculados en 4to de Primaria
numérico
Mat_PRIM5
Matriculados en 5to de Primaria
numérico
Mat_PRIM6
Matriculados en 6to de Primaria
numérico
Mat_PRIM7
Matriculados en 7mo de Primaria
numérico
Mat_PRIM8
Matriculados en 8vo de Primaria
numérico
Mat_SEC1
Matriculados en 1ro de Secundaria
numérico
Mat_SEC2
Matriculados en 2do de Secundaria
numérico
Mat_SEC3
Matriculados en 3ro de Secundaria
numérico
Mat_SEC4
Matriculados en 4to de Secundaria
numérico
Efectivos
Cantidad de Efectivos
numérico
Promovidos
Cantidad de Aprobados
numérico
Insc_nuevos
Inscritos Nuevos
numérico
Insc_rep
Inscritos Repitentes
numérico
No_incorpor
No incorporados
numérico
Retir_tras
Retirados por traslados
numérico
Retir_aban
Retirados por abandono
numérico
Tasa_Aprob
Tasa de aprobación
numérico
Tasa_Aban
Tasa de abandono
numérico
Multigrado
Aula multigrado
booleano
Dependencia
Tipo de UE
numérico
Area
Área Rural o urbana
numérico
Tabla III.21 Data set Transformado
3.4 MINERIA DE DATOS
Como el data set ha sido preprocesado y transformado se puede aplicar una tarea de minería de datos. La Clustering
herramienta Weka (Ver Anexo A) proporciona el algoritmo k-means de
para agrupar los datos y detectar las características y similitudes entre las
unidades educativa, posteriormente se aplicará el algoritmo J.45 de para tratar de conocer los atributos
Árboles de Decisión
relevantes en el clustering. Cabe destacar que se
analizará en los siguientes apartados el data set de La Paz 2005 que una vez procesado y transformado resultó con 4.009 instancias y 43 registros.
66
3.4.1
ANÁLISIS
MEDIATE LA
. HERRAMIENTA DE MINERÍA DE DATOS
WEKA
Se ha elegido la herramienta WEKA(Waikato Environment for Knowledge Analysis) por contar con varias ventajas que le distinguen de las demás herramientas. A continuación se listan algunas de estas ventajas:
• Es de distribución libre y gratuita • Cuenta con una interfase gráfica amigable y es fácil de usar • Tiene incorporado un amplio conjunto de algoritmos de minería de datos • Esta programado en código abierto, permitiendo al usuario programador agregar nuevas funciones según su necesidad.
Actualmente existen varias versiones de esta herramienta, pero para el desarrollo del proyecto se utiliza la Versión 3.4.5. La ventana inicial se muestra en la Figura III.14. Tiene cuatro opciones de acceso Simple CLI, Explorer, Experimenter y KnowledgeFlow, la más utilizada por contar una interfaz gráfica es Explorer, es por ello que se elige esta opción.
Figura III.14 Ventana inicial de Weka.
La ventana
Explorer (Ver Figura III.15)
tiene las opciones de: Preprocesamiento,
Clasificación, Agrupamiento , Asociación, Selección de atributos y Visualización.
67
.
Figura III.15 Opciones de Explorer de Weka
Los datos se introducen en el formato CSV (Ver Figura III.16), por ejemplo una hoja de cálculo tiene la opción de guardar los datos con esta extensión.
Figura III.16 Venta de introducción de datos de Weka
La herramienta Weka
proporciona la opción de preprocesamiento (Ver Figura III.17). En
la primera parte de la ventana se visualiza la lista de atributos, en la segunda parte se visualiza el tipo, la media, la varianza, el valor mínimo y máximo si el atributo es de tipo numérico y la cantidad
de instancias de una determinada variable si el atributo es de tipo
nominal, en la tercera parte se muestra en forma gráfica la distribución de los atributos.
68
.
1 2
3
Figura III.17 Ventana de Preprocesamiento de Weka.
En la Figura III.18a se muestra la distribución del atributo ÁREA, se observa que hay 3.038 UE rurales (representado por el color azúl) y 971 UE urbanas (representado por el color rojo). En la Figura III.18b se muestra la distribución del atributo DEPENDENCIA clasificado por área, se observa 3.548 UE fiscales en su mayoría rurales (azul), 239 UE privadas en su mayoría urbanas(rojo), 212 UE de convenio en su mayoría rurales y 10 UE comunitarias.
RURAL
FISCAL
URBANO
PRIVADO
Figura III.18a Distribución del atributo área.
CONVENIO
COMUNITARIO
Figura III.18b Distribución del atributo área.
69
. En la Figura III.18c se muestra la distribución de MULTIGRADO, se observa que la
mayoría de las UE son de tipo multigrado. En la figura III.18d se muestra el atributo TASA DE APROBACIÓN en el rango de 0,66 como mínimo y 1 como máximo, se observa que la mayoría tiene una tasa de aprobación de 1 en el área rural.
MULTIGRADO
NO MULTIGRADO
Figura III.18c Distribución del atributo multigrado
Figura III.18d Distribución de tasa de aprobación
3.4.1.1 APLICACIÓN DE CLUSTERING
Para aplicar el algoritmo de K-means, se debe seleccionar la pestaña Cluster y escoger el algoritmo SimpleKMeans como se muestra en la Figura III.19.
Figura III.19 Ventana Cluster de Weka
70
. El algoritmo requiere el número de Clusters se probará con 2, 3, 4 y 5, posteriormente se
elegirá el número adecuado de clusters por medio de una análisis de distancias. Después de ejecutar el algoritmo se muestra en la parte derecha el número de iteraciones, los Centroides (representantes de grupo) representados por la media y la desviación estándar y
la cantidad de instancias pertenecientes a cada grupo.
3.4.1.2 ANÁLISIS DE DISTANCIAS PARA DETERMINAR EL NÚMERO DE CLUSTERS
Para aplicar clustering es necesario determinar el número adecuado de clusters o grupos, se puede definir y probar con diversos números, pero se necesita un criterio para seleccionar el más coherente. Por tal motivo se ha realizado varios experimentos con 2, 3 , 4 y 5 clusters.
El criterio que se tomó en cuenta para seleccionar el número adecuado de clusters es : "el número óptimo de clusters
es aquel en el que los ejemplos tienen características que
generan pequeñas distancias dentro de los grupos y grandes distancias entre los grupos",
Por lo tanto se realizará el análisis de distancias. Para el análisis de distancias la función más común es la distancia euclidiana que se basa en la longitud de la recta que une dos puntos en el espacio euclídeo, para ello las instancias numéricas. La función esta expresada de la siguiente manera:
d( O1 , O 2 ) =
n
∑ (x i =1
1
( O1 ) − x 1 ( O 2 )) 2
Es necesario normalizar los valores para que no ocurra problemas con los valores mínimos y máximos . Por ejemplo las distancias debidas a diferencias de un atributo que va entre 0 y 100 serán mucho mayores que las distancias debidas a diferencias de un atributo que va entre 0 y 10. La normalización más común es la normalización lineal uniforme, es la que se utilizará en el presente proyecto, donde la variable normalizada esta en el rango de 0 a 1.
71
.
y − min y' = max − min Donde:
v es la variable a normalizar min es el mínimo de los valores dados para ese atributo max es el máximo de los valores dados para ese atributo v' es la variable normalizada.
Los valores de las distancias calculadas para
2, 3 ,4 y 5 clusters se muestra en la Tabla
III.22. DOS CLUSTERING
CINCO CLUSTERING
Distancia entre clusters Distancia 0-1
Distancia entre clusters 1,3
Distancia Acumulado dentro del cluster
Distancia 0-1
1,5
Distancia 0-2
1
Acumulado Cluster 0
2.891
Distancia 0-3
0,3
Acumulado Cluster 1
5.288
Distancia 0-4
0,7
Distancia 1-2
1
Distancia 1-3
1,5
TRES CLUSTERING Distancia entre clusters
Distancia 1-4
1,2
Distancia 0-1
1,5
Distancia 2-3
1
Distancia 0-2
1,4
Distancia 2-4
1,2
Distancia 1-2
1,3
Distancia 3-4
0,7
Distancia Acumulado dentro del cluster
Distancia Acumulado dentro del cluster
Acumulado Cluster 0
2.886
Acumulado Cluster 0
2.925
Acumulado Cluster 1
5.022
Acumulado Cluster 1
5.404
Acumulado Cluster 2
4.093
Acumulado Cluster 2
4.715
Acumulado Cluster 3
3.062
Acumulado Cluster 4
4.067
CUATRO CLUSTERING Distancia entre clusters Distancia 0-1
1,5
Distancia 0-2
1
Distancia 0-3
0,3
Distancia 1-2
1
Distancia 1-3
1
Distancia 2-3
1
Distancia Acumulado dentro del cluster Acumulado Cluster 0
3.923
Acumulado Cluster 1
5.330
Acumulado Cluster 2
4.193
Acumulado Cluster 3
4.396
Tabla III.22 Tabla de distancias.
72
. Se observa que al aplicar dos clusters se tiene una distancia entre clusters de 1,3 y un
promedio de la distancia acumulada de 4.089 Con tres clusters la distancia máxima es 1,5 y la mínima es de 1,3 y el promedio de la distancia mínima acumulada es de 4.000. Con cuatro clusters las distancias entre clusters no son tan bajas, pero los acumulados son mayores que con dos y tres clusters, lo mismo pasa con cinco clusters por lo que se descartan Entre dos clustes y tres clusters no hay mucha diferencia pero el acumulado con tres clusters es menor, es por ello que se ha elegido aplicar tres clusters. 3.4.1.3 ANÁLISIS DE LOS GRUPOS
La tabla de centroides con 43 atributos generado por la herramienta Weka se muestra en la Tabla III.23. Se puede observar que por ejemplo el cluster 0
esta representado por un
promedio de cero paralelos en 8vo de Primaria (atributo P_PRIM8), 6 alumnos en 4to de Primaria (atributo MAT_PRIM4) y tiene una tasa de aprobación (atributo T_APROB) de 99,5 %. P_INI0
P_INI1
P_INI2
P_PRIM1
P_PRIM2
P_PRIM3
Cluster 0
0
0.0215
0.5055
0.959
0.9176
0.898
0.7594
Cluster 1
0
0.029
0.5176
0.5921
0.5797
0.6046
Cluster 2
0.0145
0.2298
1.1408
1.4648
1.4141
1.3892
P_PRIM8 P_SEC1 P_SEC2 P_SEC3 P_SEC4 MAT_INI0
P_PRIM4 P_PRIM5
P_PRIM6
P_PRIM7
0.6723
0.3855
0.2348
0.5942
0.6149
0.7267
0.8219
1.3706
1.3696
1.3737
1.3137
MAT_INI1
MAT_INI2
MAT_PRIM1 MAT_PRIM2 MATPRIM3
0.2121
0.0852
0.0797
0.0699
0.0609
0
0.1297
4.073
7.6746
6.1121
5.9832
0.8302
0.8923
0.8323
0.7847
0.7391
0
0.2774
10.735
12.1511
11.7557
12.4596
1.2702
1.1749
1.0611
0.9876
0.8944
0.2433
5.5828
34.736.
44.4534
42.4834
41.7474
MAT_SEC2
MAT_SEC3
MAT_PRIM4 MAT_PRIM5 MAT_PRIM6 MAT_PRIM7 MAT_PRIM8 MAT_SEC1
MAT_SEC4
5.7969
5.4199
4.2508
2.9355
2.5809
1.2547
0.9906
0.8188
0.6301
12.6729
13.1159
16.7619
18.6501
18.1014
20.617
17.3602
15.6501
13.8923
41.4824
41.4803
42.5248
40.5611
39.7629
40.0031
36.1718
34.1346
30.5787
EFECTIVOS
PROMOV
REPROB
INSC_NUE
INSC_REP
NO_INC
RET_TRAS
RET_ABAN
48.6625
48.1355
0.3664
710.593
0.077
0.9855
0.1578
4.9008
194.2008
187.9172
5.1781
299.005
2.0455
4.5942
1.0186
18.0145
515.9503
498.3313
15.8364
51.6989
7.8137
9.8282
6.7277
24.8913
Cluster 0
2560 ( 64%)
Cluster 1
483 ( 12%)
Cluster 2
966 ( 24%)
73
. T_APROB
T_ABAN
MULTIG
DEPEN
AREA
0.9953 0.9652
0.0981 0.1101
1 0
1.0563 1.0994
1.002 1
0.9679
0.0836
0
1.5466
2
Tabla III.23 Tabla de Centroides
Diagramas de Venn
Para comprender mejor las características de los grupos se puede aplicar diagramas de Venn como se muestra en las Figuras III.20. El diagrama de Venn del Cluster 0 (Figura III.20 a) se interpreta de la siguiente manera:
2.445 instancias que son de tipo multigrado, fiscales
y del área rural; 5 instancias que son de tipo multigrado, fiscales y no pertenecen al área rural; 110 instancias son de tipo multigrado, del área rural pero no son fiscales.
Cluster 0 ( 2560 Instancias)
Multigrado =si (2560)
Dependencia = fiscal (2450) 0
0
5
2445 110
0
0
Área = rural (2555)
Figura III.20 a Diagrama de Venn del Cluster 0
En el diagrama de Venn del Cluster 1 (Figura III.20 b) se observa 439 instancias son de tipo multigrado, fiscales y pertenecientes al área rural, sin embargo sólo 44 instancias son de tipo multigrado que no son fiscales y pertenecen al área rural.
En el diagrama del cluster 2 (Figura III.20 c) se observa que 659 instancias son fiscales que pertenecen al área urbana y no son de tipo multigrado, en cambio 307 instancias no son fiscales, pertenecen al área urbana y no son de tipo multigrado.
74
. Cluster 1 ( 483 Instancias)
Multigrado =no (483)
Dependencia = fiscal (439) 0
0
0
439 44
0
0
Área = rural (483)
Figura III.20 b Diagrama de Venn del Cluster 1
Cluster 2 ( 966 Instancias)
Multigrado =no (966)
Dependencia = fiscal (659) 0
0
0
659 307
0
0
Área = urbana (966) Figura III.20 c Diagrama de Venn del Cluster 2
Gráficos de Dispersión
Con Weka se puede analizar los grupos de forma visual mediante gráficos de dispersión Por ejemplo en la Figura
III.21 se muestra
la distribución de los grupos respecto a la
dependencia. Se observa que el primer grupo (azul) presenta una alta proporción de UE fiscales, seguida por las de convenio y muy pocas privadas El segundo grupo(rojo) en su mayoría son fiscales, seguido por convenio y no presenta ninguna comunitaria. El tercer
75
. grupo(verde) tiene mayor distribución en privadas y de convenio a diferencia de los dos
grupos anteriores.
Figura III.21 Ventana de visualización del atributo dependencia
Con respecto a la matriculación en 4to de secundaria (Ver Figura III.22), se observa que el tercer grupo tiene mayor dispersión
acercándose más a la máxima matriculación, en
contraposición la distribución del primer grupo se acerca más a cero.
Figura III.22 Ventana de visualización del atributo matrícula en 4to Sec.
76
. Gráfico de Barras.
Por medio de los gráficos de barras (Ver Figura III.23) que proporciona Weka, también se puede visualizar la distribución de los grupos.
En la figura b se confirma
que la mayor parte del cluster 0 pertenece al área rural y todos
los del cluster 2 son urbanas. En la figura c se muestra que la mayor parte del cluster 0 tiene una tasa de aprobación de 1, sin embargo en el cluster 2 se tiene una distribución más homogénea, porque
va reduciendo desde 1 casi en la misma proporción hasta
aproximadamente 0,7. En la figura d se muestra que la tasa de abandono del cluster 0 en su mayoría es 0 y va descendiendo hasta 0,28. En la figura e se muestra que la mayoría del cluster 0 y cluster 1 son unidades educativas fiscales, mientras que la mayoría del cluster 2 son unidades educativas privadas.
CLUSTER 0
RURAL
CLUSTER 2
URBANO CLUSTER 1
a) Atributo Cluster
c) Atributo Tasa de aprobación
b) Atributo Área
d) Atributo Tasa de abandono
77
.
MULTIGRADO
FISCAL
NO MULTIGRADO
PRIVADO
CONVENIO
COMUNITARIO
e ) Atributo Dependencia
f) Atributo Multigrado
g ) Atributo Matrícula 1ro de Primaria
h) Atributo Matrícula 4to de Secundaria
Figura III.23 Gráfico de Barras de Weka.
Por lo tanto, en base al análisis de la tabla de centroides, los diagramas de Venn y las herramientas de visualización
se puede dar una primera interpretación:
El primer grupo (64%) se caracteriza por unidades educativas con una baja cantidad de alumnos efectivos, son de tipo multigrado y del área rural que tienen una tasa de abandono promedio del 10% . A diferencia de los demás grupos es el que tiene mayor tasa de aprobación. En cuanto a la matriculación, en el nivel primario se tiene un promedio de 6 alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario. El segundo grupo (12%) se caracteriza por unidades educativas fiscales del área rural pero que no son de tipo multigrado,
tienen mayor tasa de abandono a diferencia de los dos
grupos y la distribución de la matrícula en todos los niveles es casi homogénea.
78
. El tercer grupo (24%) se caracteriza por unidades educativas urbanas, en su mayoría son fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación en todos los niveles
con un promedio de 516 alumnos efectivos y tienen
menor tasa de abandono.
3.4.1.2 APLICACIÓN DE ÁRBOLES DE DECISIÓN
Después de aplicar Clustering, se etiquetan los datos
para identificar a que grupo
pertenece cada instancia. La herramienta Weka genera automáticamente esta etiqueta (Ver Figura III.24) creando un atributo denominado Cluster de tipo nominal después de aplicar un algoritmo de clustering.
Figura III.24 Etiquetado de Clustering en Weka.
Como los datos ya están etiquetados ahora se puede aplicar algoritmos pertenecientes a los árboles de decisión para identificar reglas pertenecientes a los grupos. Un algoritmo de árbol de decisión muy utilizado es el algoritmo C4.5, en Weka se utiliza la terminología J48 para referirse a este algoritmo. Para ejecutar esta opción se ingresa a la ventana de clasificación, se ejecuta la opción J.48 y se elige el atributo clasificador como se muestra en la Figura. III.25
79
.
Figura III.25 Ventana de Clasificación de Weka.
El algoritmo muestra los resultados en forma de diagrama y en forma gráfica mediante un árbol. En la ventana de salida
se muestra el diagrama y la matriz de confusión, para
visualizar el árbol de forma gráfica se hace click con el botón derecho sobre la lista de resultados como se muestra en la Figura III.26.
Figura III.26 Ventana del algoritmo J.48 de Weka.
80
. En la Figura III.27 se muestra el gráfico del árbol de decisión. Con la matriz de confusión se
comprueba que los clusters tienen sentido, ya que la confusión es cero.
Figura III.27 Árbol de decisión
Se puede expresar también mediante el siguiente pseudocódigo.
IF multigrado = si THEN cluster 0 ELSE IF area =rural THEN cluster 1 ELSE area= urbana THEN cluster 2 END END
El gráfico se puede interpretar de la siguiente manera:
" si una UE no es multigrado y pertenece al área urbana, entonces pertenece al cluster 2 (966 instancias)".
81
. " si una UE es de tipo multigrado, entonces pertenece al cluster 0, esta regla se cumple en 2.560 instancias".
" si una UE no es multigrado y pertenece al área rural, entonces pertenece al cluster1
(483
instancias)".
3.5 IMPLEMENTACIÓN DE LA HERRAMIENTA DE MINERÍA DE DATOS
En el presente proyecto se ha desarrollado una herramienta programado en Delphi 7 utilizando OpenGL para representar los datos de manera multidimensional y para usar la técnica de Clustering k-means. El diagrama de secuencia se muestra en la Figura III.28, el cual se observa que la entrada es el data set limpio, el siguiente proceso es la normalización que es un paso previo a la visualización y a la aplicación del algoritmo k-means.
DATA SET
NORMALIZACIÓN
VISUALIZACIÓN MULTIDIMENSIONAL
ALGORITMO K-MEANS
ANÁLISIS DE RESULTADOS
ANÁLISIS MEDIANTE EXPLORACIÓN
VISUALIZACIÓN DE CENTROIDES
Figura III.28 Diagrama de secuencia
82
.
Una presentación inicial del programa se muestra en las Figuras III.29.
Figura III.29 Pantalla Inicial
83
Se tiene
cuatro opciones principales: el acceso a los datos, la
normalización,
. la
visualización multidimensional y el algoritmo k-means.(Ver Figura III.30)
Los datos se cargan en formato de texto donde, en la primera fila están los nombres de los atributos separados por tabulador y continúa con los datos a partir de la segunda fila también separados por tabulador.
Para graficar es necesario normalizar los datos, se debe normalizar las variables numéricas para normalizar la magnitud del efecto que cada variable tiene sobre los resultados. La normalización se hace en los datos de los atributos y no así en todos los datos del Data set.
ENTRADA DE DATOS
NORMALIZACIÓN DE DATOS
INGRESO A LA PANTALLA DE VISUALIZACIÓN
ALGORITMO KMEANS
Figura III.30 Opciones de acceso
84
. 3.5.1 VISUALIZACIÓN MULTIDIMENSIONAL
Aunque los datos están recopilados, seleccionados y limpios todavía no están listos para realizar una tarea de minería de datos.
Es necesario, además realizar un reconocimiento o análisis exploratorio de los datos con el objetivo de conocerlos mejor antes de aplicar una tarea de minería de datos. De esta manera la técnica de visualización es útil para tener un conocimiento previo de los datos para luego comparar y analizar los resultados con una técnica de minería de datos. En la Figura III. 31 se muestra la pantalla de visualización donde se muestra el cubo con los atributos: tasa de aprobación, efectivos, tasa de abandono, dependencia y área.
Figura III.31 Pantalla de visualización multidimensional
85
. En la Figura anterior se muestra en el eje x la tasa de aprobación, en el eje y la cantidad de
alumnos efectivos , en el eje z la tasa de abandono, en el color la dependencia (Rojo=Fiscal, Amarillo=Convenio, Cian = Privado, Azúl = Comunitaria) y en la forma el área ( cubo= rural , esfera = urbana). Una vez cargado los datos se procede a la interpretación, por ejemplo el punto encerrado en una circunferencia de la gráfica se puede interpretar de la siguiente manera:
"El punto representa a una UE fiscal del área urbana con una baja cantidad de alumnos efectivos, una tasa de aprobación regular y una alta tasa de abandono ".
Realizando varias exploraciones
visuales
combinando diferentes variables,
se ha
identificado algunos comportamientos:
"Hay más unidades educativas
fiscales (representado por el color rojo), se observa
además que a mayor matrícula existe menor tasa de abandono" ( Ver Figura III.32).
Figura III.32 Visualización Efectivos-Tasa de aban-Dependencia
Los datos en el ejemplo de la Figura III.33 pertenecen al área urbana, en la parte inferior se muestra a las UE fiscales(rojo), seguido por las UE de convenio (amarillo) y las UE privadas ( cyan). en la que se observa el siguiente comportamiento
86
. " La tasa de aprobación es mayor en las unidades educativas privadas y de convenio que en las unidades educativas fiscales del área urbana".
Figura III.33 Visualización Dependencia- Tasa de aprobación
En las Figuras III.34 y III.35 se muestra la distribución con respecto a la matrícula en 5to de primaria( representado por el eje y), la tasa de aprobación( representado por el eje x), y la tasa de abandono( representado por el eje z), del área rural y urbana.
Figura III.34 Visualización Matrícula en 5to de Primaria - Tasa aprobación - Tasa de abandono del área rural
87
.
Figura III.35 Visualización Matrícula en 5to de Primaria - Tasa aprobación - Tasa de abandono del área urbana
Observando éstos gráficos se deduce lo siguiente:
"En 5to de primaria del área rural
se tiene mayor tasa de abandono y mayor tasa de
aprobación. Sin embargo el área urbana se tiene una distribución más dispersa, donde las unidades educativas con menor matrícula tienen menor tasa de aprobación y mayor tasa de abandono. Estos comportamientos son similares
en los grados de
1ro a 4to de
Primaria".
Con respecto a la matrícula en 4to de secundaria se muestran en las Figuras III.36 y III37.
Figura III.36 Visualización Matrícula en 4to de Secundaria - Tasa aprobación - Tasa de abandono del área urbana
88
.
Figura III.37 Visualización Matrícula en 4to de Secundaria - Tasa aprobación - Tasa de abandono del área urbana
En 4to de Secundaria se
presenta menor tasa de aprobación
sobre todo en el área
urbana. En el área rural se reduce la matriculación más que todo en las unidades educativas fiscales y de igual forma se tiene mayor tasa de abandono, sin embargo en el área urbana, se incrementa la matrícula en unidades educativas fiscales y se reduce la tasa de aprobación. Este comportamiento es similar a 1ro, 2do y 3ro de secundaria.
3.5.2 ALGORITMO K-MEANS
El algoritmo k-means
parte de un número determinado de grupos y los
ejemplos a
agrupar sin etiquetar, los centros de cada partición se calculan como la media de los ejemplos pertenecientes a cada grupo. A medida que el algoritmo se va ejecutando, algunos ejemplos cambian de un grupo a otro, debiendo recalcularse los centros en cada paso.
1. Elegir k ejemplo que actúan como semillas(k número de clusters).
2. Para cada ejemplo, se calcula el grupo
más próximo y se incluye en la lista de
ejemplos de dicho grupo.
89
3. Se calcula
. el centroide de cada grupo por medio de la media o la mediana si los
datos son numéricos y la moda si los datos son nominales, que pasan a ser las nuevas semillas.
4. Se repite el procedimiento hasta que ya no se desplazan los ejemplos.
En la Figura III.38 se muestra la pantalla de k-means donde los datos ya están cargados y se muestran normalizados, en consiguiente
ya se puede elegir la cantidad de grupos y
determinar los centroides.
Cantidad de grupos
Atributo a graficar
Figura III.38 Pantalla del Algoritmo K-means.
En la Figura III.39
se muestra un ejemplo con tres grupos, los centroides se muestran en
una tabla y para comprender mejor la distribución de los grupos se muestra una gráfica en la parte inferior.
90
.
Figura III.39 Determinación y gráfica de los centroides
Para ver los datos completos
de los centroides y no así normalizados, se elige la opción
Datos Completos donde se visualizan los datos con código, nombre, paralelo, matrícula y el
resto de atributos de cada grupo y centroide (Ver Figura III.40).
Figura III.40 Visualización los grupos y centroides
91
. 3.5.3 CRITERIOS DE CALIDAD DE LA HERRAMIENTA
Para evaluar los criterios de calidad de la herramienta implementada se basa en la Norma ISO IECE 9126 en la que evaluando las seis características para categorizar la calidad del software se llegó a la siguiente conclusión:
La herramienta es funcional porque es apropiado para la exploración de datos
que se
adecua al proceso de minería de dato y cumple con la funcionalidad ya que el algoritmo kmeans genera los centroides de los grupos (representantes de cada grupo) por el que se puede identificar el comportamiento de éstos.
La herramienta es usable por la comprensibilidad y la facilidad de aprendizaje mediante la visualización de datos de forma gráfica que resulta atractivo para el usuario.
La herramienta es eficiente porque es una herramienta de análisis y no se necesita actualizar constantemente su estructura, y por la utilización de librerías gráficas para la elaboración de la visualización.
La herramienta es portable porque se puede instalar en cualquier sistema operativo y no necesita notables requerimientos para su ejecución.
3.5.4 ANÁLISIS DE LOS GRUPOS OBTENIDOS POR LA HERRAMIENTA
Las características
de los grupos
y centroides encontrados
mediante la herramienta
implementada son similares a las encontradas con la herramienta Weka. A continuación se describe el comportamiento estos grupos :
El primer grupo (75%)
representa
a las UE
del área rural que en su mayoría son
multigrado y fiscales, tienen un promedio de 70 alumnos efectivos, una tasa de aprobación promedio de 98% y una tasa de abandono promedio de 4%"
El segundo grupo(17% )
constituye
UE urbanas , con un promedio de 296 alumnos
efectivos, tienen una alta tasa de abandono y en su mayoría son fiscales.
92
. El tercer grupo(8%) se caracteriza por UE privadas del área urbana, con un promedio de
953 alumnos efectivos.
3.6 CONCLUSIONES DEL CAPÍTULO
Las etapas de preparación y transformación de datos representa la parte más tediosa que involucra más tiempo para su
porque
desarrollo. Sin embargo dependen de éstas etapas los
resultados que se obtengan después de aplicar una técnica de minería de datos ya que la selección de atributos, el tratamiento de valores faltantes, erróneos o
con ruido, la
transformación de formato y el aumento o reducción de atributos influyen de gran manera en la salida del algoritmo de minería de datos.
Los patrones de comportamiento de los tres grupos encontrados aplicando k-means y las reglas mediante árboles de decisión reflejan el estado situacional de la educación formal. La herramienta weka resulta útil para encontrar éstos patrones, además contiene lo necesario para realizar el análisis como la
visualización, las estadísticas, el filtrado entre
otros.
Al momento de aplicar clustering, es importante determinar el número adecuado de clusters o grupos mediante un análisis de distancias para segmentar de mejor manera los grupos.
La utilización de la herramienta de visualización multidimensional que se ha desarrollado es útil para el análisis exploratorio de los datos ya que resulta efectivo conocer mejor los datos antes de aplicar un algoritmo de minería de datos.
Los patrones obtenidos con la herramienta weka son similares a los encontrados con la herramienta implementada, con lo que se asegura y refuerza el conocimiento encontrado.
De esta manera se ha cumplido los objetivos principal y secundarios formulados en el primer capítulo con excepción del análisis de resultados que se lo realizará en el siguiente capítulo.
93
.
CAPITULO IV ANÁLISIS DE RESULTADOS.
Después de haber realizado el proceso de minería de datos
la siguiente fase es la
interpretación y análisis de los resultados.
4.1 VALIDACIÓN DE RESULTADOS
Para realizar este análisis se validarán los patrones obtenidos en el anterior capítulo con las información preexistente acerca de la situación educativa.
Antes, mencionaremos un resumen de los patrones de comportamiento encontrados en el anterior capítulo :
El primer cluster es el que tiene mayor cantidad de instancias y se caracteriza por unidades educativas con una baja cantidad de alumnos efectivos, son de tipo multigrado, del área rural, tienen mayor tasa de aprobación, una tasa de abandono de 10%
y
la
matriculación en el nivel primario tiene un promedio de 6 alumnos por grado, sin embargo esta matriculación disminuye a 1 en el nivel secundario.
El segundo cluster se caracteriza por unidades educativas fiscales del área rural pero que no son de tipo multigrado, tienen mayor tasa de abandono a diferencia de los dos grupos y la distribución de la matrícula en todos los niveles es casi homogénea. El tercer cluster se caracteriza por unidades educativas urbanas, en su mayoría son fiscales y no son de tipo multigrado, se caracterizan además por contar con una alta matriculación
94
en todos los niveles
. con un promedio de 516 alumnos efectivos y tienen menor tasa de
abandono.
Analizando los grupos anteriores, se puede distinguir los siguientes patrones de comportamiento:
"Si la matrícula es menor a cincuenta y es de tipo multigrado y rural, entonces la tasa de aprobación es mayor que 97%".
"Si la distribución de la matrícula en primaria es similar a la de secundaria y pertenecen al área rural, entonces tienen mayor tasa de abandono"
"Si se tiene mayor matriculación y menor tasa de abandono y una tasa de aprobación menor que 97%, entonces pertenece al área urbana" .
" A mayor tasa de aprobación, entonces existe menor tasa de abandono".
" A menor matrícula, entonces existe mayor tasa de aprobación".
Aplicando árboles de decisión se encontró las siguientes reglas:
Regla 1 Si multigrado = si entonces pertenece al Cluster 0. (2.560 instancias)
Regla 2 Si multigrado = no y área = rural entonces pertenece al Cluster 1. (483 instancias)
95
.
Regla 3 Si multigrado = no y área = urbana entonces pertenece al Cluster 2 (966 instancias).
Analizando estas reglas se tiene que el algoritmo k-means para la segmentación en tres grupos se ha basado principalmente en los atributos multigrado y área.
Según la información preexistente la mayor tasa de analfabetismo, deserción escolar y baja escolaridad se registran en el área rural. La tasa de aprobación en el área rural de la gestión 2005 a nivel nacional
es 93 por ciento en el nivel primario y 83 por ciento en el nivel
secundario, sin embargo en el área urbana se tiene 83 por ciento en el nivel primario y 84 por ciento en el nivel secundario. La tasa de abandono escolar rural es de 7 por ciento y urbano de 5,5 por ciento; el factor para el abandono escolar es la pobreza, los niños y niñas de las familias pobres se insertan tempranamente al mundo laboral y abandonan el sistema educativo En general, la mayor tasa de abandono se presenta en el nivel secundario del área rural, por su parte la tasa de abandono del nivel primario del área urbana es la que presenta tasas no muy alarmantes pero significativas.
Los patrones de comportamiento encontrados coinciden con los aspectos de los indicadores existentes, por ejemplo el algoritmo de minería de datos ha segmentado en dos grupos a las unidades educativas del área rural, una con mayor tasa de abandono porque de hecho incluye el nivel secundario y el otro grupo con menor tasa de abandono pero mayor tasa de aprobación porque en su mayoría pertenecen al nivel primario.
4.2 CONTINUANDO CON EL PROCESO DE FORMA ITERATIVA PARA REFORZAR Y COMPLEMENTAR LOS RESULTADOS.
Después de haber realizado el
proceso de
minería de datos, como ya se mencionó
anteriormente un aspecto que se debe tomar en cuenta es el hecho de que el proceso metodológico para el descubrimiento de conocimiento puede ser de forma iterativa, por tal motivo para reforzar y complementar los resultados del proyecto se ha realizado varias 96
. pruebas con el mismo data set (La Paz 2005). A continuación se muestra a detalle éstos
resultados.
Aplicando árboles de decisión con el atributo dependencia se han generado la siguientes reglas:
Regla 1 Si área =rural entonces es fiscal (3.038 instancias)
Regla 2 Si área = urbana y matrícula en Primero de Secundaria >33 y tasa de abandono >0.06 entonces es fiscal (114 instancias)
Regla 3 Si matrícula en cuarto de secundaria >22 y tasa de aprobación >0.97 y tasa de abandono <=0.15 entonces es privado(80 instancias)
Regla 4 Si área = urbano y Matrícula en quinto de primaria <=38 y Tasa de aprobación >0.92 entonces es privado (127 instancias)
Para comparar y reforzar estas reglas se ha realizado pruebas aplicando reglas de asociación específicamente el algoritmo a priori que proporciona la herramienta Weka. Los resultados obtenidos se muestran mediante las siguientes inferencias encontradas:
97
. "La tasa de aprobación es de 1 en 2.231 UE de tipo multigrado con una confianza del 100%".
" Si la matrícula en 4to de secundaria es cero y la tasa de aprobación es uno, entonces pertenece al área rural, con una confianza de 94% en 2.561 instancias "
"Si una UE es de tipo multigrado y tiene una matrícula en primaria menor a 10, entonces pertenece al área rural. Esta regla se cumple en 1.086 UE con una confianza de 100%."
"Si la tasa de aprobación es 1 y la matrícula en 8vo de primaria es cero, entonces
la
matrícula en 7mo de primaria es cero, con una confianza de 97% en 2.040 instancias".
"Si la tasa de abandono
están en el rango de 0 a 0,1, entonces no pertenecen a
multigrado, con una confianza de 100% en 305 instancias".
"Si la tasa de aprobación
es menor o igual a 0.9, entonces no pertenecen a multigrado,
con una confianza de 100% en 186 instancias".
Como hay muchas UE que tienen sólo el nivel inicial, o el nivel primario o sólo el nivel secundario, generan varios ceros por lo que aplicando Clustering la media puede variar enormemente. Por este motivo se ha agrupado por niveles, por ejemplo en el nivel inicial hay 1.893 UE con matriculación mayor a cero en todos los grados de este nivel.
Nivel Inicial
Por lo tanto se conforma un data set con 1.893 instancias y se procede a aplicar Clustering. Los centroides encontrados se muestra en la Tabla IV.1
Cluster
P_INI0
P_INI1
P_INI2
MAT_INI0
MAT_INI1
MAT_INI2
EFECTIVOS RET_TRASL
RET_ABAN
Cluster 0
0
0
1.751
0
0
55.4434
528.9746
6.6628
20.9307
Cluster 1
0
0
1
0
0
8.0721
60.0889
0.1954
6.012
Cluster 2
0
0
1.109
0
0
23.0616
233.2322
1.1043
20.8294
98
. T_APROB
T_ABAND
MULTIG
DEPEN
AREA
0.9852
0.0744
0
1.6028
2
0.9944
0.0966
1
1.0392
1
0.9858
0.0954
0
1.0995
1
Cluster 0
433 ( 23%)
Cluster 1
1249 ( 66%)
Cluster 2
211 ( 11%)
Tabla IV.1. Tabla de centroides (Nivel Inicial)
El comportamiento de los grupos es similar a los encontrados con el total de instancias (4.009 instancias), pero se añade la información de que en el grupo de UE
multigrado del área
rural se tienen un promedio de 8 alumnos por paralelo en el nivel inicial, sin embargo en el grupo de las UE no multigrado del área rural se tiene un promedio de 23 alumnos por paralelo, y en el grupo de las UE del área urbana se tiene un promedio de 27 alumnos por paralelo.
El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.1. Se observa
también
que el árbol
representado en la anterior figura es similar al árbol
encontrado con el total de instancias.
a b c <-- classified as 1249 0 0 | a = cluster1 0 211 0 | b = cluster2 0 0 433 | c = cluster0 Figura IV.1. Árbol de decisión ( Nivel Inicial )
99
. 1ero a 5to de Primaria
Hay 2.307 UE que tienen una matrícula mayor a cero en los cursos de 1ro a 5to de primaria. Aplicando clustering se ha encontrado los centroides mostrados en la tabla III.
CLUSTER
P_PRIM1
P_PRIM2
P_PRIM3
P_PRIM4
P_PRIM5 MAT_PRIM1 MAT_PRIM2 MAT_PRIM3 MAT_PRIM4
Cluster 0
1.0019
1
1
1
1
8.6027
7.5278
7.4299
8.3109
Cluster 1
1.8532
1.7941
1.7831
1.7601
1.77
53.2968
51.0515
50.7021
50.5498
Cluster 2
1.0011
1.0011
1.0023
1.0023
1.0057
9.63
8.0859
7.9404
8.6804
CLUSTER
MAT_PRIM5 EFECTIVOS RET_TRAS RET_ABAN T_APROB T _ABAND MULTIG
DEPEND
AREA
Cluster 0
8.5969
76.8733
0.3704
13.572
0.988
0.1871
1
1.0269
1.0019
Cluster 1
50.789
449.809
5.7656
21.104
0.9832
0.0818
0
1.5235
1.736
Cluster 2
8.8981
68.3265
0.1649
3.7171
0.9946
0.0513
1
1.0779
1.0034
Cluster 0
521 ( 23%)
Cluster 1
913 ( 40%)
Cluster 2
873 ( 38%)
Tabla IV.2. Tabla de centroides (1ero -5o de Primaria)
Otro conocimiento que se aporta con el análisis de éstos grupos es que: en el nivel primario, si pertenece al área rural entonces es de tipo multigrado y tienen un promedio de 8 alumnos por paralelo, esto significa que hay pocas unidades educativas de este nivel que pertenecen al área rural pero que no son de tipo multigrado. Además se observa que en un grupo de 521 instancias de tipo multigrado se tiene mayor tasa de abandono expresado en un porcentaje de 18,7%. El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.2.
100
.
a b c <-- classified as 514 0 7 | a = cluster0 0 913 0 | b = cluster1 6 0 867 | c = cluster2 Figura IV.2 Árbol de decisión ( 1ro a 5to de Primaria)
Observando el árbol se obtiene las siguientes reglas: Regla 1 Si multigrado = no entonces pertenece al Cluster 1 (913 instancias)
Regla 2 Si multigrado = si y tasa de abandono <=0.11 entonces pertenece al Cluster 2. (834 instancias)
101
.
Regla 3 Si multigrado = si y tasa de abandono >0.12 entonces pertenece al Cluster 0 (485 instancias)
Regla 4 Si multigrado = si y tasa de abandono =0.12 y efectivos<=62 entonces pertenece al Cluster 2. (37 instancias)
6to a 8vo de Primaria
Se tiene un total de 1327 instancias con matrícula distinto de cero de 6to a 8vo de Primaria. La tabla de centroides se muestra en la siguiente Tabla IV.3 CLUSTER
P_PRIM6
P_PRIM7
P_PRIM8
Cluster 0
1.2732
1.2488
1.2683
32.4049
30.5805
32.8244
425.77
6.4537
Cluster 1
1.0776
1.0803
1.0857
18.2952
18.0259
17.098
155.1728
0.7524
Cluster 2
2.3953
2.3669
2.3127
79.5349
78.3566
76.0413
633.6408
7.1137
MULTIG
DEPEN
AREA
RET_ABAN T_APROB T_ABAND
MAT_PRIM6 MAT_PRIM7 MAT_PRIM8
13.04
0.9799
0.0665
0
2.95
1.98
16.7252
0.9794
0.1223
0.702
1.065
1
36.1602
0.9555
0.0925
0
1.1
2
Cluster 0
433 (15%)
Cluster 1
1249 ( 55%)
Cluster 2
211 (29%)
EFECTIVOS RET_TRASL
Tabla IV.3. Tabla de centroides (6to -8vo de Primaria)
De 6to a 8vo de primaria, pertenecientes al grupo del área rural se tiene menor cantidad de unidades educativas multigrado comparado con 1ro a 5to de primaria, sin embargo en el grupo del área urbana se incrementa la matrícula, llegando a un promedio de 77 alumnos distribuidos en aproximadamente dos paralelos, esto en las UE fiscales, en cambio en las UE privadas se tiene un promedio de 32 alumnos.
102
.
El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.3
a b c <-- classified as 734 0 1 | a = cluster1 3 202 0 | b = cluster0 0 1 386 | c = cluster2 Figura IV.3 Árbol de decisión (6to -8vo de Primaria)
Observando el árbol se obtiene las siguientes reglas:
Regla 1 Si área = fiscal entonces pertenece al Cluster 1(737 instancias)
Regla 2 Si área = urbano
y dependencia= privado entonces pertenece al Cluster 0(193 instancias)
103
.
Regla 3 Si área = urbano
y dependencia= fiscal entonces pertenece al Cluster 2(350instancias)
Regla 4 Si área = urbano
y dependencia= convenio y matrícula de 6to de primaria >58 entonces pertenece al Cluster 2(37instancias)
Regla 5 Si área = urbano
y dependencia= convenio y matrícula de 6to de primaria <=58 entonces pertenece al Cluster 0(10instancias)
Nivel Secundario
Hay 949 UE que tienen el nivel Secundario de 1ro a 4to. La tabla de centroides se muestra en la Tabla IV.4 P_SEC1
P_SEC2
P_SEC3
P_SEC4
MAT_SEC1 MAT_SEC2 MAT_SEC3 MAT_SEC4
Cluster 0
2.25
2.0714
1.9769
1.8151
77.1239
71.1618
68.6387
62.0567
Cluster 1
1.3186
1.2271
1.1672
1.1262
30.7855
25.8549
23.4385
21.1672
Cluster 2
1.0192
1
0.9872
1
15.8974
12.9423
11.5833
10.3397
EFECTIVOS RET_TRAS RET_ABAND T_ APROB T_ ABAND MULTIG
DEPEND
AREA
Cluster 0
595.029
7.3025
33.111
0.9488
0.0907
0
1.8592
2
Cluster 1
206.962
1.1009
20.281
0.9519
0.1212
0
1.1136
1
Cluster 2
158.596
0.4872
21.821
0.9688
0.1487
1
1.0641
1.0064
Cluster 0
476 ( 50%)
Cluster 1
317 ( 33%)
Cluster 2
156 ( 16%)
Tabla IV.4 Tabla de centroides (Secundaria)
104
. El Cluster 0 es el que más instancias tiene, se caracteriza por UE del área urbana, en su
mayoría son privadas y de convenio, tienen un tasa de aprobación y de abandono menor que los dos grupos la matriculación en secundaria disminuye de 77 en primero de secundaria a 62 en 4to de secundaria.
El cluster 1 representa UE rurales que no son multigrado, la matrícula en secundaria reduce de 31 en 1ero de Secundaria a 21 en 4to de secundaria.
El cluster2 representa UE multigrado rurales con mayor tasa de abandono, la matrícula en secundaria reduce de 16 en 1ero de Secundaria a 10 en 4to de secundaria.
El árbol de decisión con respecto al atributo Cluster se muestra en la Figura IV.4
a b c <-- classified as 317 0 0 | a = cluster1 0 156 0 | b = cluster2 0 0 476 | c = cluster0 Figura IV.4 Árbol de decisión (Secundaria)
Observando el árbol se obtiene las siguientes reglas: Regla 1 Si multigrado = si entonces pertenece al Cluster 2 (156 instancias)
105
.
Regla 2 Si multigrado = no y área = urbano entonces pertenece al Cluster 0. (476 instancias)
Regla 3 Si multigrado = no y área = rural entonces pertenece al Cluster 1. (317 instancias). 4.3 CONCLUSIONES DEL CAPÍTULO
Los patrones de conocimiento encontrados son válidos porque se adecuan al estado situacional de la educación formal. Estos patrones dan mayor valor agregado al conocimiento del Sistema de Información Educativa
generando varios patrones de conocimiento que coadyuvan a los insumos
necesarios de la línea base para la construcción del Plan Estratégico Sectorial De esta forma, se ha cumplido con los objetivos planteados en el presente proyecto.
106
.
CAPITULO V CONCLUSIONES Y RECOMENDACIONES
5.1 CONCLUSIONES
Aplicar minería de datos a la fuente del sistema de información educativa resulta útil por el crecimiento de la cantidad de información
y por el aporte de conocimiento mediante
patrones de comportamiento de la población estudiantil en el sector educativo.
En el desarrollo metodológico del proyecto para la extracción de conocimiento las etapas más tediosas fueron la preparación y transformación de datos, es decir la conformación del data set. De hecho los resultados que se obtengan después de aplicar una técnica de minería de datos van ha depender de la calidad del data set, es por este motivo que muchas veces se debe trabajar de forma iterativa.
Se ha mostrado en el desarrollo del proyecto que Weka es una herramienta muy potente porque no sólo contiene un conjunto de técnicas de Minería de datos, si no que tiene herramientas como el preprocesamiento y la visualización para mostrar la dispersión de los datos.
La técnica de clustering resulta adecuada para la segmentación en grupos de la población estudiantil y la detección de patrones de estos grupos resultaron válidos en el sentido de que se han comparado con los indicadores existentes.
107
La exploración de datos
mediante visualización multidimensional
aprovecha
. la gran
capacidad humana de ver por ejemplo tendencias o patrones a partir de los datos, de esta forma se aprovecha esta capacidad para facilitar la comprensión de datos.
5.2 RECOMENDACIONES
Con la experiencia obtenida después del desarrollo del proyecto se concluye las siguientes recomendaciones:
Se debe tener un objetivo claro antes de proceder a las siguientes etapas y se debe fortalecer este objetivo aclarando la idea de que patrones se quieren extraer, para ello se puede utilizar herramientas de exploración de datos.
Se debe tener mucho cuidado con los valores ruidosos , o posiblemente erróneos porque pueden afectar de gran manera a los patrones encontrados.
Para una buena segmentación aplicando clustering, es importante determinar el número de clusters adecuado que puede realizárselo mediante un análisis de distancias.
108
.
REFERENCIAS [Aguilar, 2003] Aguilar Quispe,R (2003): " Minería de Datos: Fundamentos, Técnicas y Aplicaciones. [Ale, 2005a] Ale, J., 2005a. Análisis de Clusters. [Ale, 2005b] Ale, J., 2005b. Introducción a Data Mining. [Chen, 1996] Chen, M., J. Han, 1996. Data mining: An overview from database perspective. IEEE Transactions on Knowledge and Data Eng. [Cheeseman, 1996] Cheeseman, P., J. Stutz, 1996. Bayesian classification (AutoClass): Theory and results. In U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining. [Cleveland, 1993] W (1993). "Visualizing Data, Hobar Press, 1993" [Cabena,1998] Cabena P. Hadjinian, P, Stadler, R., Verhees (1998)Discovering data mining From concept to implementation [Garcia, 2005] Garcia Morate D ( 2005) Manual de Weka [Fayyad, 1996] Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uhturudsamy, R. (eds). 1996 Advances in Knowledge Discovery and Data Mining. [Fisher, 1996] Fisher, D., 1996. Iterative optimization and simplification of hierarchical clusterings. Departament of Computer Science. Vanderbilt University, Nashville, EEUU. [Han, 2006] Han, Jiawei., M. Kamber, 2006. Data mining: Concepts and techniques. [Hernández, 2004] Hernández Orallo, J., 2004 Introducción a la Minería de Datos. [Kaufman, 1990] Kaufman, L., P. J. Rousseeuw, 1990. Finding Groups in Data: an Introduction to Cluster Analysis. Wiley-Interscience. [Kohonen, 1995] Kohonen, T., 1995. Self-Organizing Maps. Springer-Verlag. [Larose, 2005] Larose, D., 2005 Discovering Knowledge in Data. An Introduction to Data Mining. Central Connecticut State University. Published by John Wiley & Sons, Inc., Hoboken, New Jersey. [MacQueen. 1967] MacQueen. 1967 “Some methods for classification and analysis of multivariate observations”. Proc. 5th Berkeley Symp. Math. Statisi. [Marcano, 2007] Marcano,Y ., Talavera,R.2007. Minería de Datos como soporte a la toma de decisiones empresariales Universidad del Zulia 109
. [Michalski, 1998] Michalski R., I. Bratko, M. Kubat, 1998. Machine Learning and data mining: Methods and Applications. Wiley & Sons Ltd., EE.UU.
[Mirkini, 2005] Mirkin Boris 2005. Clustering for Data Mining. A data Recovery Approach. [Molina, 2006] Molina, J., García J. 2006 Técnias de Análisis de Datos Aplicaciones prácticas utilizando Microsoft Excel y Weka Universidad Carlos III de Madrid [Moreno, 2001] Moreno,M., Miguel,L.,García, Polo, M.(2001). Aplicación de técnicas de Minería de Datos en la construcción y validación de modelos predictivos y asociativos a partir de especificaciones de requisitos de software. Universidad de Salamanca. [Ochoa, 2004] Ochoa, M. A. 2004. Herramientas Inteligentes para la Explotación de Información. Trabajo Final: Especialidad en Ingeniería en Sistemas Expertos, Instituto Tecnológico de Buenos Aires (ITBA). [Olvera, 2005] Olvera, A., Carrasco,A. 2005. Edición de muestras basada en búsqueda secuencial Coordinación de Ciencias Computacionales INAOE [Pyle, 1999] Pyle, Dorian 1999. Data Preparation for Data Mining Published 1999 Morgan Kaufmann. [Thurn, 1998] Thrun, S., Faloustos, C., Mitchell, T., Wasserman, L. 1998 Automated Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field. CMU-CALD-98-100 [Wang, 2004] Wang, G.A., H. Atabakhsh, T.Petersen, H.Chen, 2004. Discovering Identity Problems a Case Study. [Witten, 2000] Witten, I.H., Frank, E. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Diego, EE.UU. [Weiss, 1998] Weiss,S., Indurkhya,N. 1998. Predictive Data Mining a Practical Guide Weka, 2007. University of Waikato. URL:http://www.cs.waikato.ac.nz/~ml/weka/index.html. Acceso mayo 2007.
110