EVALUACIÓN DEL DESEMPEÑO DE LAS REDES NEURONALES, EN COMPARACIÓN CON LOS MÉTODOS ESTADÍSTICOS TRADICIONALES DE REGRESIÓN Y CLASIFICACIÓN.
Autor: MSc. LEMIN ABANTO CERNA MSc. WALTER G. ALVA ALVA
Resumen
Este estudio tiene como objetivo comparar el rendimiento de los métodos estadísticos de regresión y clasificación (análisis discriminante) con técnicas análogas usando las redes neuronales. Como métodos estadísticos, se usó el análisis de regresión para predecir el precio de venta de un conjunto de casas, en función de su tamaño y su valoración; y el análisis discriminante para predecir si una empresa quebrará o no, en base a un conjunto de ratios financieros. Los resultados de estos modelos, se compararon con los correspondientes obtenidos usando las redes neuronales; éstas, son técnicas emergentes implementadas como programas de computadora, que emulan el comportamiento del cerebro humano. Para ello, se usó dos conjuntos de datos; el primero relacionado al precio de venta de una muestra de casas, así como de su tamaño y valoración correspondiente (Johnson, 1992; pp 299); el segundo, usado en el problema de clasificación, corresponde a los ratios financieros de 46 empresas y a su situación financiera (Bollella). La investigación comprobó que en el problema de clasificación, las redes neuronales tuvieron un mejor desempeño (su error cuadrático medio fue menor) que el análisis discriminante; mientras que en el problema de regresión, el rendimiento fue muy similar con ambos métodos. Estos resultados, muestran la importancia que están adquiriendo las redes neuronales en el manejo de datos estadísticos, como una alternativa a los métodos tradicionales. Palabras Clave: Redes Neuronales, Error Cuadrático Medio, Análisis de Regresión, Análisis Discriminante.
1
INDICE Resumen ...................................................................................................................... 1 INDICE ......................................................................................................................... 2 INDICE DE TABLAS ..................................................................................................... 3 INDICE DE FIGURAS ................................................................................................... 3 I.
INTRODUCCION .................................................................................................. 4
1.1
Justificación .................................................................................................... 5
1.2
Limitaciones.................................................................................................... 6
1.3
Objetivos ........................................................................................................ 6
II.
Marco Referencial Científico ................................................................................. 7
2.1
Antecedentes ..................................................................................................... 7
2.2
Análisis de regresión múltiple ............................................................................. 9
2.3
Análisis Discriminante (Clasificación) ............................................................... 10
2.4
Redes Neuronales ........................................................................................... 10
2.4.1
Elementos de una red neuronal .................................................................... 13
2.4.2
Forma de conexión (arquitectura) entre las capas ........................................ 15
2.4.3
Formas de aprendizaje ................................................................................. 17
2.4.4
Implementación de la red:............................................................................. 19
III.
Metodología ..................................................................................................... 21
3.1
Tipo y diseño de investigación: ........................................................................ 21
3.2
Proceso de investigación ................................................................................. 21
IV.
RESULTADOS ................................................................................................. 22
4.1
Análisis Discriminante (Clasificación) ............................................................... 22
4.1.1
Resultados en el SPSS ................................................................................ 22
4.1.2
Resultados de la red neuronal: ..................................................................... 23
4.2
Análisis de Regresión....................................................................................... 25
4.2.1
Resultados del modelo de regresión: ............................................................ 25
4.2.2
Resultados usando la red neuronal .............................................................. 27
V.
Conclusiones ...................................................................................................... 29
VI.
Discusión de resultados ................................................................................... 29
VII.
Referencias Bibliográficas ................................................................................ 30
2
INDICE DE TABLAS
Tabla 01: Resultados de la clasificación ..................................................................... 22 Tabla 02: Clasificación de acuerdo a diferentes configuraciones de la red ................. 24 Tabla 03: Estimación de la regresión usando SPSS: .................................................. 25
INDICE DE FIGURAS
Figura 01: Neurona Biológica
10
Figura 02: Neurona artificial
12
Figura 03: Red multicapa
12
Figura 04: Función lineal identidad
14
Figura 05: Función Signo
14
Figura 06: Función sigmoidal logística
15
Figura 07: (a) Red con tres capas con conexión hacia delante. (b) Red con conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes
16
Figura 08: Errores de prueba y entrenamiento como una función de las épocas de entrenamiento
20
Figura 09: Lectura de archivo y especificación de variables en Tiberius
23
Figura 10: Arquitectura de la red Neuronal
24
Figura 11: Relación entre los valores estimados y ajustados usando regresión lineal simple
26
Figura 12: Entrenamiento de la red neuronal
27
Figura 13: Pronostico con la red neuronal
27
Figura 14: Relación entre los valores observados y estimados
28
3
I.
INTRODUCCION
Durante los últimos años, hemos sido testigos de la aparición de nuevas técnicas de análisis de datos, que surgen frente a la necesidad de manejar grandes volúmenes de información; en estas circunstancias, los métodos estadísticos tradicionales tienen serias dificultades para manejarlos, incluso, en algunos casos, no hay técnica disponible. Frente a estas limitaciones, aparecen nuevos métodos para el manejo de datos, inspirados en el comportamiento de las neuronas biológicas, como son las redes neuronales. Las Redes Neuronales, tratar de emular el comportamiento de las neuronas biológicas, para solucionar dichos problemas. Estas técnicas surgen gracias al desarrollo de las computadoras y están inmersas dentro del campo de la Inteligencia Artificial; esta nueva rama del conocimiento trata de crear cierta “inteligencia” a las máquinas para que resuelvan problemas que en un principio se creía no tenían solución. Un sistema basado en redes neuronales, en sí no tiene verdadera Inteligencia Artificial; si no que es un sistema basado en el conocimiento que, mediante la presentación de ejemplos trata de aprender en forma similar a como lo hace el ser humano, para luego operar en situaciones reales. Esta nueva área de conocimiento está basada netamente en la computadora, y actúa como una especie de caja negra; una red neuronal, una vez entrenada, recibe información del medio externo y arroja resultados, sin que el usuario, tenga pleno entendimiento de lo que pasa en su interior. A pesar de ello, su uso se va extendiendo cada vez más en diferentes escenarios, tanto académicos, como empresariales o institucionales (Martín del Brío y Sanz, 2002). En términos estadísticos, las redes neuronales son estimadores no paramétricos o de modelos libres, que realizan estimaciones sin la exigencia de los supuestos de los métodos tradicionales; por ejemplo en el caso de la regresión, la estadística impone un conjunto de supuestos a la línea de regresión. Por el contrario, las redes neuronales, no imponen esa serie de requisitos, son los datos los que permiten que la red funcione. En muchas ocasiones, ambas técnicas tratan de resolver problemas similares, de modo que resulta lógico preguntarse, que metodología es más eficiente en la solución de dichos problemas. La presente investigación trata de responder a dichas preguntas, comparando la eficiencia de las redes neuronales con los métodos estadísticos, en problemas de regresión y clasificación (Análisis cluster). 4
En el Capítulo I, se describe la problemática relacionada con ambos métodos: los métodos estadísticos de regresión y clasificación y las redes neuronales. En el Capítulo II, se formula el Marco teórico que sustenta al trabajo de investigación. El Capítulo III, hace referencia a la metodología utilizada en el trabajo, para cumplir con los objetivos del trabajo. El Capítulo IV, muestra los resultados de la investigación, incluyendo las estimaciones a través de los métodos estadísticos y las redes neuronales. El Capítulo V, describe las conclusiones del trabajo de investigación y el Capítulo VI la discusión de resultados. 1.1
Justificación
Los modelos de regresión y de clasificación son actividades que caracterizan tanto a empresas como a instituciones; sus resultados muchas veces tienen implicancias económicas muy grandes; por lo que su implementación es un tema crucial. Utilizando estos métodos desde la perspectiva de la estadística, el investigador debe tener mucha pericia para poder evaluar las bondades de dichos modelos, así como el cumplimiento de sus supuestos; en sí mismo, el manejo de estos modelos se convierte en un arte, se debe prever los escenarios de su aplicación, la calidad de los datos y el alcance de sus resultados. Desde la perspectiva de las redes neuronales, una vez construida la red, el investigador, no tiene mayormente ningún manejo de la red, sino que por lo contrario, se convierte en un proceso automático. La evaluación y comparación de cada enfoque, traerá como consecuencia más luces sobre las bondades de cada método, lo que puede contribuir de manera significativa, a incrementar el uso de una u otra metodología, y bajo qué condiciones. La investigación así mismo pretende aperturar nuevas líneas de investigación, no solo en los métodos estadísticos mencionados, sino que en muchos otros, como en el análisis discriminante, escalas multidimensionales, regresión logística, etc.; es más, nos dará una visión de las ventajas de cada metodología en la solución de problemas reales.
5
1.2
Limitaciones
La mayor limitación de la investigación es la disponibilidad de bibliografía estandarizada; aun no hay criterios que uniformicen la simbología de las redes neuronales, en un cuerpo de conocimientos similar para todas las áreas del conocimiento. Otra de las limitaciones es la disponibilidad de software de redes neuronales licenciado; en la red, existen algunos programas de libre disponibilidad, sin embargo tienen ciertas limitaciones, como es el manejo de una cantidad limitada de datos. 1.3
Objetivos
Este trabajo tiene como objetivo comparar la eficiencia de dos técnicas estadísticas: regresión múltiple y clasificación, con técnicas análogas implementadas usando las redes neuronales.
6
II.
Marco Referencial Científico
2.1
Antecedentes
El hombre desde tiempos remotos, ha soñado con crear máquinas con inteligencia propia, aunque dichos esfuerzos recién dieron sus frutos en el año 1943, cuando McCullock y Pitts (1943), propusieron un modelo de neurona de cerebro humano y animal. Estas neuronas informáticas, proporcionaron una representación simbólica de la actividad cerebral. Posteriormente en el año 1948, Nobert Wiener sintetizó estas y otras ideas en un mismo campo que lo denominó Cibernética, a partir de cual nacería, la Inteligencia Artificial. Sin embargo, no fue sino hasta el congreso de Darthmouth en el año 1956, en el cuál se dieron los lineamientos básicos de dicha rama del conocimiento, donde oficialmente se dio el nacimiento de la Inteligencia Artificial y por ende el de las redes neuronales. En el caso de las redes neuronales, el trabajo que inició McCulloch y Pitts (1943), marcaron el inicio en esta nueva disciplina, los cuales aportaron conocimientos sobre la fisiología básica y funcionamiento de las redes neuronales cerebrales así como su emulación mediante las neuronas artificiales. Por otro lado, en el caso de los métodos de regresión y clasificación, su aparición se remonta a la aparición de la estadística, y su uso, se ha visto favorecido con el advenimiento de computadoras con grandes capacidades de almacenamiento y altas velocidades de procesamiento de datos. El análisis de regresión fue introducido por Francis Galton y confirmado por Karl Pearson (como ce cita en Gujarati, 1997), a raíz de un estudio sobre la descripción de los rasgos físicos de los descendientes, a partir de los rasgos de sus padres. Llegaron a la conclusión de que la altura de los hijos tenía una tendencia a regresar a la estatura promedio de los padres. Actualmente su uso está muy generalizado y busca encontrar un modelo que permita pronosticar una variable (dependiente) a partir de otro conjunto de variables (independientes) que se supone explican a la primera. El análisis clusters, conocido también como análisis de conglomerados, taxonomía numérica y actualmente como reconocimiento de patrones, es una técnica estadística multivariante que tiene como objetivo, dividir un conjunto de objetos en grupos, de manera que los elementos dentro de un mismo grupo sean lo más parecidos posible, 7
pero entre elementos de diferentes grupos existan diferencias marcadas. Las bases matemáticas de esta técnica se remontan al libro “Principios of Numerical Taxonomy”, escrito por Sokal y Sneath (1963) (citado en Cuadras, 1991), en el que exponen los principios y procedimientos de la taxonomía numérica, inspirados en la clasificación de las especies. En cuanto a la comparación de los métodos estadísticos con las redes neuronales, no existen ni en nuestro medio, ni en nuestro país, investigaciones que lo respalden. A nivel mundial, Croall (1992), (citado por Martín del Brío y Sanz, 2002); realizó una comparación de ambos métodos, llegando a la conclusión de que, no se puede concluir que hay una supremacía de un método sobre otro. Por otro lado, Searle (1994) (citado por Martín del Brío y Sanz, 2002) hizo una analogía de ambos métodos, admitiendo que hay algunos modelos de redes neuronales que no tienen técnica estadística equiparable. Flexer, 1995 (citado por Martín del Brío y Sanz, 2002) por su parte, ha hecho un paralelismo de ambos métodos, resaltando que ni las redes son tan excelentes como se ha tratado de demostrar, ni poseen tantos aspectos negativos, como sugieren algunos estadísticos. En el año 1998, aparece un estudio comparativo de las series de tiempo con las redes neurales (Faraway), en el que se revelan muchos de los problemas de la modelación con redes neuronales y refieren que éstas, no se pueden aplicar ciegamente a los datos; por el contrario, consideran que el analista debe tener habilidades en la modelación tradicional para seleccionar un buen modelo de red neuronal. A nivel de Latinoamérica, en una investigación realizada por Nojek, Britos, Rossi y García Martínez (2003), se ha ce una comparación de las redes neuronales con métodos estadísticos de pronósticos; concluyen que las redes neuronales tienen una mejor performance que los métodos estadísticos en la predicción de las ventas de una empresa; asimismo refieren que la utilización de los métodos estadísticos requieren una mayor preparación y conocimientos, aunque en el caso de las redes, el usuario necesita saber la topología de la red, así como el método de entrenamiento que se debe usar. En otro artículo publicado por Pantoja (s.f.), se compara los pronósticos del índice general de la Bolsa de Valores de Colombia, a través de los modelos ARIMA y los proporcionados por las redes neuronales; los autores refieren que las redes neuronales pronostican mejor que los modelos ARIMA, en los casos de las variables 8
financieras, aunque no ocurre lo mismo con las series estacionarias en donde los procesos GARCH, permiten capturar mejor la volatilidad de las series financieras. Los estudios ponen en evidencia que aún no hay una concordancia sobre la supremacía de un método sobre otro; la tendencia actual es a complementar ambos métodos. Las redes neuronales aún necesitan de criterios estadísticos para una elección adecuada de su estructura, así como para lograr un buen funcionamiento.
2.2
Análisis de regresión múltiple
Parte del supuesto de que una variable denominada variable dependiente está influenciada por una o más variables independientes, a través de la siguiente relación funcional:
Y 0 1 X 1 2 X 2 p X p , matricialmente: 𝑌 = 𝑋𝛽 + 𝜇 Donde
0 , 1 , , p son los parámetros del modelo y es el término de
error o residual. Este modelo supone que se cumplen los siguientes supuestos: a. Las variables independiente (X i) son fijas y que para cada valor de estas variables se supone que existe una población de valores de y de los cuáles se elige aleatoriamente uno. b. La varianza de Y es la misma en cada valor del vector X (Homogeneidad de varianzas). El cumplimiento de este supuesto es crucial para realizar pronósticos o predicciones. El incumplimiento determina que exista Heterocedasticidad. c. Los términos de error o residuales no deben estar correlacionados, es decir:
cov( u i , j ) 0
.
d. Para propósitos de pronósticos e inferencias, además se debe cumplir que los 2 términos de error estén distribuidos normalmente con media cero y varianza .
Uno de los métodos de estimación de este modelo es el de mínimos cuadrados, es cual minimiza la suma de los cuadrados de los errores, para obtener el modelo estimado: 𝑌̂ = 𝑋𝛽̂
9
2.3
Análisis Discriminante (Clasificación)
Esta técnica permite clasificar un conjunto de sujetos o elementos en dos o más clases, utilizando para ello un conjunto de variables que caracterizan a dichos elementos. El procedimiento construye un conjunto de combinaciones lineales de las 𝑝 variables de entrada que discriminen mejor los 𝑔 grupos. La 𝑗 − é𝑠𝑖𝑚𝑎 función discriminante toma la forma de:𝐷𝑗 = 𝑑𝑗1 𝑍1 + 𝑑𝑗2 𝑍2 + ⋯ + 𝑑𝑗𝑝 𝑍𝑝 , donde las Z’s son variables estandarizadas a partir de las X’s. Las funciones discriminantes son encontradas por la determinación de los valores propios de 𝑊 −1 𝐵, donde 𝑊 es la suma de cuadrados dentro de los grupos y la matriz de productos cruzados y 𝐵 es la suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado. Los coeficientes de las funciones discriminantes son derivadas maximizando la separación de los grupos.
2.4
Redes Neuronales
Las Redes Neuronales Artificiales son sistemas de procesamiento de la información inspiradas en las redes neuronales biológicas (Figura 01).
Figura 01. Neurona Biológica
10
Las redes neuronales artificiales, constituyen un área de la IA y se crearon con la finalidad de resolver problemas que en un principio se creía, sólo podrían ser solucionados por el cerebro humano. Las redes neuronales constituyen un enfoque totalmente diferente de analizar los datos con respecto a las técnicas tradicionales. En lugar de utilizar modelos preconcebidos, éstas utilizan el cerebro humano y su estructura, para desarrollar una estrategia, que permita la solución de los problemas en forma similar a la que resultaría de algún experto humano. Un elemento esencial de una red neuronal, es su capacidad de aprendizaje a partir de los datos disponibles. Este aprendizaje está inspirado en la forma de aprender que tiene lugar en las neuronas, el cual se va perfeccionando en la medida que la red adquiere más entrenamiento, es decir tienen la capacidad de aprender a realizar tareas a partir de una experiencia inicial. Una red neural, relaciona un conjunto de variables de entrada o inputs (independientes) {𝑥𝑖 }, 𝑖 = 1, … , 𝑘, a un conjunto de una o más variables objetivo u outputs (dependientes) {𝑦𝑗 }, 𝑗 = 1, … , 𝑘. La diferencia entre una red neural y los otros metodos de pronóstico, es que, ésta hace uso de una o más capas ocultas, en las cuales las variables de entrada son transformadas por alguna función especial, denominada función de salida o de transferencia. Mientras esta aproximación de capa oculta, es una especie de caja negra, ella representa una forma muy eficiente para modelar procesos estadísticos altamente no lineales. La figura 02 muestra una unidad neuronal típica sugerida por McCulloch y Pitts (1943). En ella se pueden distinguir las siguientes componentes: un conjunto de conexiones de entrada, un conjunto de pesos, una función procesadora, un umbral de activación y un valor de salida.
11
AXONES
SINAPSIS CUERPO
x1 x2
W1
DENDRITAS -1 AXON
W2
Salida
xn
Neurona Wn
Entradas Pesos
Figura 02: Neurona artificial
Un conjunto de neuronas forma una capa y varias capas conectadas entre sí forman una red neuronal, como lo muestra la figura 03.
Figura 03
12
Red multicapa
2.4.1
Elementos de una red neuronal
Neuronas: Unidades procesadoras. Es decir se trata de una unidad de proceso con n entradas,
x1, x2 , , xn
y una
unidad de salida: n
y j f ( wij x j ) j 0
Donde, f (x ) es la función neuronal (función de salida o función de transferencia) y
wij son los pesos que indican la aportación que tiene cada valor de entrada en la suma (el peso wi 0 i indica el valor umbral de activación para la neurona, y x0 1 , es un valor auxiliar que permite introducir el valor umbral en el proceso) Capas de una red
Una red se caracteriza porque tiene capas de entrada, capas ocultas y capas de salida; cada una de ellas está constituida por un conjunto de nodos. La capa de entrada tiene como objetivo distribuir la información contenida en las variables de entrada hacia la capa oculta y está constituida por tantos nodos como variables de entrada existan. La capa de salida por su parte se encarga de proporcionar los resultados del entrenamiento de la red
Funciones de transferencia o de salida. Las funciones de transferencia de un nodo, f (S ) , tienen el propósito de controlar la potencia (fuerza) de la señal de salida del nodo. Las más usuales son: Función lineal:
13
f ( x) x; x
Figura 04
Función signo de x:
si x 0 1, sgn( x ) 1, en otro caso
Figura 05
14
Función Sigmoidal: 𝑓(𝑥) =
1 1 + 𝑒 −𝑎𝑥
Figura 06 Función tangente hiperbólica:
𝑦 = tanh(𝑥), cuyo gráfico es similar al anterior, pero definida en el intervalo [-1, 1]
2.4.2
Forma de conexión (arquitectura) entre las capas
Otra consideración del diseño de la red, está relacionada a la forma de controlar sus conexiones. Esto permite que el flujo lógico sea introducido en ella. La información puede ser canalizada y procesada en un área localizada de la red. El paso a través de los nodos puede ser construido de manera que reciban sólo una conexión de la capa precedente y pasar la información hacia la próxima capa; así como también se pueden organizar en capas conectadas por varios tipos de uniones, dependiendo de la manera como las salidas de las neuronas están canalizadas para convertirse en entradas de otras neuronas -
Propagación hacia delante: Conectan neuronas de una capa con neuronas de la capa siguiente, es decir ninguna salida de las neuronas es entrada de neuronas del mismo nivel o de niveles precedentes.
-
Propagación hacia atrás: Cuando las salidas pueden estar conectadas como entradas de neuronas de niveles previos o del mismo nivel, incluyéndose ellas mismas. En el caso particular que las conexiones sean hacia atrás, la arquitectura es adecuada para tratar modelos dinámicos y temporales, como el que se pretende implementar en el trabajo. En la figura 10, se ilustran este tipo de redes. 15
Figura 07
(a) Red con tres capas con conexión hacia delante. (b) Red con
conexiones laterales. (c) Red con conexiones hacia atrás o recurrentes.
16
2.4.3
Formas de aprendizaje
La característica principal de las redes es su capacidad de aprender a partir de los datos. Dependiendo de este tipo de información, las formas de aprendizaje se pueden clasificar en dos categorías, según lo señala Martín del Brio, B. & Sanz M. (2002): -
Aprendizaje no supervisado: en este caso, es la red, la que tiene que descubrir por si misma los patrones, sin información externa. Dentro de los más importantes en esta categoría, tenemos: al aprendizaje Hebbiano, que consiste en modificar los pesos de acuerdo con algún criterio de correlación entre las actividades neuronales; y el aprendizaje competitivo, donde neuronas diferentes se conectan con pesos negativos (inhibitorios) que fuerzan una competición para ganar la actividad neuronal.
-
Aprendizaje supervisado: aquí se proporciona a la red, los patrones para el aprendizaje junto con la salida deseada; si la respuesta de la red, no coincide con la salida deseada, se procede a modificar los pesos de las conexiones, con el fin de que la salida obtenida se aproxime a la deseada. Este proceso es controlado por una especie de agente externo que determina la respuesta que debería generar la red a partir de un patrón de entrada determinado y los pesos se obtienen minimizando alguna función de error1, que mide la diferencia entre los valores de salida deseados y los calculados por la red.
-
Algoritmos de aprendizaje: Dependiendo los tipos de aprendizaje, también hay dos categorías de algoritmos de
entrenamiento, los algoritmos supervisados y los no supervisados. Los algoritmos de aprendizaje supervisado, se pueden clasificar de dos maneras: El algoritmo de corrección del error, que altera los pesos de la neurona después de la presentación de un patrón para corregir el error de salida. Algoritmo basado en el gradiente: modifica los pesos de la neurona después de la presentación de un patrón2 para minimizar el error cuadrático medio sobre todo los
𝐸(𝑊) = (1/𝑝)‖𝑌 − 𝑊𝑋‖2
1
2
Cada caso u observación asociado a las variables de entrada del modelo y a las variables de salida es denominado patrón de entrenamiento.
17
patrones. Esto se logra modificando los pesos en dirección opuesta al gradiente de la función de error. Durante el proceso de aprendizaje, se debe distinguir dos fases: la fase de aprendizaje o entrenamiento y la fase de operación o funcionamiento de la red, existiendo un conjunto de datos de entrenamiento y un conjunto de datos validación o de prueba, utilizados en la fase correspondiente (Bishop, 1995; Ripley, 1996). En la fase de entrenamiento, el algoritmo mencionado actualiza los pesos de acuerdo a la siguiente regla: 𝑃𝑒𝑠𝑜𝑛𝑢𝑒𝑣𝑜 = 𝑃𝑒𝑠𝑜𝐴𝑛𝑡𝑖𝑔𝑢𝑜 + 𝑐𝑎𝑚𝑏𝑖𝑜𝑑𝑒𝑃𝑒𝑠𝑜, que matemáticamente está dada por: 𝑊𝑖𝑗 (𝑡 + 1) = 𝑊𝑖𝑗 (𝑡) + 𝛼(−∇t) En este caso, 𝑡: se refiere a la etapa de aprendizaje 𝑊𝑖𝑗 (𝑡 + 1): el peso nuevo 𝛼: es la tasa de aprendizaje que varía entre 0 y 1. Hay que tener en cuenta que este valor es fundamental en el proceso de entrenamiento de la red, ya que controla el cambio de los pesos en cada iteración. Un valor pequeño hace disminuir la velocidad de convergencia y la posibilidad de quedar atrapado en un mínimo local; en cambio un ritmo de aprendizaje demasiado grande puede provocar inestabilidades en la función de error y evitar que se produzca la convergencia debido a que se darán saltos en torno al mínimo sin alcanzarlo. En general la tasa de aprendizaje suele estar comprendida entre 0.05 y 0.5 (Rumelhart, Hinton y Williams, 1986). ∇t: es el gradiente de la función de error con respecto a los pesos 𝑊𝑖𝑗 Este algoritmo basado en la técnica del descenso por el gradiente, calcula las derivadas de la superficie de error respecto a cada peso, ∂E(W)/ ∂Wij, con la finalidad de encontrar el valor mínimo de la función de error, aunque nadie garantiza que se llegue o que sea el camino más rápido hacia él. Frente a estas dificultades surgen otros métodos, dentro de los cuáles se encuentra el algoritmo de LevenbergMarquardt. Este método, si bien acelera la convergencia, es mucho más complejo de implementar. La actualización de pesos con este algoritmo se realiza con la siguiente aproximación: 1 Wij (t + 1) ≈ Wij (t) − JT e μ 18
Donde: μ: es un parámetro establecido generalmente en un valor pequeño como 0.01 (Hagan, Demuth, Beale, 1996). J3: es la matriz jacobiana. e = E(W): es el vector de errores.
2.4.4
Implementación de la red:
Se debe tener en cuenta las siguientes consideraciones: Determinar la arquitectura de la red: depende del tipo de problema a investigar. Elección de los pesos iniciales: en forma aleatoria. Pre procesamiento de los datos: cuando se utiliza funciones de transferencia sigmoidales, los datos continuos se deben codificar al intervalo [0, 1] o [-1, 1]. Entrenamiento de la red: se utiliza una parte de los datos (75%) para entrenar la red y calcular los pesos en la fase de aprendizaje. Validación: después de calcular los pesos en la fase anterior, se debe comprobar la calidad del modelo resultante a través de alguna medida de error. Generalmente se usa el Error Cuadrático Medio, definido como: r
ECM p 1
2
b p bˆ p / r
donde bˆ p es la salida de la red para el vector de entrada b p Así mismo es importante realizar una validación cruzada para obtener una medida de la calidad del modelo. En este sentido, los datos disponibles (patrones) se deben disponer en dos partes: una parte destinada al entrenamiento de la red y la otra parte a la comprobación. El entrenamiento es usualmente medido en épocas, el número de presentaciones del conjunto de entrenamiento a la red. Cuando el error de comprobación es mucho mayor que el error de entrenamiento, entonces se produce un problema de sobreajuste durante el proceso de entrenamiento. En realidad, ambos errores deberían ser similares, lo cual indica que se han capturado las tendencias reales del modelo.
3
𝐽={
𝜕𝑒𝑖𝑗
𝜕𝑤𝑘𝑙
}
19
Típicamente cuando el número de épocas de entrenamiento se incrementa, veremos los siguientes gráficos, independientemente del tipo de modelo de ANN.
F
Conjunto prueba Conjunto Entrenamiento
Epocas de entrenamiento
Figura 08 Errores de prueba y entrenamiento como una función de las épocas de entrenamiento El error del conjunto de entrenamiento, mide cuán bien la ANN modela los datos. Debido a que nunca entrenamos sobre el conjunto de datos de prueba y los términos de error son no correlacionados, el error del conjunto de prueba es una medida de que tan bien el modelo sigue el patrón F o generaliza los conjuntos de datos. En la sección A del gráfico, el error del conjunto de prueba comienza a aprender el patrón de la serie de tiempo, indicado por el error decreciente. En Z épocas, el error del conjunto de prueba es mínimo-la red ANN ha encontrado la función F en su nivel óptimo. Más allá de éste mínimo, en la sección B, el error del conjunto de entrenamiento continúa decreciendo, mientras que error del conjunto de prueba se incrementa. Este hecho se explica porque al inicio la red se adapta progresivamente al conjunto de aprendizaje, adaptándose al problema y mejorando la representación, luego en un momento dado, el sistema se ajusta demasiado a las particularidades de los patrones empleados en el entrenamiento, captando incluso el “ruido” en ellos presente, de manera que el error que comete ante patrones diferentes a los empleados en el entrenamiento comienza a crecer, produciéndose el sobreaprendizaje o sobre ajuste (Libro de Bonifacio Martín).
20
III.
3.1
Metodología
Tipo y diseño de investigación:
Teniendo en cuenta la naturaleza de la investigación, es aplicada porque busca la solución práctica de un problema (Sánchez & Reyes, 1996). Esta investigación sigue un diseño no experimental, comparativo (Hernández, Fernández & Baptista, 2010), porque de acuerdo a los objetivos planteados, comparar la eficiencia de dos métodos en problemas de regresión y clasificación. 3.2
Proceso de investigación
Para lograr los objetivos de la investigación, se utilizó dos conjuntos de datos. El primero tiene que ver con un problema de clasificación, en donde el objetivo es encontrar un modelo que permita predecir si una empresa quebrará o no en base a un conjunto de ratios financieros, como el Flujo de caja / Deuda total, Ingreso neto / Activo total, Activo corriente / Pasivo corriente, Activo corriente /Ventas netas (Bollella). El segundo conjunto de datos, se utilizó para el análisis de regresión; en este caso el objetivo es predecir el precio de venta de las casas, en función de su tamaño y su valoración. Para ejecutar la regresión y clasificación, se utilizó el programa estadístico SPSS 13.0, en el cuál se realizó la estimación del modelo, así como la aplicación de los problemas de clasificación. La puesta en escena de las redes neuronales, se hizo en el programa de distribución libre, Tiberius. Para comparar el rendimiento de los modelos de regresión y de clasificación, se utilizó el error cuadrático medio (ECM), que es una medida de los errores de estimación y como tal, es mejor, aquél que muestre un ECM más pequeño. Este indicador está definido como:
ECM = √
∑ e2i n
̂, son los errores de estimación. , donde ei = Y − Y
Muestra: para el problema de clasificación, se tomó información de los Ratios financieros de 46 empresas, y la situación de las mismas (quiebre o no quiebre de la empresa) (Bollella). El problema de regresión, consiste en pronosticar el precio de venta (Y en dólares) de las casas, en función del tamaño de la casa (X1: 100 pies 2) y de la valoración asociada (X 2: $1000) (Johnson, 1992; pp 299) 21
IV.
4.1
RESULTADOS
Análisis Discriminante (Clasificación)
El objetivo es predecir si una empresa quebrará (variable dependiente) en base a los siguientes ratios financieros (Variables independientes): Flujo de Caja / Deuda Total (X1 ) Ingreso Neto / Activo Total (X 2 ) Activo Corriente / Pasivo Corriente (X 3 )
Activo Corriente / Ventas Netas (X4 ) 4.1.1
Resultados en el SPSS
En este caso la variable dependiente, quiebra de la empresa (Y), es una variable dicotómica codificada como uno (1) si la empresa no quebró y con cero (0) si la empresa quebró. Utilizando el programa estadístico SPSS 13.0, en la opción correspondiente al análisis discriminante, se obtienen los siguientes resultados:
Tabla 01: Resultados de la clasificación Predicted Group Membreship
Original
Count
0
1
Total
0
15
4
19
1
4
19
23
Ungrouped cases %
Crossvalidated(a
Count
1
3
4
0
78.9
21.1
100.0
1
17.4
82.6
100.0
Ungrouped cases
25.0
75.0
100.0
0
14
5
19
1
7
16
23
0
73.7
26.3
100.0
1
30.4
69.6
100.0
Ungrouped cases %
Ungrouped cases
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b 81.0% of original grouped cases correctly classified. c 71.4% of cross-validated grouped cases correctly classified.
22
Los resultados evidencian que el 81% (15+19=34 de 42 empresas) de empresas han sido clasificados correctamente. La validación cruzada permite comprobar la capacidad predictiva de la función discriminante, para ello el SPSS genera tantas funciones discriminantes como casos válidos tiene el análisis; cada una de esas funciones se obtiene eliminando un caso. Después cada caso es clasificado utilizando la función discriminante en la que no ha intervenido.
4.1.2
Resultados de la red neuronal:
Para realizar la clasificación con redes neuronales, se utilizó el programa Tiberius Versión 6.1.9 (demo). Esta versión tiene la limitación de que se puede trabajar con un máximo de 5 neuronas de entrada, 250 patrones (observaciones) y 4 neuronas ocultas. Los datos fueron suministrados al programa Tiberius en formato Excel. Modelado de la Red Neuronal: Leer el archivo de datos e indicar cuáles son las variables de entrada y salida.
Figura 09: Lectura de archivo y especificación de variables en Tiberius
23
Configuración de la red:
Figura 10: Arquitectura de la red Neuronal
Tabla 02: Clasificación de acuerdo a diferentes configuraciones de la red Modelo
Nº Neuronas
1 2 3 4 5 6
1 1 2 2 3 4
Tasa de aprendizaje 0.7 0.4 0.7 0.0000001 0.7 0.7
%True
% False
%Total
85.0 70.0 95.0 0 100 100
76.5 100.0 94.1 100.0 100 94.1
81.1 83.3 94.6 45.9 100 97.3
La configuración 5, es la que clasifica a todo los patrones de manera correcta. Esta configuración se caracteriza por tener una capa con 3 neuronas y una taza de aprendizaje de 0.7.
24
4.2
Análisis de Regresión
Este caso tiene como objetivo predecir el precio de venta (Y) de las casas en función del tamaño de la casa (𝑋1 ) y de la valoración asociada (𝑋2). 4.2.1
Resultados del modelo de regresión:
Tabla 03: Estimación de la regresión usando SPSS:
Model Regression Residual Total
Sum of Squares 1029.040 208.830 1237.870
Mean Square 514.520 12.284
df 2 17 19
F 41.885
Sig. .000(a)
a Predictors: (Constant), Valor asociado ($1000), Tamaño total vivienda b Dependent Variable: Precio de venta ($1000) Model Summary
Model 1
R R Square .912(a) .831
Adjusted R Square .811
Std. Error of the Estimate 3.50487
a Predictors: (Constant), Valor asociado ($1000), Tamaño total vivienda Coefficientsa Unstandardized Coefficients Model 1
(Cons tant) Tamaño total vivienda Valor asociado ($1000)
B
Std. Error
11.966
4.949
2.567
.784
.068
.285
a. Dependent Variable: Precio de venta ($1000)
25
Standardized Coefficients Beta
t
Sig.
2.418
.027
.854
3.275
.004
.062
.238
.815
yest 90 80
R² = 0.7904
70 Yest
60 50 40 40
50
60
70
80
90
Y
Figura 11: Relación entre los valores estimados y ajustados usando regresión lineal simple Los resultados ponen en evidencia que el modelo completo es significativo (Sig.<0.05), indicando que tanto el tamaño total de la vivienda y el valor asociado explica aproximadamente el 81.1% de la variación en el precio de venta. Al evaluar la contribución individual, se observa que el tamaño total de la vivienda contribuye a explicar de manera significativa (Sig.<0.05) al precio de venta; en cambio, el valor asociado a la vivienda, no tiene una influencia significativa en el modelo. El coeficiente de determinación entre los valores observados y los estimados usando el modelo de regresión lineal simple es de 0.7901. Así mismo se encontró que el error cuadrático medio del modelo de regresión es:
̂2 ∑(𝑌−𝑌)
EMC=√
𝑛
=3.6578.
Ambos valores nos permitirán comparar el rendimiento del modelo frente a los resultados que brinda la red neuronal. El pronóstico del precio de venta, cuando el tamaño de la casa es de X1 =15 (100 pies 2) y la valoración asociada X2 =45 ($1000), es: Precio=11.966+2.567*15+0.068*45=$53.5
26
4.2.2
Resultados usando la red neuronal
Figura 12: Entrenamiento de la red neuronal
Min Exp Max Exp x1
15
13,89
25,76
x2
45
35,6
69,6
53.08
48
82
Prediction y Clear
Figura 13: Pronostico con la red neuronal
27
La red uso tres neuronas, con una tasa de aprendizaje de 0.07. El entrenamiento de la red dio como resultado un Error Cuadrático Medio de 2.6119. La Figura 13 muestra que el coeficiente de determinación entre los valores estimados y observados es de 0.8605. Tanto este valor como el correspondiente al ECM, evidencian que si bien la diferencia entre ambos procesos de estimación del modelo son similares, la red neuronal es ligeramente más eficiente al presentar un mayor coeficiente de determinación y un menor ECM. 85 80
R² = 0.8605
75
Yest
70 65 60 55 50 45 40 40
50
60
70
80
90
Y
Figura 14: Relación entre los valores observados y estimados
El pronóstico con la red neuronal, para los mismos valores de las variables independientes (Fig. 13), es de $53.08, cifra ligeramente inferior a la lograda por el modelo de regresión.
28
V.
Conclusiones
En la investigación se ha comprobado que los modelos de redes neuronales artificiales tienen un mejor rendimiento en el problema de clasificación, mas no en el problema de regresión, los resultados son muy similares. En el problema de clasificación, el análisis discriminante logra clasificar adecuadamente al 81% de los casos, mientras que la red neuronal logra clasificar al 100% de las empresas. Por otro lado, en el análisis de regresión la diferencia es mínima, en favor de las redes neuronales; sin embargo no se puede establecer que las redes tienen un mejor rendimiento que los modelos de regresión, en la realización de los pronósticos.
VI.
Discusión de resultados
El análisis de los dos casos con los métodos clásicos y con las redes neuronales, tiene sus ventajas y desventajas. Si bien, las redes neuronales una vez implementadas, son relativamente fáciles de usar, sin embargo no permiten que el usuario “vea lo que hay detrás de ellas”; aunque también requiere cierta pericia del usuario para encontrar la estructura óptima. Aquí no existen supuestos preestablecidos sobre el modelo que representa a los datos, por el contrario, la estructura surge como resultado del análisis. En el caso del análisis de regresión, se requiere sólidos conocimientos en los modelos de regresión, incluyendo los supuestos del modelo, así como también el conocimiento de las consecuencias de su falta de conocimiento. Esta desventaja se ve recompensada, porque el usuario tiene un mayor dominio del modelo, así como de la interpretación de sus estimadores. Si bien en el problema de clasificación se observa que las redes neuronales proporcionan un mejor desempeño, sin embargo en el problema de regresión, la supremacía no se puede demostrar; es más, el modelo de regresión tiene la ventaja de que permite calcular intervalos de confianza para los pronósticos, lo que no es posible con las redes neuronales. 29
VII.
Referencias Bibliográficas
01.
Acosta, B. A. & Zuluaga M. (2000). Tutorial sobre Redes Neuronales Aplicadas en Ingeniería Eléctrica y su implementación en un sitio Web. Revista Colombiana de Tecnologías Avanzadas. Pereira-Colombia.
02.
Berenson, M. L., Levine, D. M. & Krehbiel T. C. (2001). Estadística para Administración (2ª ed.). México: Pearson Educación.
03.
Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford: Oxford University Press.
04.
Castillo, E., Cobo, A. & Gutiérrez, J. M (1999). Introducción a las Redes Funcionales con Aplicaciones: Un nuevo paradigma neuronal. Madrid España: Edit. Paraninfo..
05.
Castillo, E., Gutiérrez, J. M. & Hadi, A. S. (1999). Expert Systems and Probabilistic Network Models. New York: Edit. Springer Verlag.
06.
Cuadras, C: M. (1991). Métodos de Análisis Multivariante. Barcelona. Promociones y Publicaciones Universitarias, S. A.
07.
David, J.C. & McKay (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
08.
Faraway, J. & Chatefield, C. (1998). Time series forecasting with neural networks: a comparative study using the airline data. Appl. Statist, 47, Part2, pp. 231-250.
09.
Gujarati, D. N. (1997). Econometría. Colombia: McGraw HILL, INC.
10.
Hagan, M. T., Demuth, H.B., & Beale, M. (1996). Neural Network Design. Boston: PWS Publishing Company.
11.
Hernández, R., Fernández, C.& Baptista, P. (2010). Metodología de la Investigación. (5ª ed.). México: McGraw-Hill.
12.
Johnson, A. R., Wichern, D. W. (1993). Applied Multivariate Statistical Analysis. New Jersey. Prentice Hall, Inc. 3ª Ed.
13.
Martín del Brío, B. & Sanz M. A. (2002). Redes Neuronales y Sistemas Difusos. Madrid-España: Ed. Alfaomega, Ra-Ma.
14.
McCulloch, W. S. & Pitts, W. (1943). A logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5, 115-133.
15.
Nojek, S., Britos, P., Rossi, B. & García Martínez, R. (2003). Pronóstico de Ventas: Comparación de Predicción basada en Redes Neuronales versus Método Estadístico. Reportes Técnicos en Ingeniería del Software. Vol. 5(1). Pág. 1-12.
16.
Ruiz, C.A. & Basualdo, M.S. (2001). Redes Neuronales: Conceptos Básicos y Aplicaciones. Rosario-Argentina.
17.
Ripley, B.D. (1996). Pattern recognition and neural networks. Cambridge: Cambridge University Press.
18.
Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). Learning internal representations by error propagation. En: D.E. Rumelhart y J.L. McClelland (Eds.). Parallel distributed processing318-362. Cambridge, MA: MIT Press.
19.
Sánchez, H. & Reyes, C. (1996). Metodología y diseños en la investigación científica. Lima: Mantaro.
30
20.
Zhang, G.P, Keil, M., Rai, A., & Mann, J. (2003). Predicting information technology project escalation: A neural network approach. European Journal of Operational Research, 146, 115–129. Referencias Electrónicas
21.
Análisis de la regression. Recuperado en http://es.wikipedia.org/wiki/An_A1lisis_de_la_regresi_B3n
22.
Bollella, Ana. Introducción a la Computación Neuronal. Recuperado en:
http://www.monografias.com/trabajos12/redneuro/redneuro.shtml 23.
Pantoja, R. M. C. Comparative Analysis of time series Forecasting with neuronal networks, ARIMA models and GARCH process for non-stationary time series. Recuperado de http://guaica.uniandes.edu.co:5050/dspace/bitstream/1992/373/1/mi_1258. pdf
31