ANÁLISIS MULTIVARIADO DE DATOS Métodos y Aplicaciones
Javier Trejos Zelaya – William Castillo Elizondo Jorge González Varela
Universidad de Costa Rica
Análisis Multivariado de Datos Métodos y Aplicaciones
Javier Trejos Zelaya William Castillo Elizondo Jorge González Varela
Editorial de la Universidad de Costa Rica Código Postal 11501-2060 Ciudad Universitaria Rodrigo Facio San Pedro de Montes de Oca, Costa Rica
'
500 T Trejos Zelaya, Javier, 1961Análisis Multivariado de Datos / Javier Trejos Zelaya. -ed.- San José, C.R. : Editorial de la Universidad de Costa Rica 2012. xxx, 340 p.
$
ISBN FALTA 1.
completar información
I. Título
&
%
EUCR
Editorial de la Universidad de Costa Rica Código Postal 11501-2060 Ciudad Universitaria Rodrigo Facio San Pedro de Montes de Oca, Costa Rica
iii
iv
Dedicatoria A mi esposa Vivian, y a mis hijos Lucía, Juan, Carlo, Nicole y Pablo, J.T.Z. A mi nieta Raquel† , a mi esposa Irene, y a mis hijos José Ernesto, Laura e Ignacio, W.C.E. A mi madre, y a mi hijo Daniel, J.G.V.
v
vi
Prólogo Tuve el placer de ir por primera vez a Costa Rica en 1990, y pude constatar el desarrollo del Análisis de Datos en la Universidad de Costa Rica, así como la influencia que tiene esta universidad en la región de América Latina y el Caribe. Luego, he regresado varias veces y he podido trabajar con el equipo de la Escuela de Matemática de esta universidad. Javier Trejos, William Castillo y Jorge González ofrecen ahora un libro, escrito en español, sobre el Análisis de Datos. Este libro trata de técnicas clásicas del Análisis de Datos tal como son conocidas en Francia, y ciertos capítulos tratan incluso de técnicas desarrolladas en Francia, como el Análisis de Correspondencias, el Método de Nubes Dinámicas y el Método Statis. Sólo queda desear que el libro sea aprovechado en una región donde servirá ciertamente a los investigadores en su trabajo de análisis. J’ai eu le plaisir de venir au Costa Rica en 1990 pour la première fois, et j’ai pu constater le dévelopement de l’Analyse des Données à l’Université du Costa Rica, et le rayonnement que cette université a sur la région d’Amérique Centrale et les Caraïbes. Ensuite, je suis revenu plusieurs fois et j’ai pu travailler avec l’équipe de l’Ecole de Mathématiques de cette université. Javier Trejos, William Castillo et Jorge González offrent maintenant un livre en espagnol sur l’Analyse des Données. Ce livre porte sur les techniques classiques d’Analyse des Données telles qu’elles sont connues en France, et certains chapitres portent même sur des techniques développées en France, telles que l’Analyse des Correspondances, la Méthode des Nuées Dynamiques et la Méthode Statis. Il ne reste qu’a profiter de ce livre dans une région où il servira certainement les chercheurs dans leurs démarches d’analyse.
Edwin Diday vii
viii
Prefacio Hace muchos años iniciamos con el proyecto de escribir un libro de texto en español sobre las principales técnicas de Análisis Multivariado de Datos. En la Universidad de Costa Rica se consolidó un grupo de trabajo en este campo, que ha tenido una rica experiencia en desarrollos tanto metodológicos como en aplicaciones a diversos campos. La bibliografía empleada estaba casi en su totalidad en francés y en una menor parte en inglés. Debemos decir también que el grupo tuvo una influencia marcada por la Escuela Francesa de Análisis de Datos, no sólo por los intercambios académicos llevados a cabo inicialmente con la Universidad Paul Sabatier, de Toulouse, y luego con otros centros académicos, sino también por otro tipo de colaboraciones académicas y de investigación con esta escuela. Encontrar material bibliográfico sobre el análisis multivariado, con el enfoque de este texto, es un poco difícil: las referencias van desde las presentaciones superficiales en las que no se justifican los métodos ni su uso, a las presentaciones extremadamente teóricas que no tienen una aplicación a simple vista. Encontrar referencias útiles en español es aún más difícil. Por ello, quisimos hacer un libro que tuviera un balance entre la teoría y la práctica. Los métodos están justificados tanto desde el punto de vista teórico como práctico, habiéndose enviado en muchas ocasiones al final del capítulo algunas demostraciones que podrían distraer al lector deseoso de ver cómo se aplica cada método sobre una base de datos real. Esperamos haber encontrado ese balance para que tanto el estudioso de los métodos encuentre, desde el interés teórico, una respuesta al por qué de cada método, como el aplicador que desea saber cómo funciona en la práctica la técnica. Consecuentemente, cada capítulo está organizado de manera que inicialmente se presenta el objetivo del método, enseguida se desarrolla el método con sus propiedades de la mano de un ejemplo de ilustración, dejándose las deix
x mostraciones de algunas propiedades teóricas para el final del capítulo, cuando no son esenciales para la comprensión del método. Además, cada capítulo contiene varios ejemplos completos de aplicación junto con sus resultados e interpretaciones. Al final se presentan ejercicios tanto teóricos como prácticos para que el lector pueda ejercitarse en la comprensión de la teoría y la práctica. En la medida de lo posible, hemos presentado las tablas de datos completos. De cualquier forma, si algún lector quiere usarlas y no desea transcribirlas, puede dirigirse a los lectores para que se las enviemos por vía electrónica. Nuestra intención es que el presente libro sirva como material de referencia para investigadores que necesiten la herramienta del análisis multivariado. No se ha incluido ningún aspecto relativo al uso de software, ya que existen diversos paquetes computacionales que realizan los cálculos de las técnicas aquí expuestas. Cada paquete tiene su manual de uso y allí el lector podrá ver la manera de utilizarlo, pero lo importante es que con este libro de texto el uso de esas técnicas debería ser más claro y el lector podrá usar conscientemente cualquier técnica multivariada cubierta en el texto. El libro está organizado en nueve capítulos. El primero sirve de introducción general y recordatorio de la Estadística Descriptiva, fijándose algunos términos que se usarán a lo largo del texto. El segundo capítulo introduce el Análisis Multidimensional, con los elementos de base para todo el desarrollo teórico que se hace en los capítulos posteriores, como los términos de espacios vectoriales usados y las métricas asociadas. En el capítulo tres se expone la principal técnica multivariada, como es el Análisis en Componentes Principales, la cual es útil no sólo en sí misma para realizar análisis de tablas de datos cuantitativos, sino también como técnica de base para los demás temas de Análisis Multivariado. Estos tres primeros capítulos son de lectura obligatoria para la comprensión del resto del texto. Enseguida, en los capítulos 5 y 6, se desarrollan dos técnicas importantes, como el Análisis Factorial de Correspondencias y el Análisis de Correspondencias Múltiples. Se trata de técnicas especializadas en el análisis de datos cualitativos, la primera de ellas cuando los datos están dispuestos en una tabla de contingencia, y la segunda es para tratar el caso general de varias variables cualitativas. Se sigue con un capítulo dedicado a diversas técnicas de Clasificación Automática, o Análisis de Conglomerados. El capítulo inicia con una introducción a los conceptos de similutudes y distancias, tanto entre objetos como entre grupos, para pasar luego a exponer las dos principales familias de métodos
J. Trejos — W. Castillo — J. González
xi
de clasificación: los métodos jerárquicos y los métodos de particionamiento. A pesar de lo amplio de este tema, se cubren las principales técnicas: clasificación jerárquica ascendente, método de las k–medias y métodos de nubes dinámicas. El capítulo 7 está dedicado a la Discriminación Descriptiva, como es el análisis factorial discriminante. Se decidió no cubrir los temas de discriminación decisional pues escapan al contexto de este libro y pueden ser objeto de una publicación que trate también de temas de estimación estadística. El capítulo 8 está enteramente dedicado al Análisis de Tablas Múltiples. Para ello se escogió exponer con detalle el Método Statis, uno de los más completos y bien justificados para este tipo de análisis. Se decidió incluir en el capítulo prácticamente todos los detalles del método, tanto en el caso clásico como en el caso dual, ya que es difícil encontrar este tipo de justificaciones en la bibliografía, aún en la más especializada. Se finaliza con un capítulo que presenta brevemente las tendencias modernas del Análisis Multivariado de Datos, para lo cual se escogieron tres temas: la optimización de los métodos, el análisis de datos simbólicos, y la minería de datos. Hubo que decidir dejar por fuera algunas técnicas que pudieron haber formado parte del libro, como la Regresión, el Análisis Canónico, o el Escalamiento Multidimensional. La primera de ellas, si bien tiene una fuerte componente geométrica, como la mayoría de técnicas incluidas en este libro, también tiene una fuerte componente de estimación estadística, y muchas veces la práctica de la regresión cae más en el campo de la Estadística Inferencial que en el de la Estadística Descriptiva. En cuanto al Análisis Canónico, tiene un gran interés teórico pues generaliza muchas de las técnicas aquí expuestas, pero no se usa mucho en la práctica, por lo que su inclusión hubiese alargado innecesariamente el texto. Finalmente, el escalamiento también es muy importante, pero en realidad se trata de una familia de técnicas que quizás ameritan un libro solo para ellas. Como se dijo anteriormente, los capítulos 1, 2 y 3 son necesarios para la comprensión de cualquier capítulo posterior. Enseguida, los capítulos son independientes entre sí, con excepción del 4 y 5, que necesariamente se deben cubrir en ese orden. La mayor parte del material ha sido probado a lo largo de los años en diversos cursos de Licenciatura y Maestría de la Universidad de Costa Rica, por lo que agradecemos a los estudiantes y profesores que lo han usado ya que sus señalamientos y comentarios nos han ayudado a mejorar sustancialmente el texto
xii inicial. Versiones previas del libro también han sido utilizadas en diversos cursos que hemos impartido en la región, como en la Universidad de San Carlos y en la del Valle de Guatemala, la Universidad Nacional Autónoma de Honduras, la Universidad Nacional Autónoma de Nicaragua – León, y la Universidad de Panamá. En México, en la Universidad Autónoma Metropolitana – Unidad Iztapalapa, la Benemérita Universidad Autónoma de Puebla, el Instituto Tecnológico y de Estudios Superiores de Monterrey, campus Monterrey y Guadalajara, el Centro de Investigaciones y Estudios Avanzados del Instituto Politécnico Nacional, y en el Foro Nacional de Estadística de México. También fuera de la región mesoamericana, en la Universidad de Pinar del Río y Universidad Central de Las Villas, Cuba, y en la Universidad de Copiapó, Chile. Desde luego, la responsabilidad del material incluido en el texto, y los posibles errores que salgan publicados, son entera responsabilidad de los autores. Deseamos agradecer a la Vicerrectoría de Docencia de la Universidad de Costa Rica por su apoyo durante el inicio de la redacción de este material, así como a la Escuela de Matemática por las facilidades prestadas durante varios semestres. Al Programa de Estudios de Posgrado en Matemática por habernos permitido dictar cursos relacionados con el material publicado, lo cual hizo que se lograra mejorar sustancialmente el texto inicial. Los resultados numéricos presentados en este libro han sido obtenidos a partir de programas elaborados por los autores o bien con el paquete PIMAD 3.0, elaborado por nuestro colega Oldemar Rodríguez. Algunos planos principales y círculos de correlaciones fueron también hechos a partir de este paquete, y los árboles de clasificación fueron elaborados a partir de la programación de nuestro colega Alex Murillo. Finalmente, también agradecemos a colegas que han facilitado el uso de datos reales, cuyo análisis forma una parte muy importante en este libro. Algunos de ellos son Patricia Sánchez, por los datos sobre fabes asturianas; Antonio Banichevivh y Javier Bonatti, por los datos meteorológicos sobre concentración del CO2; Franklin Rosales, Luis Pocasangre y el equipo de Bioversity, por los datos sobre calidad y salud de suelos bananeros; y Edith Guevara, por los datos sobre el comedor del Instituto Tecnológico de Costa Rica.
Tabla de Contenidos 1 Estadística Descriptiva 1.1
1
Elementos de Estadística . . . . . . . . . . . . . . . . . . . . .
1
1.1.1
Individuos o unidades estadísticas . . . . . . . . . . . .
2
1.1.2
Las variables de la estadística . . . . . . . . . . . . . .
4
Tablas de datos . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2.1
Tablas de individuos × variables . . . . . . . . . . . . .
8
1.2.2
Tablas de variables × variables . . . . . . . . . . . . . .
10
1.2.3
Tablas de individuos × individuos . . . . . . . . . . . .
12
Análisis estadísticos univariados y bivariados . . . . . . . . . .
14
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
1.2
1.3
2 Introducción a la Estadística Multidimensional
23
2.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2
Los espacios vectoriales asociados a las tablas de datos . . . . .
24
2.3
Nubes de puntos . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.4
Inercia en un punto . . . . . . . . . . . . . . . . . . . . . . . .
32
2.5
Esquema de dualidad . . . . . . . . . . . . . . . . . . . . . . .
33
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
xiii
xiv 3 Análisis en Componentes Principales
37
3.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.2
Objetivo del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . .
38
3.3
Solución del A.C.P. . . . . . . . . . . . . . . . . . . . . . . . .
40
3.3.1
A.C.P. normado . . . . . . . . . . . . . . . . . . . . . .
41
3.3.2
Diagonalización de R . . . . . . . . . . . . . . . . . . .
46
3.3.3
Vectores principales . . . . . . . . . . . . . . . . . . .
47
3.3.4
Componentes principales . . . . . . . . . . . . . . . . .
47
3.3.5
Propiedades de las componentes principales . . . . . . .
48
Representaciones gráficas . . . . . . . . . . . . . . . . . . . . .
49
3.4.1
Planos principales . . . . . . . . . . . . . . . . . . . .
49
3.4.2
Círculos de correlaciones . . . . . . . . . . . . . . . . .
50
Indices de calidad . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.5.1
Calidad global . . . . . . . . . . . . . . . . . . . . . .
51
3.5.2
Calidad particular . . . . . . . . . . . . . . . . . . . . .
54
3.5.3
Número de componentes principales . . . . . . . . . . .
57
3.6
Interpretación de los resultados . . . . . . . . . . . . . . . . . .
58
3.7
Elementos suplementarios . . . . . . . . . . . . . . . . . . . .
60
3.7.1
Individuos suplementarios . . . . . . . . . . . . . . . .
60
3.7.2
Variables suplementarias . . . . . . . . . . . . . . . . .
61
Casos de aplicación . . . . . . . . . . . . . . . . . . . . . . . .
61
3.8.1
Análisis de la concentración de CO2 . . . . . . . . . . .
61
3.8.2
Análisis de fabes asturianas . . . . . . . . . . . . . . .
68
3.8.3
Encuestas de opinión pública . . . . . . . . . . . . . . .
78
3.4
3.5
3.8
J. Trejos — W. Castillo — J. González 3.8.4
xv
Opinión sobre un servicio de comedor . . . . . . . . . .
78
El A.C.P. general . . . . . . . . . . . . . . . . . . . . . . . . .
83
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
3.9
4 Análisis Factorial de Correspondencias
99
4.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
4.2
Conceptos básicos y objetivos del A.F.C. . . . . . . . . . . . . .
99
4.3
4.4
4.5
4.2.1
Concepto de independencia entre dos variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2.2
Objetivos del A.F.C. . . . . . . . . . . . . . . . . . . . 102
Perfiles, distancias y algunas propiedades . . . . . . . . . . . . 103 4.3.1
Perfiles-fila y sus pesos . . . . . . . . . . . . . . . . . . 103
4.3.2
Perfiles-columna y sus pesos . . . . . . . . . . . . . . . 105
4.3.3
Distancia entre perfiles . . . . . . . . . . . . . . . . . . 107
4.3.4
Equivalencia distribucional . . . . . . . . . . . . . . . . 107
4.3.5
Relación entre la inercia y la cantidad χ2 . . . . . . . . 109
Ejes factoriales, coordenadas y representación gráfica de perfiles . . . . . . . . . . . . . . . . . 109 4.4.1
A.C.P. de la nube de perfiles-fila . . . . . . . . . . . . . 110
4.4.2
A.C.P. de la nube de perfiles-columna . . . . . . . . . . 111
4.4.3
Relaciones de transición . . . . . . . . . . . . . . . . . 112
4.4.4
Representación de modalidades suplementarias . . . . . 115
4.4.5
Acerca del centraje en A.F.C. . . . . . . . . . . . . . . 115
Interpretación de un A.F.C.: algunos índices . . . . . . . . . . . 116 4.5.1
Contribución absoluta . . . . . . . . . . . . . . . . . . 116
4.5.2
Contribución relativa . . . . . . . . . . . . . . . . . . . 117
xvi 4.5.3
Selección de ejes . . . . . . . . . . . . . . . . . . . . . 118
4.5.4
Selección de perfiles . . . . . . . . . . . . . . . . . . . 119
4.5.5
Ejemplo ilustrativo: tipos de vehículos . . . . . . . . . . 120
4.5.6
Aplicación en Biología . . . . . . . . . . . . . . . . . . 125
4.6
Propiedades del Análisis Factorial de Correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.7
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5 Análisis de Correspondencias Múltiples
137
5.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2
La tabla de datos en A.C.M. . . . . . . . . . . . . . . . . . . . 137
5.3
5.4
5.5
5.2.1
Código disyuntivo completo . . . . . . . . . . . . . . . 138
5.2.2
Márgenes de X . . . . . . . . . . . . . . . . . . . . . . 139
Objetivos de un A.C.M. . . . . . . . . . . . . . . . . . . . . . . 140 5.3.1
Los individuos . . . . . . . . . . . . . . . . . . . . . . 140
5.3.2
Las modalidades . . . . . . . . . . . . . . . . . . . . . 140
5.3.3
El A.C.M. y otros métodos . . . . . . . . . . . . . . . . 140
Perfiles y distancias en A.C.M. . . . . . . . . . . . . . . . . . . 141 5.4.1
Perfiles-fila y distancia . . . . . . . . . . . . . . . . . . 141
5.4.2
Perfiles-columna y distancia . . . . . . . . . . . . . . . 142
Ejes factoriales y coordenadas factoriales en A.C.M. . . . . . . 143 5.5.1
Coordenadas factoriales de los individuos . . . . . . . . 143
5.5.2
Coordenadas factoriales de las modalidades . . . . . . . 144
5.5.3
Relaciones de transición entre coordenadas . . . . . . . 144
5.5.4
Elementos suplementarios . . . . . . . . . . . . . . . . 145
J. Trejos — W. Castillo — J. González 5.6
5.7
5.8
5.9
xvii
Interpretaciones en A.C.M. . . . . . . . . . . . . . . . . . . . . 147 5.6.1
Ejemplo: datos médicos . . . . . . . . . . . . . . . . . 148
5.6.2
Ejemplo: datos sociológicos . . . . . . . . . . . . . . . 149
Relación del A.C.M. con otros métodos . . . . . . . . . . . . . 160 5.7.1
Matriz de Burt: sus propiedades . . . . . . . . . . . . . 160
5.7.2
Análisis de una matriz de Burt . . . . . . . . . . . . . . 162
Inercia de algunas nubes de puntos . . . . . . . . . . . . . . . . 165 5.8.1
Inercia total . . . . . . . . . . . . . . . . . . . . . . . . 165
5.8.2
Inercia de nubes de modalidades . . . . . . . . . . . . . 165
5.8.3
Inercia proyectada . . . . . . . . . . . . . . . . . . . . 166
Pruebas de algunas propiedades del A.C.M. . . . . . . . . . . . 168
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 6 Clasificación Automática
175
6.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.2
Medidas de Semejanza . . . . . . . . . . . . . . . . . . . . . . 177
6.3
6.2.1
Distancias y disimilitudes . . . . . . . . . . . . . . . . 177
6.2.2
Similitudes . . . . . . . . . . . . . . . . . . . . . . . . 177
6.2.3
Disimilitudes . . . . . . . . . . . . . . . . . . . . . . . 181
6.2.4
Agregaciones . . . . . . . . . . . . . . . . . . . . . . . 188
Clasificación Jerárquica . . . . . . . . . . . . . . . . . . . . . . 189 6.3.1
Jerarquías . . . . . . . . . . . . . . . . . . . . . . . . . 189
6.3.2
Clasificación jerárquica ascendente . . . . . . . . . . . 191
6.3.3
Ejemplo de las notas escolares . . . . . . . . . . . . . . 197
6.3.4
Observaciones sobre la clasificación jerárquica . . . . . 199
xviii 6.4
6.5
6.6
Clasificación por Particiones . . . . . . . . . . . . . . . . . . . 199 6.4.1
Problema combinatorio . . . . . . . . . . . . . . . . . . 200
6.4.2
Criterio de la inercia . . . . . . . . . . . . . . . . . . . 201
6.4.3
Método de k-medias . . . . . . . . . . . . . . . . . . . 202
6.4.4
Métodos de nubes dinámicas . . . . . . . . . . . . . . . 206
6.4.5
Método de Fisher . . . . . . . . . . . . . . . . . . . . . 210
6.4.6
Análisis de las formas fuertes . . . . . . . . . . . . . . 210
6.4.7
Uso de heurísticas modernas de optimización . . . . . . 213
6.4.8
Aplicaciones del particionamiento . . . . . . . . . . . . 213
Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.5.1
Clasificación en Meteorología . . . . . . . . . . . . . . 215
6.5.2
Clasificación de variables sociológicas . . . . . . . . . . 219
6.5.3
Clasificación de fabes asturianas . . . . . . . . . . . . . 219
Prueba de algunos resultados teóricos . . . . . . . . . . . . . . 222 6.6.1
Fórmula de recurrencia de Lance & Williams . . . . . . 222
6.6.2
Propiedad de Fisher para la descomposición de la inercia 227
6.6.3
Convergencia del método de k-medias . . . . . . . . . . 228
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7 Análisis Discriminante Descriptivo
235
7.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
7.2
Los datos y notaciones . . . . . . . . . . . . . . . . . . . . . . 236 7.2.1
Caracterización de las funciones discriminantes . . . . . 243
7.2.2
Cálculo de las funciones discriminantes . . . . . . . . . 244
7.2.3
Representaciones en Análisis Discriminante Descriptivo 247
J. Trejos — W. Castillo — J. González
xix
7.3
Ejemplo sobre el embalse La Garita . . . . . . . . . . . . . . . 252
7.4
Cociente de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . 259
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8 Análisis de Tablas Múltiples
267
8.1
Introducción
8.2
Fundamentos del método Statis . . . . . . . . . . . . . . . . . . 268
8.3
8.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.2.1
Objetivos de los métodos Statis y Statis Dual . . . . . . 269
8.2.2
Producto interno y teorema de aproximación . . . . . . 269
8.2.3
Imagen Euclídea asociada a una tabla de productos escalares . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.2.4
Construcción de una imagen Euclídea para la nube (O, Π) 271
8.2.5
Imagen Euclídea centrada . . . . . . . . . . . . . . . . 272
Statis: individuos fijos . . . . . . . . . . . . . . . . . . . . . . 272 8.3.1
La interestructura . . . . . . . . . . . . . . . . . . . . . 274
8.3.2
El compromiso . . . . . . . . . . . . . . . . . . . . . . 280
La intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . 283 8.4.1
Individuo visto por todas las tablas (individuos promedio) 284
8.4.2
Imagen Euclídea para los individuos de las tablas Xk . . 285
8.5
Correlaciones de las variables con los ejes del compromiso . . . 287
8.6
Análisis evolutivo de una encuesta de opinión . . . . . . . . . . 291
8.7
8.6.1
Construcción de la tabla de datos . . . . . . . . . . . . . 292
8.6.2
Análisis de la interestructura . . . . . . . . . . . . . . . 292
8.6.3
Análisis de la intraestructura . . . . . . . . . . . . . . . 293
Statis Dual: las mismas variables en los m instantes . . . . . . . 297
xx 8.7.1
La interestructura . . . . . . . . . . . . . . . . . . . . . 298
8.8
El compromiso . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.9
Intraestructura . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 8.9.1
Representación de las variables . . . . . . . . . . . . . 304
8.9.2
Relación entre la interestructura y las trayectorias de las variables . . . . . . . . . . . . . . . . . . . . . . . . . 308
8.9.3
Representación de los individuos . . . . . . . . . . . . . 308
8.10 Aproximación óptima de matrices . . . . . . . . . . . . . . . . 308 8.11 Datos del Proyecto Angostura . . . . . . . . . . . . . . . . . . 310 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 9 Nuevas Tendencias en Análisis Multivariado
321
9.1
Optimización y análisis de datos . . . . . . . . . . . . . . . . . 321
9.2
Análisis de datos simbólicos . . . . . . . . . . . . . . . . . . . 323
9.3
Minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . 324
Bibliografía
327
Indice de Figuras 1.1
El coeficiente de correlación lineal muestra el tipo de relación entre dos variables cuantitativas . . . . . . . . . . . . . . . . .
17
Caso de variables centradas: la norma es una varianza y la correlación es un coseno. . . . . . . . . . . . . . . . . . . . . . .
29
Tres situaciones típicas para la correlación entre dos variables centradas xj y xk . . . . . . . . . . . . . . . . . . . . . . . . . .
29
La media como una proyección y la desviación estándar como una medida del error, para variables no centradas. . . . . . . . .
30
2.4
El esquema de dualidad. . . . . . . . . . . . . . . . . . . . . .
34
3.1
Proyección de un punto–individuo sobre un subespacio y su complemento ortogonal. . . . . . . . . . . . . . . . . . . . . . . . .
42
Primer plano principal para la tabla de notas escolares, generado por las dos primeras componentes principales. . . . . . . . . . .
50
Círculo de correlaciones para la tabla de notas escolares generado por las dos primeras componentes principales. . . . . . . .
52
3.4
Proyección de dos puntos individuos en el plano principal. . . .
54
3.5
Descomposición del coseno cuadrado según el teorema de Pitágoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Plano principal generado por las dos primeras componentes principales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . .
63
2.1 2.2 2.3
3.2 3.3
3.6
xxi
xxii 3.7 3.8 3.9
Círculo de correlaciones generado por las dos primeras componentes principales del A.C.P. de los datos sin filtrado. . . . . . .
64
Círculo de correlaciones generado por las dos primeras componentes principales del A.C.P. de los datos filtrados. . . . . . . .
66
Plano principal generado por las dos primeras componentes principales del A.C.P. de los datos sin filtrado. . . . . . . . . . . . .
67
3.10 Fabes asturianas: plano principal y círculo de correlaciones 1-2.
75
3.11 Fabes asturianas: plano principal y círculo de correlaciones 1-3.
76
3.12 Fabes asturianas: plano principal y círculo de correlaciones 1-4.
77
3.13 Círculo de correlaciones y proyección de las modalidades de señalización como individuos suplementarios en el primer plano principal para los datos del comedor del I.T.C.R. . . . . . . . .
82
3.14 Esquema de dualidad en el caso del A.C.P. general. . . . . . . .
88
4.1
Componentes de una tabla de contingencia. . . . . . . . . . . . 100
4.2
Componentes de una tabla de frecuencias. . . . . . . . . . . . . 101
4.3
Tabla de perfiles-fila. . . . . . . . . . . . . . . . . . . . . . . . 104
4.4
Tabla de perfiles-columna. . . . . . . . . . . . . . . . . . . . . 106
4.5
Primer plano factorial de los perfiles-fila de la Tabla 4.1. . . . . 112
4.6
Primer plano factorial de los perfiles-columna de la Tabla 4.1. . 113
4.7
Primer plano factorial: todos los perfiles de la Tabla 4.1. . . . . 114
4.8
Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121
4.9
Representación simultánea de los perfiles de la Tabla 4.4 en el primer plano factorial (65.59% de inercia). . . . . . . . . . . . . 122
4.10 Representación simultánea de los perfiles de la Tabla 4.4 en el plano factorial 1-3 (% Inercia 50.91). . . . . . . . . . . . . . . . 124 4.11 Plano principal del A.F.C. de epífitas y helechos (82.6% de inercia).126 4.12 Plano principal del A.F.C. de epífitas y niveles (74.82% de inercia).127
J. Trejos — W. Castillo — J. González
xxiii
5.1
Primer plano factorial: perfiles de las modalidades de la Tabla 5.3, datos médicos (66.42% de inercia). . . . . . . . . . . . . . 150
5.2
A.C.M. de las diez variables de opinión: plano principal (25% de inercia). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.3
A.C.M. de los temas “empresa privada–libertad”: plano principal (49% de inercia explicada). . . . . . . . . . . . . . . . . . . 157
5.4
Trayectoria seguida por las modalidades de var8 y var9 en el plano generado por los ejes 1 y 3 (43% de inercia). . . . . . . . 158
5.5
Gráfico de los valores propios del A.F.C. de la matriz de Burt correspondiente a los datos de la Tabla 5.7. . . . . . . . . . . . 163
5.6
Primer plano factorial del A.F.C. de la Matriz de Burt correspondiente a los datos de la Tabla 5.7: centros de las modalidades (18.72% de inercia). . . . . . . . . . . . . . . . . . . . . . . . . 164
6.1
Agrupación natural de puntos del plano en 3 clases. . . . . . . . 191
6.2
Ejemplo de árbol jerárquico . . . . . . . . . . . . . . . . . . . . 192
6.3
Arbol de clasificación obtenido al usar la agregación del salto mínimo en el Ejemplo 4. . . . . . . . . . . . . . . . . . . . . . 195
6.4
Arbol de clasificación obtenido al usar la agregación del salto máximo en el Ejemplo 5. . . . . . . . . . . . . . . . . . . . . . 196
6.5
Arbol de clasificación obtenido al usar la agregación del salto promedio en el Ejemplo 6. . . . . . . . . . . . . . . . . . . . . 197
6.6
Arbol de clasificación obtenido al usar la agregación del salto promedio (Ejemplo 7). . . . . . . . . . . . . . . . . . . . . . . 199
6.7
Jerarquía obtenida sobre las formas fuertes con el método de conexidad descendente. . . . . . . . . . . . . . . . . . . . . . . 214
6.8
Arbol de clasificación jerárquica de los instantes. . . . . . . . . 220
6.9
Arbol de clasificación para las variables de opinión. . . . . . . . 222
6.10 Arbol jerárquico de las variedades de fabes asturianas usando cuatro criterios de agregación. . . . . . . . . . . . . . . . . . . 223
xxiv 6.11 Fabes asturianas: árbol jerárquico de las variables. . . . . . . . . 224 7.1
Plano principal de representación de los centros de los sitios de banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
7.2
Plano principal de representación de los individuos, como suplementarios, en el plano de los centros de los sitios de banano (con b se representan los individuos del sitio bueno, con m los de sitio medio y con p los de sitio pobre). . . . . . . . . . . . . . . . . . 250
7.3
Círculo de correlaciones entre las variables explicativas originales y las variables discriminantes. . . . . . . . . . . . . . . . 252
7.4
Representación suplementaria de los individuos en los ejes discriminantes v1 , v2 . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.5
Representación de los individuos como elementos suplementarios en los ejes discriminantes v1 , v3 . . . . . . . . . . . . . . . . 257
7.6
Correlación entre variables y variables discriminantes z1 , z2 . . . 257
7.7
Correlación entre variables y variables discriminantes z1 , z3 . . . 258
8.1
Proyecto Angostura: interestructura. . . . . . . . . . . . . . . . 278
8.2
Proyecto Angostura: interestructura centrada. . . . . . . . . . . 279
8.3
Proyecto Angostura: Individuos promedio, ejes 1–2. . . . . . . . 285
8.4
Trayectorias de los meses. . . . . . . . . . . . . . . . . . . . . 287
8.5
Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO, ST, PO4 y Cal en el plano principal 1–2. . . . . . . . . . . . . . 288
8.6
Proyecto Angostura: concentración mensual. . . . . . . . . . . 290
8.7
Interestructura para la evolución de la opinión. . . . . . . . . . . 293
8.8
Correlación entre variables y los ejes del compromiso para la evolución de la opinión. . . . . . . . . . . . . . . . . . . . . . . 293
8.9
Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar y Provincia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
J. Trejos — W. Castillo — J. González
xxv
8.10 Grupos sociales promedio: partidos políticos. . . . . . . . . . . 295 8.11 Trayectorias de los grupos de edad más opuestos. . . . . . . . . 296 8.12 Trayectorias de los escolaridad más opuestos. . . . . . . . . . . 296 8.13 Caña de azúcar: interestructura normalizada (94% de inercia). . 301 8.14 Caña de azúcar: interestructura centrada (79% de inercia). . . . 302 8.15 Caña de azúcar: variables activas (75% de inercia). . . . . . . . 305 8.16 Caña de azúcar: variables suplementarias. . . . . . . . . . . . . 307
xxvi
Indice de Tablas 1.1
Tabla de datos de las notas escolares con peso y estatura. . . . .
9
1.2
Parte de una tabla de datos proveniente de una encuesta. . . . . .
9
1.3
Tabla de contingencia que cruza el nivel de salario con el nivel de estudios. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Tabla de Burt entre 4 de las variables acerca del servicio de comedor del ITCR. . . . . . . . . . . . . . . . . . . . . . . . .
13
1.5
Tabla de datos con la distancia entre algunas ciudades. . . . . .
13
1.6
Tabla de datos: sociomatriz en que 10 estudiantes de sexto grado califican la afinidad hacia cada uno de sus compañeros. . . . . .
14
3.1
Tabla de datos de las notas escolares. . . . . . . . . . . . . . . .
40
3.2
Correlaciones entre las materias de la tabla de notas escolares. .
47
3.3
Dos primeras componentes principales para la tabla de notas escolares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Cosenos cuadrados y calidad de la representación para la tabla de notas escolares. . . . . . . . . . . . . . . . . . . . . . . . .
57
3.5
Tabla de datos para las fabes asturianas. . . . . . . . . . . . . .
70
3.6
Principales estadísticas univariadas para las fabes asturianas. . .
70
3.7
Matriz de correlaciones para las fabes asturianas. . . . . . . . .
71
1.4
3.4
xxvii
xxviii 3.8
Valores propios y porcentajes de inercia para la tabla de las fabes asturianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Fabes asturianas: cuatro primeras componentes principales. . . .
72
3.10 Fabes asturianas: correlaciones principales (con negrita se han destacado los valores mayores para cada componente principal).
73
3.11 Fabes asturianas: comunalidades. . . . . . . . . . . . . . . . . .
74
3.12 Frecuencias relativas de las categorías en el estudio de opinión sobre el comedor del I.T.C.R. . . . . . . . . . . . . . . . . . . .
80
3.9
3.13 Comedor del I.T.C.R.: frecuencias de las variables de señalización. 81 3.14 Comedor del I.T.C.R.: valores propios del A.C.P. . . . . . . . .
81
3.15 Los datos de los peces de Amiard. . . . . . . . . . . . . . . . .
94
3.16 Datos sobre las causas de muerte en algunos países occidentales.
95
3.17 Datos sobre el consumo de proteínas en Europa en 1981. . . . .
96
3.18 Importaciones provenientes de México de los países de Centroamérica, entre 1979 y 1988. . . . . . . . . . . . . . . . . . .
97
4.1
Cantidad de estudiantes matriculados en universidades estatales según su procedencia, 1989. . . . . . . . . . . . . . . . . . . . 100
4.2
Perfiles-fila correspondientes a la Tabla 4.1. . . . . . . . . . . . 105
4.3
Perfiles-columna correspondientes a la Tabla 4.1. . . . . . . . . 106
4.4
Cantidad de gasolina regular comprada, por marca y tipo de vehículo, entre agosto y noviembre de 1996. . . . . . . . . . . . . 120
4.5
Valores propios del A.F.C. de la Tabla 4.4. . . . . . . . . . . . . 121
4.6
Contribuciones absolutas y cosenos cuadrados de las marcas de vehículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.7
Contribuciones absolutas y cosenos cuadrados de los tipos de vehículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
J. Trejos — W. Castillo — J. González
xxix
4.8
Número de epífitas por especie sobre 4 especies de helechos (primera parte de la tabla) y en cinco niveles (segunda parte de la tabla). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.9
Respuestas según el sexo. . . . . . . . . . . . . . . . . . . . . . 132
4.10 Respuestas según la profesión. . . . . . . . . . . . . . . . . . . 133 4.11 Exportaciones no tradicionales de Costa Rica. . . . . . . . . . . 134 5.1
Tres variables cualitativas observadas en 10 individuos. . . . . . 138
5.2
Código disyuntivo completo de los datos de la Tabla 5.1. . . . . 139
5.3
Datos médicos de incontinencia: códigos de las modalidades de las variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4
Valores propios del A.C.M. de la Tabla 5.3, datos médicos. . . . 150
5.5
Frecuencias para las variables socioeconómicas. . . . . . . . . . 154
5.6
Frecuencias de las variables de opinión. . . . . . . . . . . . . . 155
5.7
Cantidad de profesores de la Universidad de Costa Rica distribuidos por AÑO-SEXO, AÑO-CRA y SEXO-CRA. . . . . . 163
5.8
Primeros 4 valores propios del A.F.C. de la matriz de Burt correspondiente a los datos de la Tabla 5.7 . . . . . . . . . . . . . 164
5.9
Tabla de datos de las razas de perros. . . . . . . . . . . . . . . . 175
6.1
Resultados de 25 corridas del método de k-medias sobre la tabla de las notas escolares. . . . . . . . . . . . . . . . . . . . . . . . 207
6.2
Clasificación de las estaciones de observación, usando el método de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
6.3
Clasificación de los instantes de observación, usando el método de Ward. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
7.1
Extracto de una tabla de las fincas bananeras con las variables que describen la productividad. . . . . . . . . . . . . . . . . . . 237
7.2
Tabla de datos centrados de las fincas bananeras (extracto). . . . 240
xxx 7.3
Variables discriminantes del análisis discriminante de los sitios de banano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.4
Correlaciones entre las variables explicativas originales y las variables discriminantes. . . . . . . . . . . . . . . . . . . . . . . 251
7.5
Tabla de datos del embalse La Garita. . . . . . . . . . . . . . . 254
7.6
Matriz Ctg de los centros de gravedad. . . . . . . . . . . . . . . 255
7.7
Vectores propios de la matriz VB V−1 . . . . . . . . . . . . . . . 255
7.8
Valores propios de la matriz VB V−1 . . . . . . . . . . . . . . . 256
7.9
Cosenos cuadrados de los centros de gravedad con las funciones discriminantes. . . . . . . . . . . . . . . . . . . . . . . . . . . 256
7.10 Tabla de reses charolais y cebú. . . . . . . . . . . . . . . . . . . 265 8.1
Proyecto Angostura: matriz S de coeficientes RV . . . . . . . . 277
8.2
Proyecto Angostura: valores propios de la interestructura. . . . . 278
8.3
Proyecto Angostura: calidad de la representación de la interestructura. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
8.4
Proyecto Angostura: valores propios de la interestructura centrada.280
8.5
Proyecto Angostura: calidad de la interestructura centrada. . . . 280
8.6
Proyecto Angostura: valores propios de WD. . . . . . . . . . . 285
8.7
Caña de azúcar: calidad de la representación plana. . . . . . . . 301
8.8
Caña de azúcar: pesos del compromiso. . . . . . . . . . . . . . 304
8.9
Proyecto Angostura: Reventazón 1 y Reventazón 3. . . . . . . . 311
8.10 Proyecto Angostura: Tuís 4, Tuís 5 y Turrialba2. . . . . . . . . . 312 8.11 Proyecto Hidroeléctrico Ventanas–Garita: Verano. . . . . . . . . 316 8.12 Proyecto hidroeléctrico Ventanas–Garita: Verano–Invierno. . . . 317 8.13 Proyecto hidroeléctrico Ventanas–Garita: Invierno. . . . . . . . 318 8.14 Proyecto hidroeléctrico Ventanas–Garita: Invierno–Verano. . . . 319
ccxxxvi
Capítulo 7
Análisis Discriminante Descriptivo 7.1 Introducción Se designa con el nombre de Análisis Discriminante a una familia de técnicas utilizadas para describir y clasificar individuos caracterizados por ciertas variables, más precisamente se trata de ‘explicar’ una variable cualitativa con r modalidades con base en p variables cuantitativas llamadas variables explicativas o predictores. Cada individuo asume una sola modalidad, definiéndose así una partición del conjunto de individuos en r clases denominadas grupos a priori, o simplemente grupos. Se distinguen dos objetivos fundamentales que pueden ser complementarios: 1. Descriptivo: determinar cuales son las combinaciones lineales de las p variables observadas que permiten diferenciar lo mejor posible (discriminar) los r grupos. Este objetivo es de carácter descriptivo y se relaciona con el Análisis en Componentes Principales. Es natural entonces que se dé la mayor importancia a la construcción de representaciones bidimensionales de los individuos, de las variables y de los grupos a priori. 2. Decisional: construir reglas de clasificación —reglas decisionales— para asignar un nuevo individuo, del cual se conocen los valores de los predictores, a uno de los grupos a priori. Este objetivo es de carácter 235
236
7.2 Los datos y notaciones
decisional y su nexo es con los métodos probabilísticos. Esencial a este énfasis es la construcción de reglas de decisión y los procedimientos para su evaluación. Los ejemplos más clásicos de análisis discriminante pertenecen al dominio médico. Suponiendo que se ha logrado un diagnóstico fundamentado en una serie de análisis y exámenes realizados sobre un conjunto de pacientes, se pretende realizar un diagnóstico sobre un nuevo paciente al cual se le han practicado los mismos exámenes y análisis. El análisis discriminante intentará, a partir de esta información y de sus interrelaciones, prever el diagnóstico más probable. Este capítulo trata el Análisis Discriminante solo en relación con el primer objetivo. Es decir, desde un punto de vista descriptivo, por eso se llama Análisis Discriminante Descriptivo.
7.2 Los datos y notaciones Se consideran p variables continuas (variables explicativas) x1 , . . . , xp observadas en una muestra Ω de n individuos. Cada individuo i ∈ E se identifica con su vector (fila) de mediciones en Rp , xti = (xi1 , . . . , xip ) y cada variable xj con su vector (columna) de valores asumidos xj = (x1j , x2j , . . . , xnj )t . La variable cualitativa y (a explicar) determina una partición P = {C1 , . . . , Cr }, del conjunto de individuos Ω en r grupos. Se denota como: • X la matriz de tamaño n × p la cual se supone centrada en sus columnas. Como es usual sus columnas son las variables explicativas xj (previamente centradas) y los individuos xti son sus filas. • D=diag(pi ) es la matriz de pesos del conjunto de individuos Ω. • A cada clase Cs se le asigna el peso qs y centro de gravedad gs para s = 1, . . . , r donde qs =
X
i∈Cs
pi y gs =
1 X pi xi . qs i∈Cs
Se escribe Dq = diag(qj ) la matriz diagonal de los pesos de las r clases
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
237
• Además, se denota como Cg la matriz cuyas filas son los centros de gravedad gst . Ejemplo 1 En un estudio sobre la calidad y salud de suelos bananeros en la Cuenca del Caribe, se estudiaron varias variables físicas, químicas y biológicas que caracterizan la producción de los cultivos. En particular, también se estudió la productividad de las fincas a través de tres variables cuantitativas: • Circunferencia de la madre (CircMadr): se llama madre a una palmera de banano adulta, que produce un racimo próximo a la recolección; la circunferencia de la mata es medida a un metro de altura del suelo, en centímetros. • Altura del hijo (AltHijo): al lado de una madre nacen varios hijos, pero solo uno se deja para la próxima cosecha, aquél que tiene mayor robustez al momento de hacer la inspección; a éste se le llama el hijo y se mide su altura del suelo en centímetros. • Número de manos (#Manos): es el número de grupos de frutas, llamadas manos, que tiene el racimo; es un número entero, generalmente menor o igual a 10. Como parte del estudio mencionado, se hicieron mediciones en más de 40 fincas de 4 países latinoamericanos. Por ejemplo, en la tabla 7.1 se presenta una muestra extraída de una de las tablas creadas para el estudio, correspondiente a una de las fincas en Costa Rica (la tabla tiene realmente 220 objetos, pero por razones didácticas utilizamos una muestra de 36 plantas de banano). Los sitios de donde se toman los valores han sido clasificados a priori por el finquero, con base en su experiencia, como buenos, medios y pobres, según la productividad histórica. Se quiere hacer un análisis discriminante para determinar si la clasificación a priori dada por el finquero con base en su experiencia, es válida y puede servir de base para un estudio posterior que usará todas las variables físicas, químicas y biológicas, así como esa separación en clases para realizar los contrastes entre los tipos de suelos. Las clases están definidas por: • C1 = {3, 10, 17, 22, 40, 44, 47, 49, 58, 63, 71, 75}.
238
7.2 Los datos y notaciones
Objeto 3 10 17 22 40 44 47 49 58 63 71 75 81 84 96 104 121 131 136 142 148 153 155 157 158 170 172 177 189 193 195 202 209 210 211 216
CircMadr 101 93 83 94 84 92 86 82 84 90 94 92 78 71 81 86 81 63 83 82 83 82 75 85 82 54 59 65 62 62 60 65 64 63 59 59
AltHijo 210 245 225 245 260 247 187 214 240 205 233 237 195 196 203 126 173 180 232 230 205 190 220 180 270 120 280 167 122 146 165 140 175 135 125 180
#manos 9 9 8 8 9 9 8 9 9 9 9 10 8 8 8 6 7 6 7 7 7 7 7 8 8 5 4 6 5 6 5 6 4 5 5 6
Sitio bueno bueno bueno bueno bueno bueno bueno bueno bueno bueno bueno bueno medio medio medio medio medio medio medio medio medio medio medio medio medio pobre pobre pobre pobre pobre pobre pobre pobre pobre pobre pobre
Tabla 7.1: Extracto de una tabla de las fincas bananeras con las variables que describen la productividad.
239
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
• C2 = {81, 84, 96, 104, 121, 131, 136, 142, 148, 153, 155, 157, 158}. • C3 = {170, 172, 177, 189, 193, 195, 202, 209, 210, 211, 216}. El centro de gravedad total de la nube de puntos, es decir, el vector de medias, es g = (77.19, 197.31, 7.14) mientras que los centros de gravedad de las clases son g1 = (89.58, 229.00, 8.83), g2 = (79.38, 200.00, 7.23), g3 = (61.09, 159.55 5.18). Finalmente, se tiene D = diag(1/36) y los pesos de las clases son q1 = 12/36 = 0.33, q2 = 13/36 = 0.36, q3 = 11/36 = 0.31. Como se supone que las variables son centradas entonces el centro de gravedad del conjunto de todos los individuos Ω es g = 0 y la matriz de covarianza (total) V, de las p variables calculadas sobre Ω es r X n X X t t pi xi xi t . pi xi xi = V = X DX = i=1
s=1 i∈Cs
Sea Vs la matriz de covarianza de las p variables, calculada sobre los individuos de la s-ésima clase, 1 X Vs = pi (xi − gs )(xi − gs )t . qs i∈Cs
El promedio de estas matrices se define como la matriz de covarianza de todas las clases y se denomina matriz de covarianza intraclase y se denota como VW , r X r X X pi (xi − gs )(xi − gs )t . q s Vs = VW = s=1
s=1 i∈Cs
Finalmente la matriz VB de covarianza correspondiente a las p variables calculadas sobre los centros de gravedad, se denomina matriz de covarianza interclase, la cual es igual a, r X qs gs gst = Ctg Dq Cg . VB = s=1
240
7.2 Los datos y notaciones
Ejemplo 2 Para los datos del ejemplo 1, la tabla de datos centrada tiene la forma mostrada en la tabla 7.2. Una vez centrados los datos se tiene g = (0, 0, 0) y g1 = (12.39, 31.69 1.69), g2 = (2.19, 2.69, 0.09), g3 = (−16.10, −37.76, −1.96). Por su parte, se tienen las siguientes matrices de varianzas–covarianzas: 158.93 318.83 17.36 V = 318.83 1882.32 41.54 17.36 41.54 2.56 132.13 317.86 17.14 VB = 317.86 1745.10 40.49 . 17.14 40.49 2.46 30.74 2.92 0.68 VW = 0.33 × 2.92 411.67 3.17 + 0.68 3.17 0.31 37.47 0.69 0.76 +0.36 × 0.69 1108.00 10.62 + 0.76 10.62 0.49 9.90 −3.96 0.53 +0.31 × −3.96 1871.52 −12.83 0.53 −12.83 0.51 26.80 0.97 0.23 = 0.97 137.22 1.06 . 0.23 1.06 0.10
Nótese que la correlación entre la circunferencia del tallo (variable 2) y el número de manos (variable 3) es muy alta, lo cual puede afectar los resultados.
241
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Objeto 3 10 17 22 40 44 47 49 58 63 71 75 81 84 96 104 121 131 136 142 148 153 155 157 158 170 172 177 189 193 195 202 209 210 211 216
CircMadr 1.8882928 1.2537208 0.4605055 1.3330421 0.539827 1.1743991 0.69847 0.381184 0.539827 1.0157561 1.3330421 1.1743991 0.0638979 -0.4913527 0.3018624 0.69847 0.3018624 -1.1259249 0.4605055 0.381184 0.4605055 0.381184 -0.1740667 0.6191485 0.381184 -1.8398186 -1.443211 -0.9672819 -1.2052464 -1.2052464 -1.3638895 -0.9672819 -1.0466033 -1.1259249 -1.443211 -1.443211
AltHijo 0.2925948 1.0993112 0.6383304 1.0993112 1.4450468 1.1454093 -0.2375332 0.3847909 0.984066 0.1773496 0.8227227 0.9149189 -0.0531409 -0.0300918 0.1312515 -1.6435246 -0.5602198 -0.3988765 0.7996737 0.7535756 0.1773496 -0.1683861 0.5230852 -0.3988765 1.6755372 -1.781819 1.9060276 -0.698514 -1.7357209 -1.1825439 -0.7446121 -1.3208381 -0.5141217 -1.4360833 -1.6665736 -0.3988765
#manos 1.1622769 1.1622769 0.5377698 0.5377698 1.1622769 1.1622769 0.5377698 1.1622769 1.1622769 1.1622769 1.1622769 1.7867839 0.5377698 0.5377698 0.5377698 -0.7112443 -0.0867372 -0.7112443 -0.0867372 -0.0867372 -0.0867372 -0.0867372 -0.0867372 0.5377698 0.5377698 -1.3357513 -1.9602584 -0.7112443 -1.3357513 -0.7112443 -1.3357513 -0.7112443 -1.9602584 -1.3357513 -1.3357513 -0.7112443
Tabla 7.2: Tabla de datos centrados de las fincas bananeras (extracto).
242
7.2 Los datos y notaciones
El siguiente teorema muestra que la covarianza total se puede descomponer en la suma de la covarianza intraclase más la covarianza interclase. Teorema 7.1 Sean V, VB , VW las matrices de covarianza total, interclase e intraclase, respectivamente, entonces 1. V = VB + VW . Pr 2. s=1 qs gs = 0. Es decir rang (Cg ) ≤ r − 1. 3. rang (Cg ) = rang (VB ).
D EMOSTRACIÓN : Para demostrar 1, se calcula primeramente X X (pi xi xti − pi gs xti − pi xi gst + pi gs gst ) pi (xi − gs )(xi − gs )t = i∈Cs
=
i∈C Xs
pi xi xti − gs
X
pi xi xti − qs gs gst − qs gs gst + qs gs gst
i∈Cs
gs gst = =
i∈C Xs
i∈Cs
X
pi
X
i∈Cs
pi xti −
X
pi xi gst +
i∈Cs
i∈Cs
pi xi xti − qs gs gst .
Sustituyendo esta última expresión en VB + VW se tiene VB + V W
=
r X X pi (xi − gs )(xi − gs )t ) (qs gs gst + s=1
i∈Cs
s=1
i∈Cs
r X X pi xi xti − qs gs gst ) (qs gs gst + =
=
r X X
pi xi xi t
s=1 i∈Cs
= V.
La prueba de 2. sigue de sustituir el valor de gs en r X s=1
qs gs =
r X X
s=1 i∈Cs
pi xi =
n X i=1
Pr
s=1 qs gs ,
pi xi = g = 0.
en efecto
243
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Para demostrar 3., nótese que las matrices VB y Cg tienen el mismo núcleo1 y por lo tanto el mismo rango; en efecto, sea x ∈ Rr , se tiene VB x = 0 ⇒ xt Cg t Dq Cg x = 0 ⇒ (Cg x)t Dq Cg x = 0 ⇒ Cg x = 0. Además Cg x = 0 ⇒ VB x = 0. En el ejemplo 2 puede comprobarse que, en efecto, se cumple V = VB + VW sobre estos datos.
7.2.1 Caracterización de las funciones discriminantes En el primer objetivo descriptivo se plantea la necesidad de encontrar funciones que permitan separar lo mejor posible las r categorías. Desde este punto de vista el problema que se propone resolver el análisis discriminante puede formularse en los siguientes términos: entre todas las combinaciones lineales de las p variables, buscar aquellas que tienen una varianza interclase máxima (para resaltar las diferencias entre las clases) y una varianza intraclase mínima (baja dispersión al interior de las clases). Estas combinaciones lineales serán las llamadas funciones discriminantes, se denotan como z1 , . . . , zm y se caracterizan más precisamente como sigue: 1. Cada función discriminante z ∈ Rp es una combinación lineal de las p variables originales. Esto es, z=
p X j=1
uj xj = Xu, con u ∈ Rp .
Como cada una de las p variables es centrada, z también lo es y su varianza es var (z) = (Xu)t Dp Xu = ut Xt Dp Xu = ut Vu. De acuerdo con la parte 1 del teorema 7.1 se tiene que var (z) = ut Vu = ut VW u + ut VB u.
(7.1)
Esta última igualdad muestra que la varianza de la variable z se descompone en varianza al interior de las clases (intra) y varianza entre las clases (inter), por lo que para z = Xu se definen: 1
El núcleo de una matriz A es el conjunto de vectores x tales que Ax = 0.
244
7.2 Los datos y notaciones
• Varianza intraclase de z intra(z) = ut VW u. • Varianza interclase de z inter(z) = ut VB u 2. Como la idea es definir m funciones discriminantes z1 , . . . , zm , es natural plantear que ellas sean Dp −ortonormadas, es decir, no correlacionadas y de varianza uno. 3. Los valores de cada variable zj en los individuos de un mismo grupo, deben ser lo más próximos posible. Es decir, se debe minimizar intra(zj ), la varianza intraclase. 4. Los valores de cada variable zj en los individuos pertenecientes a clases distintas, deben ser lo más diferentes posible. Esto es, se debe maximizar inter(zj ), la varianza interclase.
7.2.2 Cálculo de las funciones discriminantes Si se pide que u cumpla con ut Vu = 1, entonces de acuerdo con la ecuación (7.1) var(z) = ut Vu = ut VB u + ut VW u = 1 se ve que las propiedades 3. y 4. de las funciones discriminantes son equivalentes: max ut VB u ut Vu = 1 ⇔ min ut VW u ut Vu = 1 . Luego es suficiente que la función z = Xu satisfaga max ut VB u ut Vu = 1 .
(7.2)
Sea rang (X) = p, como
ut VB u = ut VV−1 VB u = hu, V−1 VB uiV y la matriz V−1 VB es V-simétrica, se tiene que el máximo de (7.2) es λ1 y se alcanza en u = u1 vector propio de la matriz V−1 VB asociado al primer valor propio λ1 (ver el teorema de Rayleigh en la sección 7.4), página 259.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
245
La primera función discriminante es por lo tanto z1 = Xu1 . La segunda función discriminante z2 = Xu2 se obtiene entre las que el vector u2 satisface la relación (7.2) y además es V − ortogonal con u1 . Continuando de esta manera se tiene que la k-ésima función discriminante zk = Xuk , está definida por el vector uk el cual es solución del problema de máximo: λk = utk VB uk = max{ut VB u|ut Vu = 1, ut Vus = 0, s = 1, . . . , k − 1}. (7.3) donde los u1 , . . . , uk−1 corresponden a las funciones discriminantes z1 , . . . , zk−1 previamente calculadas. De acuerdo con la parte 1 del teorema de Rayleigh (ver la sección 7.4) uk es vector propio de V−1 VB asociado al k-ésimo valor propio λk . Así λk es la inercia interclases de la k−ésima variable discriminante. Nótese que λk ∈ [0, 1] . Los resultados anteriores indican que el problema de encontrar las funciones discriminantes se reduce al cálculo de los valores y vectores propios de la matriz V−1 VB . El siguiente teorema muestra que las variables zj también se pueden calcular a partir de un A.C.P., lo cual permite obtener representaciones bidimensionales de los individuos, de las clases (en planos principales) y de las variables (en círculos de correlaciones), como se presentó en el capítulo 3 sobre el Análisis en Componentes Principales. Estas representaciones ayudan a verificar si las variables discriminan las clases a priori y si es posible describirlas en términos de las variables originales. Teorema 7.2 Sea X de rango p, es decir, V es invertible. Si v1 , . . . , vt son los vectores propios del A.C.P. de la nube de centros de gravedad Ng = (Cg , V−1 , Dq ), ortonormados según la métrica V−1 , con valores propios correspondientes λ1 > λ2 > . . . > λt , entonces las variables discriminantes son zj = XV−1 vj = Xuj , j = 1, . . . , t. D EMOSTRACIÓN : En este caso los vectores v1 , . . . , vt son vectores propios de la matriz Cg t Dq Cg V−1 = VB V−1 , de donde sigue que para j = 1, . . . , t, uj = V−1 vj es un vector propio de V−1 VB con valor propio correspondiente λj . Además, los vectores propios u1 , . . . , ut son V–ortonormados. Se tiene entonces que las componentes principales zj = Xuj = XV−1 vj , j = 1, . . . , t, son las funciones discriminantes.
246
7.2 Los datos y notaciones
Cada valor propio λi se llama poder discriminante y el vector propio correspondiente vi , eje discriminante. Los ejes discriminantes son entonces los ejes de máxima inercia de la nube de centros de gravedad (baricentros). En este sentido se dice que son los ejes que más discriminan los grupos a priori. Ejemplo 3 Dando continuación al ejemplo 2, se tiene 0.02 0.00 −0.16 V−1 = 0.00 0.00 −0.01 . −0.16 −0.01 1.58
Al diagonalizar VB V−1 se obtienen los valores propiosλ1 = 0.89 y λ2 = 0.03, que explican respectivamente 97% y 3% de la inercia de la nube de centros Ng . Los vectores propios respectivos son: v1 = (−0.65, −0.08, 0.76)t , v2 = (0.50, −0.80, 0.35)t . Las variables discriminantes se muestran en la tabla 7.3.
247
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Objeto 3 10 17 22 40 44 47 49 58 63 71 75 81 84 96 104 121 131 136 142 148 153 155 157 158 170 172 177 189 193 195 202 209 210 211 216
Comp.1 -1.593 -1.355 -0.580 -1.082 -1.025 -1.319 -0.605 -0.825 -0.973 -1.129 -1.365 -1.607 -0.298 -0.013 -0.441 0.181 -0.050 0.984 -0.284 -0.237 -0.214 -0.134 0.075 -0.546 -0.655 1.821 1.519 0.935 1.488 1.112 1.460 1.005 1.584 1.414 1.604 1.148
Comp.2 -8.632 -0.890 1.035 -8.730 7.505 0.047 -2.191 8.732 7.246 1.326 -1.956 6.846 5.202 11.594 2.572 -16.837 -4.744 4.819 -5.803 -4.918 -6.153 -5.436 1.331 -1.370 2.528 5.315 -4.099 2.828 -1.949 5.290 0.430 2.479 -10.014 -2.692 0.824 8.464
Tabla 7.3: Variables discriminantes del análisis discriminante de los sitios de banano.
248
7.2 Los datos y notaciones
El teorema 7.3, cuya prueba se deja como ejercicio, tiene un interés práctico en la implementación computacional del Análisis Discriminante Descriptivo. Se sabe que el proceso de diagonalización de una matriz representa un esfuerzo computacional significativo. Para lograr más eficiencia en ese proceso se debe procurar diagonalizar siempre una matriz simétrica del menor tamaño posible, aún cuando posteriormente se deban hacer ciertas transformaciones. El teorema 7.3 garantiza que esto siempre es posible ya que así es suficiente diagonalizar una matriz r × r lo cual es ventajoso si r < p. 1
Teorema 7.3 Sea C = Cg t Dq 2 , p × r. Entonces 1. VB = CCt . 2. Si e1 , . . . , et son vectores propios Ir -ortonormados de Ct V−1 C, asociados respectivamente a los valores propios no ceros, λ1 , . . . , λt . Entonces v1 , . . . , vt son vectores propios V−1 -ortonormados de VB V−1 asociaCe dos a los mismos valores propios λj , donde vj = √ j . λj
7.2.3 Representaciones en Análisis Discriminante Descriptivo A partir de los resultados obtenidos con el teorema 7.2, se pueden construir las siguientes representaciones bidimensionales para el caso de más de dos grupos a priori, es decir, r > 2. Representación de los grupos a priori Se ha visto que el Análisis Discriminante Descriptivo se puede interpretar como la búsqueda de los ejes (en Rp ) más discriminantes de los grupos a priori, en el sentido de maximización de la inercia interclases. Estos ejes son los vectores propios del A.C.P. de Ng = Cg , V−1 , Dq (ver teorema 7.2), lo que permite al mismo tiempo calcular las funciones discriminantes. Para obtener las representaciones bidimensionales de los centros de gravedad de los grupos, se proyectan éstos, V−1 − ortogonalmente sobre los planos principales del A.C.P. De lo anterior sigue que la coordenada del centro de gravedad gs del grupo Cs , sobre el eje j− ésimo es: coordj (gs ) = gst V−1 vj . Se puede entonces hacer una representación gráfica de los centros de gravedad en un plano principal.
249
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Ejemplo 4 El plano principal de representación de los centros de los 3 grupos o sitios de banano se muestra en la figura 7.1. Puede verse una buena separación entre los centros, bien alejados entre sí
Eje 2
6
1-BUENO ?
3-POBRE ? 2-MEDIO ?
-
Eje 1
?
Figura 7.1: Plano principal de representación de los centros de los sitios de banano.
Representación de las variables como son definidas por los grupos a priori Las columnas de la matriz Cg , de dimensión r (el número de grupos), representan las variables tal como son descritas por los grupos a priori ya que cada columna yj de Cg es el vector (g1j , . . . , grj ), donde gsj es el promedio de la variable explicativa xj en el grupo Cs . Se les llamará variables promedio. Por las fórmulas de dualidad del A.C.P. (ver sección 3.9, página 83) se sabe que las columnas de la matriz (v1 . . . vt ) D√λ son las coordenadas de las colum √ nas yj de Cg . Es decir, coords yj = λs vjs para j = 1, . . . , p y s = 1, . . . , t.
250
7.2 Los datos y notaciones
Superponiendo el gráfico de los grupos a priori y el de las variables promedio, es posible analizar la influencia de las variables en la determinación de los grupos a priori.
Representación de los individuos Los individuos se proyectan en suplementario sobre los ejes discriminantes, es decir, sobre los ejes principales del A.C.P. de la nube de centros Ng = (Cg , V−1 , Dq ). Sea xi el i−ésimo individuo, su coordenada sobre el j− ésimo eje es: coordj (xi ) = xti V−1 vj . Es claro que el vector de coordenadas de los individuos sobre el j−ésimo eje es la función discriminante zj = Xuj . Ejemplo 5 El plano principal de representación de los individuos, como puntos suplementarios en el plano de los centros de los 3 grupos o sitios de banano, se muestra en la figura 7.2. Se aprecia que, en general, los puntos de cada sitio están agrupados entre sí y bien separados de los puntos de los otros sitios. Solo hay tres excepciones para algunos puntos del sitio medio, que se mezclan con los sitios vecinos.
Representación de las variables Las variables explicativas originales se representan en el sistema Dp −ortonormado determinado por las variables discriminantes. La coordenada de la variable xj (columna j− ésima de X) sobre el eje s− ésimo es: coords xj = (xj )t Dp zs = vjs . En efecto, como zs = XV−1 vs entonces el vector de coordenadas de las variables en la dirección de la variable discriminante zs es, Xt Dp zs = Xt Dp XV−1 vs = vs . Si las variables son estandarizadas (varianza igual a 1) entonces la coordenada está dada por la correlación coords xj = r xj , zs y las variables se pueden representar como en el A.C.P. normado, en un círculo de correlaciones.
251
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Eje 2
6
m bb
b
p
b
b b b
b?
m m b m b
m
?p p
?
pp p
m m mmm b
p
mp pp
m
b
-
Eje 1
p
m
?
Figura 7.2: Plano principal de representación de los individuos, como suplementarios, en el plano de los centros de los sitios de banano (con b se representan los individuos del sitio bueno, con m los de sitio medio y con p los de sitio pobre).
Ejemplo 6 En el caso de los datos de banano que se han venido exponiendo, las correlaciones entre las componentes principales y las variables originales, todas con 36 dimensiones, se muestran en la tabla 7.4. El círculo de correlaciones respectivo se presenta en la figura 7.3.
El caso de dos grupos a priori Cuando solo hay dos grupos a priori, las representaciones se simplifican ya que el rango de VB (y por tanto el de VB V−1 ) vale 1. En este caso, si q1 , q2 denotan los pesos de cada grupo, g2 − g1 es un vector propio de VB V−1 asociado al único valor propio q1 q2 kg2 − g1 kV−1 (ver ejercicio 4). En consecuencia, las
252
7.2 Los datos y notaciones
Variable CircMadre AltHijo #Manos
Comp.1 -0.961 -0.676 -0.961
Comp.2 -0.269 0.083 0.258
Tabla 7.4: Correlaciones entre las variables explicativas originales y las variables discriminantes.
representaciones tanto de los individuos, los centros de gravedad y las variables, se hacen sobre una recta. Indices de calidad La calidad de la discriminación en un subespacio principal de dimensión q es el porcentaje de inercia explicada: Pq Pq j=1 λj j=1 λj = 100 × Pt 100 × Inercia Total j=1 λj donde t es el número de valores propios positivos del A.C.P. de la nube Ng = Cg , V−1 , Dq .
La calidad de la representación de los centros de gravedad de la clase l-ésima y del i-ésimo individuo sobre el s-ésimo eje discriminante se mide por medio de los cosenos cuadrados de la misma forma como se hace en A.C.P. Las fórmulas para el cálculo de estos cosenos son: • Centro de gravedad de la clase l: 2
cos (gl , s) =
kPrs (gl )k2V−1
t −1 2
g V vs vs −1 (glt V−1 vs )2 l V = = . glt V−1 gl glt V−1 gl
kPrs (xi )k2V−1
t −1 2
x V vs vs −1 (xti V−1 vs )2 i V = = . xti V −1 xi xti V−1 xi
kgl k2V−1
• Individuos: 2
cos (i, s) =
kxi k2V−1
donde Prs (gl ) denota la proyección del vector gl a lo largo del vector vs que define el s-ésimo eje discriminante.
253
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Eje 2 6
• #manos
• AltHijo
- Eje 1
• CircMadr
? Figura 7.3: Círculo de correlaciones entre las variables explicativas originales y las variables discriminantes.
7.3 Ejemplo sobre el embalse La Garita Los siguientes datos son tomados del análisis de la calidad del agua realizado por el Instituto Costarricense de Electricidad (ICE) en el complejo hidroléctrico Ventanas Garita. La tabla de datos está conformada por las mediciones de 12 variables relacionadas con la contaminación de los ríos y un índice de calidad obtenido con algunas de ellas. Las mediciones son mensuales y se hicieron durante un año en nueve puntos de muestreo, uno en cada río que llega al embalse (cinco en total), tres en el embalse y una a la salida de éste. Las variables están medidas en unidades de concentración, salvo la Calidad que es un índice entre cero y cien y son las siguientes (entre paréntesis se coloca el nombre abreviado de la variable): Nitratos (NIT), Fosfatos (FOS), Calidad del agua (CAL), Sólidos totales (STT), potencial Hidrógeno (PH), Manganeso (MN), Zinc (ZN), Sólidos Sedimentables (SS), Alcalinidad (ALC),
254
7.3 Ejemplo sobre el embalse La Garita
Cloro (CL), Caudal (CAU), Demanda Bioquímica de Oxígeno (DBO) y Porcentaje de Saturación de Oxígeno (PSO). Los 9 puntos de muestreo son (entre paréntesis se coloca el nombre abreviado del punto de muestreo): Presa (P), Alajuela (A), Ciruelas (C), Virilla (V) y Quebrada Soto (Q), Embalse Orilla (EO), Embalse Centro (EC), Embalse Salida (ES) y Desfogue (D). Los datos se pueden ver en la tabla 7.5. El objetivo es utilizar el Análisis Factorial Discriminate para investigar la relación entre la contaminación de los ríos y la estación del año, que en Costa Rica son cuatro: Verano (V), transición Verano-Invierno (VI), Invierno (I) y transición Invierno-Verano (IV). Para satisfacer este objetivo se organiza la información de la manera siguiente: X es la matriz de tamaño 36 × 13, donde cada fila es un sitio-estación que corresponde al sitio de muestreo y la estación del año en que se realizó la medición, de esta manera cada punto de muestreo aporta cuatro filas, por ejemplo para el Virilla son VV, VVI, VI, VIV (el nombre se forma con la etiqueta del punto de muestreo seguida de la etiqueta de la estación). Las columnas están formadas por el promedio de cada variable sobre los meses correspondientes a cada estación. Se asigna a todos los individuos (sitio-estación) el mismo peso, es decir 1 para i = 1, . . . 36. De esta manera los cuatro grupos V,VI,I,IV, tiepi = 36 nen el mismo peso qi = 41 y estan formados por:
Grupos G1: V G2: VI G3: I G4: IV
Individuos PV DV EOV ESV ECV AV CV QV VV PVI DVI EOVI ESVI ECVI AVI CVI QVI VVI PI DI EOI ESI ECI AI CI QI VI PIV DIV EOIV ESIV ECIV AIV CIV QIV VIV
La matriz Ctg cuyas columnas son los centros de gravedad calculados de la matriz X centrada y reducida, se muestra en la Tabla 7.6. La matriz de covarianza de los centros de gravedad es VB = 14 Ctg Cg y la matriz de Covarianza de las variables definidas por la tabla X es, en este caso, la matriz de correlaciones. Los vectores y valores propios (positivos) de la matriz de rango 3, VB V−1 se muestran respectivamente en las tablas 7.7 y 7.8.
255
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Sitio/ Estación PV PVI PI PIV
NIT FOS CAL STT
PH MN ZN SS
ALC
CL
CAU DBO PSO
1.44 2.70 3.89 1.87
0.78 1.13 0.35 0.48
58.25 62.50 79.25 68.00
126.75 195.00 176.50 171.00
7.29 7.50 7.41 7.50
0.21 0.20 0.37 0.18
0.02 0.02 0.28 0.66
0.66 1.15 0.62 0.75
120.50 104.50 80.25 97.50
3.92 4.10 3.35 3.05
17.85 28.20 53.27 46.75
25.00 53.25 90.70 77.00 3.77 89.75 26.60 72.50
AV AVI AI AIV
2.36 1.88 2.13 1.06
0.43 0.96 0.24 0.46
69.00 68.50 80.25 73.00
156.50 230.00 176.25 180.50
8.41 8.10 7.74 8.05
0.06 0.16 0.25 0.12
0.03 0.16 0.07 0.25
0.20 0.95 0.62 0.45
150.75 116.50 104.75 135.00
7.85 17.70 5.90 10.55
0.45 0.90 1.64 1.21
16.70 87.25 46.35 84.00 4.47 86.00 8.90 79.00
EOV EOVI EOI EOIV
0.83 2.31 3.96 1.37
0.63 1.20 0.27 0.36
53.25 60.50 81.25 66.50
169.00 224.50 160.50 158.00
7.70 7.27 7.17 7.30
0.18 0.16 0.36 0.14
0.26 0.06 0.05 0.21
0.70 0.95 0.32 0.85
136.75 97.00 158.00 99.50
3.60 4.10 3.25 2.60
12.00 12.00 20.00 20.00
22.17 76.50 24.25 61.00 1.32 82.00 6.60 49.50
ECV ECVI ECI ECIV
1.06 2.57 3.86 1.11
0.69 1.21 0.27 0.45
55.50 58.50 81.50 60.50
177.25 288.00 168.00 157.50
7.21 7.25 7.16 7.25
0.18 0.41 0.17 0.16
0.02 0.05 0.48 0.07
0.72 0.65 0.46 1.00
127.75 95.00 78.75 99.50
3.70 4.25 3.35 2.75
12.00 12.00 20.00 20.00
13.55 58.25 22.45 57.00 1.35 81.75 9.65 41.50
ESV ESVI ESI ESIV
0.91 2.52 4.14 1.05
0.66 1.10 0.25 0.37
59.00 61.50 82.75 64.50
160.25 217.00 152.25 156.50
7.25 7.35 7.26 7.30
0.18 0.21 0.20 0.14
0.03 0.10 0.09 0.16
0.49 0.85 0.37 0.45
125.75 98.00 79.50 101.50
3.37 4.25 3.35 2.75
12.00 12.00 20.00 20.00
14.02 43.25 21.65 64.00 1.45 84.50 8.10 47.00
QV QVI QI QIV
2.14 2.42 2.66 2.22
0.55 1.58 0.40 0.75
71.25 68.50 82.25 78.00
188.25 209.00 186.50 185.50
8.36 8.20 8.00 8.30
0.03 0.04 0.02 0.00
0.02 0.03 0.06 0.15
0.20 0.35 0.16 0.20
165.00 153.00 162.50 178.50
3.60 4.55 3.42 2.90
0.14 0.35 0.61 0.36
3.27 66.50 20.10 85.50 1.75 85.25 1.50 85.50
CV CVI CI CIV
3.60 3.73 3.71 4.76
0.52 1.39 0.37 0.83
72.25 63.50 80.00 72.50
184.75 232.50 190.25 159.00
8.44 8.05 7.75 8.05
0.03 0.12 0.22 0.08
0.01 0.04 0.05 0.15
0.42 0.75 0.46 0.40
149.50 128.50 113.25 105.00
8.12 9.30 7.07 6.65
1.37 3.04 4.68 3.58
4.77 88.25 46.00 70.00 1.85 83.00 3.50 84.50
VV VVI VI VIV
7.64 5.72 6.09 4.65
1.19 1.91 0.87 0.76
58.50 57.00 67.00 73.00
335.50 404.00 321.25 254.00
8.05 8.05 7.80 8.05
0.28 0.31 0.28 0.20
0.06 0.07 0.11 0.32
1.85 1.75 1.27 0.95
182.25 153.50 136.00 144.50
12.90 12.85 9.05 7.80
16.67 17.25 50.05 42.20
21.50 83.50 116.9 86.50 9.35 90.50 6.50 88.00
DV DVI DI DIV
0.88 2.32 4.08 1.05
0.70 0.90 0.27 0.32
61.00 64.00 81.25 67.00
172.25 227.50 169.00 134.00
7.31 7.40 7.32 7.30
0.19 0.26 0.17 0.17
0.02 0.16 0.04 0.03
0.55 0.95 0.70 0.70
129.00 101.00 85.75 103.50
3.75 4.10 3.27 2.90
19.90 37.10 59.75 62.25
11.07 48.50 54.15 68.50 1.92 84.50 8.10 51.00
Tabla 7.5: Tabla de datos del embalse La Garita.
256
7.3 Ejemplo sobre el embalse La Garita
Variable FOS NIT CAL STT PH MN ZN SS ALC CL CAU DBO PSO
G1 -0.30 -0.07 -0.73 -0.23 0.28 -0.31 -0.51 -0.12 0.74 0.03 -0.46 -0.17 -0.37
G2 0.07 1.36 -0.65 0.84 0.05 0.30 -0.33 0.62 -0.21 0.49 -0.27 1.23 -0.02
G3 0.64 -0.85 1.28 -0.17 -0.37 0.50 0.10 -0.36 -0.39 -0.26 0.40 -0.65 0.81
G4 -0.42 -0.44 0.10 -0.45 0.03 -0.49 0.73 -0.13 -0.14 -0.26 0.32 -0.41 -0.42
Tabla 7.6: Matriz Ctg de los centros de gravedad.
1 2 3 4 5 6 7 8 9 10 11 12 13
Vector propio v1 v2 v3 −0.36 −0.18 0.20 0.56 −0.68 0.13 −0.84 0.09 −0.18 0.13 −0.50 0.15 0.23 0.05 0.04 −0.27 −0.29 0.21 −0.17 0.12 −0.59 0.22 −0.32 0.00 0.30 0.26 0.30 0.18 −0.24 0.12 −0.30 0.04 −0.30 0.42 −0.64 0.10 −0.47 −0.16 0.19
Tabla 7.7: Vectores propios de la matriz VB V−1 .
257
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Valor propio λ1 λ2 λ3
Inercia 0.8834 0.8705 0.5320
% explicado 38.65% 38.08% 23.27%
% acumulado 38,65% 76.73% 100.00%
Tabla 7.8: Valores propios de la matriz VB V−1 . Eje 2
6
• EOI-3
• QI-3 G? −3 • • CI-3 • ECI-3 • P -3 DI-3 • • AI-3 ESI-3
• VI-3
AV-1 • • EOV-1 • • • VV-1 QV-1 CV-1 ? DIV-4 ECIV-4 • G−1 • • • ESIV-4 • EOIV-4 • ESV-1 ? PIV-4 • • • G−4 ECV-1 PV-1 VIV-4 • • • DV-1 QIV-4 AIV-4• CIV-4
-
Eje 1
DVI-2 •
• ESVI-2 • AVI-2 EOVI-2• ? • G−2 • PVI-2 • ECVI-2 QVI-2
• CVI-2
• VVI-2
? Figura 7.4: Representación suplementaria de los individuos en los ejes discriminantes v1 , v2 .
G–1 G–2 G–3 G–4
cos2 (gl , 1) 0.241 0.128 0.949 0.016
cos2 (gl , 2) 0.332 0.870 0.000 0.131
cos2 (gl , 3) 0.427 0.002 0.051 0.853
Total 1 1 1 1
Tabla 7.9: Cosenos cuadrados de los centros de gravedad con las funciones discriminantes.
258
7.3 Ejemplo sobre el embalse La Garita
Eje 3
6
• VIV-4
• DI -3
• AI-3 ? • G-3 • QI-3 CI -3
• ESI-3
• EOIV-4
DIV-4 • • ? ECIV-4 G-4 • AIV-4 QIV-4 • •ESIV-4 • • AVI-2 QV-1• • • QVI-2 CVI-2 DVI-2 • EOVI-2 CIV-4•• ? • ESVI-2 G-2 DV-1 •ESV-1 PVI-2 • •VVI-2 •PV-1 ECVI-2 • ? • VV-1 G-1 CV-1
• ECI-3 • PI-3
• PIV-4
• VI-3
• AV-1 • ECV-1
• EOI-3
-Eje 1
• EOV-1
? Figura 7.5: Representación de los individuos como elementos suplementarios en los ejes discriminantes v1 , v3 .
Eje 2 6
• ALC
• CAL
• CAU PSO
•
• ZN
-Eje 1
• PH
• NIT
• CL • SS
• MN
• STT • DBO • FOS
? Figura 7.6: Correlación entre variables y variables discriminantes z1 , z2 .
259
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Eje 3 6 • ZN
• CAU • CAL
PSO
•
NIT • • MN
STT
• SS • PH • • CL
-Eje 1 • DBO • FOS
• ALC
? Figura 7.7: Correlación entre variables y variables discriminantes z1 , z3 .
De la observación de los gráficos de planos y círculos, además de las tablas de vectores propios y cosenos cuadrados, se puede decir lo siguiente: • El primer eje discriminante separa el grupo 3 (Invierno) de los restantes. El segundo eje separa el grupo 2 (fin del Verano ) y el tercer eje opone el grupo 1 (Verano) al grupo 4 (fin del Invierno). • La variable discriminante z1 está determinada por una mayor contribución (mayor peso absoluto en la combinación lineal) de las variables Caudal, Porcentaje de saturación de oxígeno, Alcalinidad y pH, todas ellas de importancia en la calidad del agua. El grupo 3 corresponde a la época lluviosa, con los mayores caudales, mejor oxigenación del agua. y por ende un mayor índice de calidad. La variable z 2 , definida fundamentalmente por las variables STT, SS, DBO y FOS, indicadores de la presencia de sólidos, minerales y contaminación con desechos órganicos contribuye a la separación del grupo 2, época del fin del verano, caracterizada por el bajo caudal, alta DBO y gran presencia de sólidos, todo lo cual contribuye a un bajo índice de calidad del agua. La variable discriminante z 3 definida en mayor grado por las variables ZN, ALC y Caudal, separa el grupo 4 (fin del Invierno) del grupo 1 (inicio del Verano). El grupo 4 tiene una mayor
260
7.4 Cociente de Rayleigh
presencia de Zinc que el grupo 1. No se ha puesto el gráfico de las variables definidas sobre los cuatro grupos, por el hecho que en este ejemplo, el valor propio λ1 es aproximadamente igual a λ2 , por lo que la representación en el círculo de correlaciones es similar al de las variables definidas sobre el total de individuos (ver la Tabla 7.8 y la Figura 7.6).
7.4 Cociente de Rayleigh Sea M una métrica sobre el espacio Rn y sea A un operador M-simétrico, es decir, tal que el producto interno definido por M cumple hAx, yiM = hx, AyiM = xt At My, para todo par de vectores x, y ∈ Rn (o, lo que es equivalente matricialmente, cumple que (MA)t = MA). Si x ∈ Rn , x 6= 0, la expresión R(x) =
hAx, xiM kxk2M
se denomina cociente de Rayleigh y tiene, entre otras, las propiedades que se enuncian en los dos teoremas que siguen.
Teorema 7.4 (Teorema de Rayleigh) Sean A un operador M−simétrico sobre Rn , x ∈ Rn , x 6= 0, B = {u1 , . . . , un } la base de Rn de vectores propios de A, M–ortonormados, asociados a los valores propios ordenados en orden decreciente λ1 ≥ λ2 ≥ . . . ≥ λn . Si Ek = Cl{u1 , . . . , uk } denota el subespacio de Rn generado por los vectores propios correspondientes a los k primeros valores propios y E⊥ k denota el complemento M-ortogonal de Ek , entonces 1. λk = maxx∈E ⊥ R(x) = minx∈Ek R(x) con x 6= 0, k = 2, . . . , n − 1. k−1
2. λ1 = maxx∈Rn R(x) y λn = minx∈Rn R(x), con x 6= 0.
261
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
D EMOSTRACIÓN : Expresando x ∈ Rn en términos de la base B se tiene: n X hx, uj iM uj ;
=
x
j=1
n X hx, ui iM A(ui ) A(x) = i=1
n X λi hx, ui iM ui . = i=1
Luego
n n X X hx, uj iM uj iM hAx, xiM = h λi hx, ui iM ui , j=1
i=1
n X n X λi hx, ui iM hx, uj iM hui , uj iM = i=1 j=1
=
n X i=1
λi hx, ui i2M (por ortonormalidad de B).
⊥ se tiene que hx, ui iM = 0 por i = 1, . . . , k − 1. Además como Si x ∈ Ek−1 para k ≤ i se tiene que λk ≥ λi se sigue que:
hAx, xiM =
n n X X λi hx, ui i2M λi hx, ui i2M = i=1
i=k
n X ≤ λk hx, ui i2M ≤ λk kxk2M . i=k
Por otra parte si x ∈ Ek se tiene hx, ui iM = 0 para i = k + 1, . . . , n hAx, xiM
k n X X 2 λi hx, ui i2M λi hx, ui iM = = i=1
i=1
≥ λk
k X i=1
hx, ui i2M = λk kxk2M .
⊥ , u ∈ E , se tiene que: Como R(uk ) = λk y uk ∈ Ek−1 k k
maxx∈E ⊥ R(x) = λk k−1 minx∈Ek R(x) = λk
262
7.4 Cociente de Rayleigh
si x ∈ E se tiene que: λn kxk2M ≤ hAx, xiM ≤ λ1 kxk2M Luego: λn ≤ R(x) ≤ λ1 . Teorema 7.5 Sea A un operador M–simétrico sobre Rn , B = {u1 , . . . , un } una base M-ortonormal de Rn formada de vectores propios de A asociados a λ1 ≥ . . . ≥ λn respectivamente. Si {x1 , . . . , xk } un subconjunto arbitrario de vectores de Rn , M-ortonormales, entonces k k X X λj . hAxj , xj iM ≤ j=1
j=1
La igualdad se tiene para {x1 , . . . , xk } = {u1 , . . . , uk }, los vectores propios de A asociados a λ1 ≤ . . . ≤ λk . D EMOSTRACIÓN :
xj
=
n X hxj , ui iM ui i=1 n X
hAxj , xj iM = h =
i=1 n X i=1
λi hxj , ui iM ui ,
λi hxj , ui i2M
n k X k X X λi hxj , ui i2M hAxj , xj iM = j=1 i=1
j=1
= =
n X
i=1 n X i=1
k X hxj , ui i2M λi j=1
λi Ci ,
n X hxj , ui iM ui iM i=1
263
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
con Ci =
Pk
2 j=1 hxj , ui iM . n X i=1
Ci
Además véase que
Pn
i=1 Ci
= k:
n k X k n X X X 2 hxj , ui i2M hxj , ui iM = = j=1 i=1
i=1 j=1
=
k X j=1
kxj k2M = k.
Finalmente, k X j=1
hAxj , xj iM = ≤ =
=
n X i=1
k−1 X i=1
k−1 X
i=1 k−1 X i=1
λi Ci =
k−1 X
λi Ci +
i=1
λi Ci + λk
n X
n X
λi Ci
i=k
Ci
i=k
λi Ci + λk (k −
k−1 X
Ci )
i=1
(λi − λk )Ci + λk k ≤
k X
λi .
i=1
La última desigualdad sigue del hecho que C Pi ≤ 1. En efecto, se puede completar una base {xi |i = 1, · · · , n} y kui k2M = nj=1 hxj , ui i2M = 1.
Ejercicios 1. Demostrar que si u es vector propio de V−1 VB asociado a λ 6= 1, enλ . tonces u es vector propio de W−1 VB asociado a β = 1−λ 2. Para el caso de dos grupos a priori de centros de gravedad g1 , g2 . Demuestre que: (a) Solamente hay una variable discriminante y en tal caso el eje discriminante está determinado por el vector v = g1 − g2 . (b) Si q1 , q2 son los pesos de las clases (q1 g1 + q2 g2 = 0 y q1 + q2 = 1); demuestre que VB = q1 g1 (g1t − g2t ) VB = −q2 g2 (g1t − g2t ).
264
7.4 Cociente de Rayleigh
3. Use el ejercicio 2 para demostrar que VB = q1 q2 (g1 − g2 )(g1 − g2 )t . 4. Demuestre que u = V−1 (g1 − g2 ) es vector propio de V−1 VB asociado al valor propio λ = q1 q2 (g1 − g2 )t V−1 (g1 − g2 ), y además u es vecλ = q1 q2 (g1 − tor propio de W−1 VB asociado al valor propio β = 1−λ t −1 g2 ) W (g1 − g2 ). Nota: estos resultados muestran que en el A.C.P. de la nube de centros de −1 , gravedad se pueden utilizar como métricas indistintamente V−1 o VW esta última se llama métrica de Mahalanobis.
5. Demuestre el teorema 7.3, página 247. 6. En un experimento realizado por J.C. Amiard, 23 peces se distribuyeron en tres acuarios sometidos a diferentes niveles de contaminación. Haga un Análisis Discriminante Descriptivo para determinar en qué medida la contaminación de los peces está ligada a la intensidad de la radiocontaminación. Use la tabla de tamaño 23 × 15 definida en el ejercicio 10, página 92, capítulo 3, sin incluir en el análisis a la variable x7 : radiación de los riñones. Los primeros 8 peces estuvieron en la pecera número 1, los siguientes 8 peces en la pecera número 2, y los últimos 7 peces (con las etiquetas 18 a 24) estuvieron en la pecera número 3. Cada pecera recibió cantidades diferentes de redioactividad y por espacios de tiempo diferentes. Use entonces la variable “pecera” como la variable cualitativa a explicar. 7. Considere la siguiente tabla de datos con dos variables cuantitativas x1 , x2 , con 10 individuos separados en dos clases. Obs x1 x2 Clase 1 0 3 1 2 1 1 2 4 5 1 3 4 6 9 1 8 7 1 5 6 5 2 2 7 0 2 7 8 9 4 2 11 8 2 9 2 10 13 6
265
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
(a) Calcule los centros de gravedad de cada grupo (llamados g1 y g2 ) y el centro de gravedad total. (b) Calcule las matrices de varianzas–covarianzas V, VW y VB . (c) Compruebe la relación V = VW + VB . (d) Calcule la inversa de V, para lo cual puede usar una hoja electrónica, un paquete informático o la bien conocida fórmula simple para in a b vertir matrices 2 × 2, usando el determinante: si A = c d d −b entonces A−1 = det1(A) . −c a (e) Considere un nuevo elemento dado por los valores x = (7, 5.2). Usando como métrica la matriz V−1 calculada en el punto anterior, calcule las distancias de x a los centros de las clases: dV −1 (x, g1 ) y dV −1 (x, g2 ). ¿De cuál centro de clase está más próximo el punto x?
8. En un estudio zootécnico realizado en Cuba en 1970, acerca del interés por cruzar reses de raza charolais y cebú, se llevaron a cabo medidas de 6 variables, que representan distintos pesos del animal. La muestra contiene 23 reses, de las cuales 12 son charolais y 11 son cebú. Las variables son: x1 : peso de la res viva, x2 : peso de la piel, x3 : peso de la carne de primera calidad, x4 : peso de la carne total, x5 : peso de la grasa, x6 : peso de los huesos. El grupo 1 está formado por las reses charolais mientras que el grupo 2 por las cebú. Los datos se muestran en la Tabla 7.10. Se quiere obtener una función discriminante para diferenciar las dos razas. (a) Calcule los centros de gravedad de cada clase y el centro de gravedad total. (b) Calcule la función discriminante. discriminación?
¿Cuál es la calidad de esta
266
7.4 Cociente de Rayleigh
Res 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
x1 395 410 405 405 390 405 390 405 420 390 415 400 400 395 395 395 400 400 400 410 402 400 400
x2 224 232 233 240 217 243 229 240 234 223 247 234 224 229 219 224 223 224 221 233 234 223 213
x3 35.1 31.9 30.7 30.4 31.9 32.1 32.1 31.1 32.4 33.8 30.7 31.7 28.2 29.4 29.4 28.6 28.5 27.8 26.5 25.9 27.1 26.8 25.8
x4 79.1 73.4 76.5 75.3 76.5 77.4 78.4 76.5 76 77 75.5 77.6 73.5 74.5 72.8 73.7 73.1 73.2 72.3 72.3 72.1 70.3 70.4
x5 6 9.7 7.5 8.7 7.8 7.1 4.6 8.2 7.2 6.2 8.4 5.7 11 9.3 8.7 8.7 9.1 12.2 13.2 11.1 10.4 13.5 12.1
x6 14.9 16.4 16.5 16 15.7 15.5 17 15.3 16.8 16.8 16.1 18.7 15.5 16.1 18.5 17.3 17.7 14.6 14.5 16.6 17.5 16.2 17.5
Tabla 7.10: Tabla de reses charolais y cebú.
Grupo 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
Capítulo 8
Análisis de Tablas Múltiples 8.1 Introducción
El estudio de tablas múltiples de datos nace con el propósito de generalizar a varias tablas, las principales técnicas del Análisis de Datos. Numerosos métodos factoriales se han desarrollado en los últimos años para el estudio de varias matrices de datos de tipo cuantitativo y cualitativo. Todos tienen como punto de partida un conjunto de m tablas y como objetivo la búsqueda de un subespacio de baja dimensión donde representar simultáneamente los individuos de las diferentes tablas y análogamente para las variables. Estos métodos difieren según el tipo de tablas de que se trate. Así, por ejemplo, a partir de los años 70 Carroll y Chang [18] desarrollaron los métodos IndScal e IdioScal para el caso de m tablas de proximidades, generalizando el escalamiento multidimensional. Carlier, en 1977, propuso por su parte un método para m tablas de contingencia [17] y para el caso de m tablas cuantitativas de individuos por variables. Escofier y Pagès [38] propusieron un método general, llamado Análisis Factorial Múltiple, basado en una ponderación de las tablas de datos a partir de un primer análisis en componentes principales, pasando luego a análisis globales y específicos. Escoufier propuso en 1976 el método STATIS (Análisis Estadístico de Tablas con Tres Indices), método que se desarrollará en este capítulo por ser el mejor justificado y más utilizado. Para facilitar la comprensión de esta temática se hará referencia, durante su desarrollo, al siguiente ejemplo. 267
268
8.2 Fundamentos del método Statis
Ejemplo 1 Proyecto Hidroléctrico Angostura. Con el objetivo de construir una planta Hidroeléctrica en Costa Rica se utilizarán las aguas de tres ríos. Para analizar la calidad del agua y la agresividad de ésta a los diferentes materiales necesarios para la construcción de la represa, se definieron cinco puntos de muestreo llamados: Reventazón1 (R1), Turrialba2 (T2), Reventazón3 (R3), Tuis4 (T4) y Tuis5 (T5). Durante cuatro años (Marzo de 1995-Diciembre de 1998) se realizaron muestreos mensuales para obtener mediciones de 19 variables, las cuales son: potencial hidrógeno (pH), temperatura en grados centígrados (Temp), sodio (Na), potasio (K), calcio (Ca), magnesio (Mg), silicones (SiO2 ), oxígeno disuelto (OD), demanda bioquímica de oxígeno (DBO), sólidos sedimentables (SD), sólidos totales (ST), fosfatos (PO4 ), cloro (Cl), nitratos (NO3 ), sulfatos (SO4 ), bicarbonatos (HCO3 ), dureza total (DT), porcentaje de oxígeno disuelto (POD), y CAL, donde este último es un índice de calidad del agua expresado con un número entre 0 y 100, obtenido como una función (no lineal) de algunas de las variables anteriores.
8.2 Fundamentos del método Statis Se supone que se tienen m tablas de individuos por variables X1 , . . . , Xm que corresponden a m mediciones de un mismo fenómeno. Puede presentarse alguna de las dos situaciones siguientes: 1. Los individuos son los mismos en las m mediciones, pero las variables no necesariamente son las mismas. 2. Las variables son las mismas en las m mediciones, pero los individuos pueden cambiar. Suponiendo que cada tabla Xk está provista con una métrica Mk en el espacio de los individuos y con una métrica de pesos Dk en el espacio de las variables, se tiene en el primer caso un conjunto de m nubes de puntos o tripletes del tipo Nk = (Xk , Mk , D) y en el segundo caso nubes del tipo Nk = (Xk , M, Dk ). Como es usual, en adelante se hará referencia al k-ésimo triplete como el k-ésimo estudio o la k-ésima nube (ver la sección 2.3, 31, sobre la construcción de nubes de puntos). 1
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Químico del Instituto Costarricense de Electricidad (I.C.E.).
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
269
La estrategia en cada situación es diferente, en la primera se privilegian los individuos y en la segunda las variables. Ambas estrategias se denominan Statis y Statis Dual respectivamente.
8.2.1 Objetivos de los métodos Statis y Statis Dual En cualquiera de las dos situaciones anteriores, el objetivo es realizar un estudio comparativo de las m−tablas, distinguiendo para ello tres fases denominadas: interestructura, compromiso e intraestructura. 1. Interestructura. Esta fase tiene como objetivo comparar globalmente los m estudios, como si fueran “paquetes sin abrir". Para ello se define un objeto Ok que represente a cada estudio y una métrica Φ que permite calcular distancias entre estos objetos. Esta métrica tiene asociado un producto interno y una distancia, que también se denotarán Φ. Posteriormente se encuentra una imagen Euclídea para ellos, esto es un conjunto de m puntos de un subespacio de baja dimensión (casi siempre un plano) de modo que la distancia Euclídea usual entre estos puntos es aproximadamente la distancia Φ entre los Ok . 2. Compromiso. En esta fase se construye un escenario que permita representar simultáneamente a los individuos en Statis, y a las variables en Statis Dual, de todas las tablas. De esta manera es posible seguir la trayectoria de un individuo en el caso de Statis, y de la correlación entre variables en el caso de Statis Dual, al moverse de una tabla a otra. 3. Intraestructura. Con la ayuda del compromiso se buscan los individuos o las variables, según corresponda, causantes de la diferenciación observada en la interestructura. Además se representan las trayectorias de los individuos (o de las correlaciones entre variables) que ayudan a este propósito.
8.2.2 Producto interno y teorema de aproximación En esta sección se define el producto interno de Hilbert-Schmidt para el caso particular que aquí se estudia y se presenta un teorema a partir del cual se deduce la optimalidad de las imágenes Euclídeas aproximadas que se construyen en Statis. Una definición más general de este producto y el teorema de aproximación correspondiente se encuentra en la sección 8.10.
270
8.2 Fundamentos del método Statis
Definición 8.1 Sean el espacio Euclídeo (Rn , φD ) y X,Y matrices de tamaño n × n. El producto escalar de Hilbert-Schmidt φD , entre las matrices X y Y se define como hX, YiφD = tr Xt DYD . El teorema siguiente es consecuencia del corolario 8.1 de la sección 8.10. Teorema 8.1 Sea S una matriz de tamaño m×m, de rango q, simétrica, semidefinida positiva; Π una matriz diagonal de pesos de tamaño m×m y {u1 , . . . , uq } un conjunto Π-ortonormal de vectores propios de SΠ asociados a los q primeros valores propios positivos λ1 ≥ · · · ≥ λq > λq+1 = · · · λm = 0. Entonces 1. Se puede escribir S=
q X
λk uk utk = U∆λ Ut
k=1
donde U = (u1 , . . . , uq ) es la matriz cuyas columnas son los vectores propios u1 , . . . , uq y ∆λ = diag(λ1 , . . . , λq ) es la matriz diagonal de los valores propios. 2. Para toda matriz Q de tamaño m × m, simétrica, semidefinida positiva y de rango r = rng (Q) ≤ q, se tiene que min kS − QkΠ = rng (Q)=r y el mínimo se alcanza en Q =
Pr
q X
λ2k
k=r+1
t k=1 λk uk uk .
8.2.3 Imagen Euclídea asociada a una tabla de productos escalares Definición 8.2 Sean O = {O1 , . . . , Om } un conjunto de m objetos entre los cuales hay definido un producto escalar (también llamado producto interno) Φ, y S la matriz simétrica de tamaño m × m cuyas entradas están definidas como skl = hOk , Ol iΦ . Sea (E, M) un espacio vectorial Euclídeo de dimensión r.
271
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
b = {O b1 , . . . , O bm } de m puntos de E constituye una imagen El conjunto O Euclídea para O asociada a la tabla S, si los productos internos M entre los b reproducen los productos internos Φ entre los objetos de O: puntos de O bk , O bl iM , para k, l ∈ {1, . . . , m}. hOk , Ol iΦ = hO
Si esta última igualdad se da en términos aproximados se dirá que se tiene una imagen Euclídea aproximada. La definición es análoga si en lugar de una matriz de productos internos S se tiene una matriz de distancias D. Usualmente se usa una base B, M-ortonormal de vectores de E para definir un sistema de ejes (O, B) y representar en este sistema la imagen Euclídea, para b = {O b1 , . . . , O bm } se expresan en términos de sus coordenadas ello los puntos O en la base B que se denota Se tiene entonces
bk ]B = (qk1 , . . . , qkr )t . qk = [O
bk , O bl iM = q t ql = hOk , Ol iΦ = hO k
r X
qks qls .
s=1
8.2.4 Construcción de una imagen Euclídea para la nube (O, Π) Sea Π = diag(tk ) una matriz de pesos correspondientes a los m objetos O = {O1 , . . . , Om }. Por abuso de lenguaje se le llamará nube al par (O, Π). Como se vio antes, las entradas skl de la matriz S son los productos internos entre los objetos de O (S resulta usualmente semidefinida positiva): skl = hOk , Ol iΦ . Por la parte 1. del teorema 8.1 se sabe que una imagen Euclídea para la nube (O, Π) se obtiene diagonalizando la matriz Π-simétrica SΠ. Esto es, S=
q X k=1
λk uk utk = U∆λ Ut = QQt
272
8.3 Statis: individuos fijos
donde Q = U∆√λ y q es el rango de S. Luego las filas de la matriz Q son las coordenadas, en la base de vectores propios, de los puntos que constituyen una imagen Euclídea para la nube (O, Π). Si solo se toman los primeros r < q vectores propios para definir la matriz U(r) = (u1 , . . . , ur ) y la correspondiente matriz Q(r) , se obtiene una imagen Euclídea aproximada óptima (en el sentido del teorema 8.1) para la nube (O, Π).
8.2.5 Imagen Euclídea centrada Una imagen Euclídea centrada para la nube (O, Π) se obtiene centrando previamente las filas y columnas de la matriz S con la matriz de centraje J, esto es Sc = JSJt ,
donde
J = Im − 1m 1tm Π
y
1tm = (1, . . . , 1) ∈ Rm .
b Π) resulta con centro de gravedad en el origen. La nube (O,
En las secciones 8.3 hasta 8.6 se analiza en detalle el método Statis, y posteriormente se presenta el Statis Dual en las secciones 8.7 hasta 8.9.
8.3 Statis: individuos fijos En este caso se supone que los individuos son los mismos en las m matrices, pero las variables no necesariamente, por lo tanto se dispone de un conjunto de m estudios o nubes (X1 , M1 , D), . . . , (Xm , Mm , D) donde Xk es una matriz de n individuos y pk variables cuantitativas centradas. Se asume que las tablas están centradas respecto a la métrica de pesos D = diag(wi ), la misma todas las tablas definida por los pesos asignados Pen n a los n individuos, con i=1 wi = 1. Se tienen métricas Mk en los espacios de los individuos Rpk . Nótese que se ha denotado wi el peso del i-ésimo individuo, para evitar usar la notación pi que se ha usado hasta ahora, con el fin de evitar confusiones con el número de variables en cada tabla de datos, denotada pk . Esta notación wi será la que se usará a lo largo de este capítulo para el peso del individuo i.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
273
Además se usarán las siguientes notaciones: • Xk para la k-ésima tabla, • xki para el individuo i de la k-ésima tabla, • xjk para la variable j de la k-ésima tabla, • xkij para la entrada ij de la k-ésima tabla, • Wkij = hxki , xkj iMk = xtki Mk xkj es el producto interno con métrica Mk , de los individuos i, j de la k-ésima tabla, •
E = (xik )t Dxjk = covD (xik , xjk ) es la covarianza entre las variaxik , xjk D bles i, j de la k-ésima tabla. D
Ejemplo 2 En los datos presentados en el Ejemplo 1, del proyecto hidroeléctrico Angostura, la situación es la siguiente. Para cada uno de los años 1995, 1996, 1997 y 1998, se dispone de una tabla de individuos por variables, una por cada punto de muestreo, cuatro de ellas de tamaño 12 × 19 y Turr2 (T2) de tamaño 12 × 17 (los sólidos SD y ST no se midieron). Cada una de estas matrices es el resultado de promediar los valores mensuales de cada variable en los cuatro años de muestreo. Cada una de las 12 filas (una por cada mes) representa el valor que cada una de las variables asumió en promedio (en los cuatro años) ese mes. Por otro lado, cada una de las columnas (una por cada variable) representa el valor promedio que la variable correspondiente asumió en cada uno de los 12 meses. Las variables (columnas) se denotan con su nombre, son vectores en R12 . Los individuos son vectores filas en R19 y R17 , se denotan: En, Fe, Mz, Ab, My, Jn, Jl, Ag, Se, Oc, No, Di. En la situación descrita se tienen cinco tablas en las cuales los individuos son los mismos (12 meses). Los datos se muestran en la sección 8.11, página 310. Si se usa la métrica identidad se tiene que para los primeros cuatro espacios de individuos la métrica es Mk = M = I19 con k = 1, . . . 4 y M5 = I17 para 1 el último (Turr2), D = 12 I12 la métrica de pesos en los cinco espacios de variables. Se dispone entonces de los estudios o nubes (X1 , I19 , D), (X2 , I19 , D), (X3 , I19 , D), (X4 , I19 , D), (X5 , I17 , D).
274
8.3 Statis: individuos fijos
8.3.1 La interestructura Elección de Ok Se elige como objeto Ok representante de cada estudio a la matriz Wk = Xk Mk Xtk , por las siguientes razones: 1. El tamaño de las matrices Wk es independiente de k, cada Wk es una matriz n × n. 2. Se sabe que los vectores y valores propios de Wk D permiten escribir: Wk D =
n X
λki cki ctki = C∆λ Ct
i=1
con cki vector propio de Wk D asociado a λki y ctki Dckj = δij , el delta de Kronecker. 3. Además (ver ejercicio 6 del capítulo 3), se pueden reconstruir las distancias entre los individuos de la k–ésima tabla: kxki − xkj k2Mk
= kxki k2Mk − 2 hxki , xkj iMk + kxkj k2Mk
= Wkii − 2Wkij + Wkjj .
La distancia entre los Wk Como Wk es una matriz n × n, se usa en el espacio de las matrices de n × n el producto interno de Hilbert-Schmidt φD : hWk , Wl iφD = tr (Wk DWl D) . En este espacio se pueden calcular las distancias entre estos objetos y además construir una representación aproximada de estas distancias, es decir una imagen Euclídea en un subespacio Eq de Rm de dimensión q, que es el número de ejes elegidos, usualmente q = 2. Lo anterior se logra diagonalizando el operador SΠ, donde la matriz S de productos internos y la matriz Π de pesos asignados a los objetos Wi se definen como: skl = hWk , Wl iφD
y
Π = diag (tk ) .
275
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Con los vectores propios u1 , . . . uq de SΠ, Π - ortonormados, asociados a los q primeros valores propios λ1 ≥ λ2 . . . ≥ λq , se construye una imagen c1 , . . . , W cm } con W ci ∈ Eq , para el conjunto Euclídea (aproximada o exacta) {W {W1 , . . . , Wm }, donde q ≤ rng (S). Si q = rng (S) se verifica que el producto ci , W cj es igual al producto interno φD entre los interno Π entre dos puntos W Wk , Wl : D E ck , W cl hWk , Wl iφD = W , Π
lo que en términos de distancias es:
ck − W cl kΠ kWk − Wl kφD = kW
ck en la base {u1 , . . . uq } de vectores propios de SΠ donde las coordenadas de W es igual a la i-ésima fila de la matriz U∆√λi , con U = (u1 , . . . , uq )m×q y √ ∆√λi = diag( λi ). El número de ejes q se selecciona con los mismos criterios del A.C.P. (ver sección 3.5.3, página 57). Algunas propiedades que ayudan a la lectura de la imagen Euclídea, son: 1. Si W = XMXt y para todo i ∈ {1, . . . , n}, λi es un valor propio de WD, entonces kWk2φD kWk2φD
=
X
wi wj (Wij )2 =
i,j
=
X
X i,j
wi wj (Wij )2 =
i,j
X i
wi wj (hxi , xj iM )2 = wi kwi k2D
n X
λ2i
i=1
(8.1)
donde wi es el peso del individuo i-ésimo, Wij es la entrada ij de la matriz W y wi es la fila i-ésima de la matriz W. 2. Si Wk = Xk Mk Xtk , Wl = Xl Ml Xtl entonces X wi wj (Wkij − Wlij )2 kWk − Wl k2φD = i,j
=
X i,j
=
X i,j
=
X i
wi wj (hxki , xkj iMk − hxli , xlj iMl )2
wi wj (Wkij − Wlij )2 wi kwki − wli k2D
(8.2)
276
8.3 Statis: individuos fijos
donde wi es el peso i-ésimo, Wkij es la entrada (i, j) de la matriz Wk y wki es la fila i-ésima de la matriz Wk . 3. Si se usa la métrica identidad para todas las tablas Mk = Ipk entonces hWk , Wl iφD =
pk X pl D E X 0 2 xjk , xjl j=1
j 0 =1
D
(8.3)
E D 0 2 es la covarianza entre las variables j, j 0 de las tablas donde xjk , xjl D k, l respectivamente. 4. Si para todo k, Mk = Ipk y hWk , Wl iφD = 0, entonces las variables de la tabla k son D-ortogonales con las variables de la tabla l (covarianza nula). Se omiten las demostraciones a todas estas propiedades para no hacer demasiado pesada la lectura de este capítulo, pero se pueden encontrar en [64]. Además de los criterios usados en la lectura de un gráfico de individuos en el A.C.P., las propiedades anteriores establecen que: a) La distancia entre dos puntos es una medida de la diferencia de los productos internos entre los individuos de sus respectivas tablas. Dos puntos bien representados y próximos significa configuraciones similares en las nubes de individuos de ambas tablas. ck y W cl de la b) Si se usa la métrica identidad, el ángulo entre dos vectores W imagen Euclídea es una medida de las covarianzas de las variables de la tabla k con las variables de la tabla l. Si los vectores son perpendiculares indica covarianzas nulas entre las variables de ambas tablas. Coeficiente RV de asociación entre dos configuraciones Para medir el grado de asociación entre dos configuraciones (k, l), Robert y Escoufier [89] introdujeron en 1976 el coeficiente RV , que es la correlación vectorial entre Wk y Wl : Wl Wk , RV (k, l) = kWk k φD kWl k φD φD =
p
tr(Wk DWl D)
tr(Wk D)2 tr(Wl D)2
.
277
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Algunas propiedades importantes de este coeficiente son: 1. d(Wk, Wl ) = kWk − Wl kφD = normados.
p
2(1 − RV (k, l)), con Wk y Wl
2. Si RV (k, l) = 1, entonces Wk = αWl con α =
kWk k kWl k .
3. Si Mk = In y RV (k, l) = 0, entonces las variables de la tabla k son D-ortogonales con las de la tabla l. Observación. En la práctica los Wk pueden tener normas muy diferentes, afectando con ello la interpretación de los resultados, por lo que es recomenk dable normalizarlos previamente, esto es sustituirlos por kWW y en tal caso k kφ D
Sk,l = skl = RV (k, l).
Ejemplo 3 En el ejemplo del proyecto hidroeléctrico Angostura, se calcula la matriz S de productos internos entre los Wk normalizados, esto es skl = RV (k, l) (ver Tabla 8.1).
Rev1 Rev3 Tuis4 Tuis5 Turr2
Rev1 1 0.7 0.51 0.64 0.63
Rev3 0.7 1 0.70 0.65 0.61
Tuis4 0.51 0.70 1 0.68 0.47
Tuis5 0.64 0.65 0.68 1 0.52
Turr2 0.63 0.61 0.47 0.52 1
Tabla 8.1: Proyecto Angostura: matriz S de coeficientes RV .
Se toma como matriz de pesos de los estudios a Π = 15 I5 (todos los pesos iguales). La diagonalización de la matriz SΠ da una imagen Euclídea para la nube de los cinco estudios, la cual se representa en la Figura 8.1 considerando los dos primeros ejes. Sus coordenadas en estos ejes son deducidas a partir √ de los√dos prime(2) ros vectores y valores propios de SΠ, esto es Q = ( λ1 u1 , λ2 u2 ) con ku1 kΠ = 1 = ku2 kΠ . Los valores propios se muestran en la tabla 8.2. Al observar la Figura 8.1 y la Tabla 8.3 se concluye que los puntos de muestreo están bien representados y que los puntos más distantes son Turr2 y Tuis4, lo que significa una diferencia significativa en las posiciones relativas de
278
8.3 Statis: individuos fijos
6
Turr2• Rev1•
-
Rev3• Tuis5• Tuis4•
? Figura 8.1: Proyecto Angostura: interestructura.
Ejes 1 2 3 4 5
Valor propio 0.693 0.121 0.078 0.070 0.038
% Inercia 69% 12% 8% 7% 4%
% Inercia acumulada 69% 81% 89% 96% 100%
Tabla 8.2: Proyecto Angostura: valores propios de la interestructura.
los meses, y bajas correlaciones entre las variables de una y otra tabla, por el contrario los puntos más cercanos son Tuis5 y Rev3 lo que se interpreta como configuraciones similares entre los meses y altas correlaciones. El punto de muestreo Turr2 es el que presenta en todos los meses los más bajos índices de calidad, en oposición al punto Tuis4 que es el menos contaminado. Con el objeto de tener una visión más global de las proximidades entre los estudios, se calcula una imagen Euclídea centrada, la cual se obtiene al sustituir la matriz S por la matriz centrada Sc = JSJt . En la Figura 8.2 se presentan las imágenes Euclídeas planas en los ejes 1–2 y 1–3, cuyas calidades de representación están en la tabla 8.5. Para cada punto se ha calculado la calidad de su representación como el cociente de la norma
279
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Río Rev1 Rev3 Tuis4 Tuis5 Turr2
Norma de Wk 1 1 1 1 1
ck Norma Proyectada de W 0.89 0.89 0.94 0.88 0.91
cos2 0.789 0.797 0.876 0.773 0.839
Tabla 8.3: Proyecto Angostura: calidad de la representación de la interestructura.
6
Rev1• Tuis5•
Tuis4•
Rev3•
-
Turr2•
? Figura 8.2: Proyecto Angostura: interestructura centrada.
proyectada entre la norma:
(2)
p (Sc )kk kWk kM , = (2) c kWk k kQc (k)k (2)
donde Qc (k) es la fila k de Qc , matriz de coordenadas de la imagen Euclídea obtenida de Sc .
280
8.3 Statis: individuos fijos
Ejes 1 2 3 4
Valor propio 0.394 0.254 0.226 0.125
% Inercia 39% 26% 23% 12%
% Inercia acumulada 39% 65% 88% 100%
Tabla 8.4: Proyecto Angostura: valores propios de la interestructura centrada.
Río Rev1 Rev3 Tuis4 Tuis5 Turr2
Plano 1-2 0.91 0.20 0.90 0.53 0.98
Plano 1-3 0.5 0.77 0.83 0.93 0.80
Tabla 8.5: Proyecto Angostura: calidad de la interestructura centrada.
8.3.2 El compromiso Consiste en encontrar un objeto W de dimensión n × n de la misma forma de los objetos Wk y que los represente adecuadamente, en el sentido de que recoja las propiedades comunes a todos ellos. El objetivo es utilizar W para definir un escenario común para los individuos de todas las tablas y por Dualidad para las variables de todas las tablas. Suponiendo que los WkP se han normalizado, se quiere que W tenga la forma Pm m W = α W = a k k=1 k k=1 βk Wk , donde α = aβ, y tal que el vector t β = (β1 , . . . , βm ) y la constante de normalización a > 0 sean elegidos de modo que se satisfagan las siguientes propiedades: 1. W sea de la misma naturaleza que la de los Wk , esto es que la norma de W sea el promedio ponderado de las normas de los Wk con matriz de pesos Π = diag(tk ) kWkφD =
m X k=1
tk kWk kφD = 1.
P 2. W = a m k=1 βk Wk es la combinación lineal de los Wk , que está más correlacionada con los Wk , en el sentido que variando β ∈ Rm , con
281
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
||β||Π−1 = 1, maximiza m X
tk RV (W (a, β) , Wk )2 =
m X k=1
k=1
con W (a, β) = a
Pm
k=1 βk Wk ,
tk hW (a, β) , Wk i2φD
(8.4)
||W(a, β)||φD = 1, ||Wk ||φD = 1.
Cálculo de β Sea S una matriz m × m de productos internos entre los Wk , tal que skl = hWk , Wl iφD . Desarrollando (8.4) y quitando la constante a, pues no interviene en el cálculo de β, se tiene:
m X k=1
tk
*m X l=1
βl Wl , Wk
+2
=
m X
tk
=
m X k=1
=
m X k=1
βl hWl , Wk iφD
m X
skl βl
l=1
k=1
φD
m X
tk
l=1
!2
!2
tk (sk β)2k = kSβk2Π = β t SΠSβ
= hΠSΠSβ, βiΠ−1 . Se sabe por el Teorema de Rayleigh (ver sección 7.4, página 259) (sección 7.4, página 259) que esta última expresión alcanza su máximo cuando β es vector propio de ΠSΠS asociado al mayor valor propio λ1 , con kβkΠ−1 = 1. Además se satisfacen las siguientes propiedades: 1. ΠS y ΠSΠS tienen los mismos espacios propios. Además se tiene la siguiente relación entre los rangos de las matrices rang (ΠSΠS) = rang (SΠS) = rang (S) = rang (ΠS). 2. Es costumbre disgonalizar la matriz SΠ en lugar de ΠS. Para eso se hace la siguiente transformación: como β es vector propio de ΠS asociado
282
8.3 Statis: individuos fijos
a λ1 , con kβkΠ−1 = 1, entonces γ = Π−1 β es vector propio de SΠ asociado a λ1 , con kγkΠ = 1. Lo anterior sigue de las siguientes equivalencias ΠSβ = λ1 β ⇔ ΠSΠγ = λ1 Πγ ⇔ SΠγ = λ1 γ, β t Π−1 β = 1 ⇔ γ t Πγ = 1. Cálculo de la constante a Se calcula la constante a de modo que el compromiso tenga norma igual a uno:
1 = kW(a, β)k2φD
=
*
a
= a2
m X
m X
βk Wk , a k=1 l=1 m m XX
βl Wl
+
φD
βk βl skl
k=1 l=1 2 t
= a β Sβ = a2 γ t ΠSΠγ = λ1 a2 γ t Πγ = λ1 a2 . Luego a =
√1 . λ1
Expresión final del compromiso Se sabe que los elementos skl de la matriz S son no negativos y por ende también los de SΠ. Luego, por el teorema de Frobenius [1], el primer valor propio λ1 de SΠ es real, no negativo y se puede elegir un vector propio γ1 de SΠ, asociado a λ1 , tal que tenga todos sus elementos no negativos1 . Esta elección unida a los resultados de toda la sección permite finalmente definir el compromiso de la siguiente manera. 1
El teorema de Frobenius afirma que, si A es una matriz n × n tal que todos sus elementos aij son no negativos, entonces su primer valor propio λ1 es real y no negativo. Además, existe un vector propio u1 asociado a λ1 , el cual tiene todos sus elementos no negativos
283
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Sean Π = diag(tk ) la matriz de pesos de los Wk , γ vector propio de SΠ con todas sus entradas no negativas y asociado al mayor valor propio λ1 , y con kγkΠ = 1. En este caso el compromiso W se expresa como: m 1 X W= √ tk γk Wk . λ1 k=1
(8.5)
Ejemplo 4 En el ejemplo (2) que se ha venido desarrollando sobre P el proyecto hidroeléctrico Angostura, el vector α = aβ del compromiso 5k=1 αk Wk es αt = (0.244, 0.257, 0.233, 0.243, 0.222). Como se puede observar las entradas del vector α son similares, de donde se concluye que el compromiso representa adecuadamente a todos los Wk , teniendo la más alta correlación (en el sentido del coeficiente RV) con el punto de muestreo Rev3, como se puede observar en la Figura 8.1, en la cual el compromiso está sobre el primer eje a la distancia 1 del origen.
8.4 La intraestructura El objetivo de esta fase es obtener representaciones simultáneas de los individuos y las variables de las diferentes tablas, cuestión que se logra diagonalizando el operador WD, correspondiente al A.C.P. de la nube N = (X, M, D) donde W es el compromiso, D la matriz de pesos de los individuos, X y M se definen como sigue: m
X √ √ √ pk X = ( α1 X1 , α2 X2 , . . . , αm Xm )n×p , con p =
M1 0 · · · 0 0 M2 · · · 0 M = . . .. . .. .. .. . 0 0 · · · Mm
k=1
.
Nótese que la matriz W de productos internos entre individuos definida por el A.C.P. de (X, M, D) corresponde al compromiso W : W = XMXt =
m X k=1
αk Xk Mk Xtk =
m X k=1
αk Wk .
284
8.4 La intraestructura
La diagonalización del operador WD permite obtener una imagen Euclídea de las filas de la matriz X. Cada una de estas filas puede interpretarse como visiones de un individuo a través de las diferentes tablas, lo que se llama “individuos promedios". Estas afirmaciones se justifican a continuación.
8.4.1 Individuo visto por todas las tablas (individuos promedio) Sean C = (c1 , . . . , cn ) la matriz cuyas columnas son los vectores propios D−normalizados del operador WD y ∆λ√= diag (λi ) la matriz de los valores propios correspondientes, ∆√λ = diag( λi ). Entonces, n t X λi ci cti W = C∆√λ C∆√λ = i=1
y
Q = C∆√λ = WDC∆ √1 . λ
Las filas de Q : q1 , . . . , qn son las coordenadas en la base de vectores propios, de los puntos que forman una imagen Euclídea óptima para los individuos de la tabla X, es decir: hqi , qj i = hxi , xj iM = Wij donde xi es la i−ésima fila de X y hqi , qj i es el producto interno con matriz identidad. Además, si Wkij denota la entrada (i, j) de la tabla Wk = Xk Mk Xtk se tiene: kqi − qj k2 = kqi k2 − 2qti qj + kqj k2 = Wii − 2Wij + Wjj m m m X X X αk Wkjj αk Wkij + αk Wkii − 2 = k=1
=
m X k=1
k=1
k=1
αk kxki − xkj k2Mk = kxi − xj k2M .
La última igualdad significa que la distancia entre los individuos de la tabla X, es igual a la “distancia compromiso" entre los correspondientes individuos de las diferentes tablas.
285
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
6 • Jn • En
• Di
• Fe
• Mz
• Jl •Ag • No
-
• My
• Se Oc •
• Ab
?
Figura 8.3: Proyecto Angostura: Individuos promedio, ejes 1–2.
Ejemplo 5 En la Tabla 8.6 se presentan los resultados obtenidos de la diagonalización del operador WD definido en el ejemplo 2, del proyecto hidroeléctrico Angostura. Ejes 1 2 3 4
Inercia 0.8131 0.3521 0.3074 0.2097
% Inercia 34.27% 14.84% 12.96% 8.84%
% Inercia Acumulada 34.27% 49.11% 62.06% 70.90%
Tabla 8.6: Proyecto Angostura: valores propios de WD.
Los individuos promedio correspondientes a este ejemplo, para todas las tablas, se representan en la Figura 8.3.
8.4.2 Imagen Euclídea para los individuos de las tablas X1 , . . . , Xm Como se vio, las filas de Q = WDC∆ √1 son las coordenadas de una imagen λ
Euclídea óptima para la nube de individuos promedios (filas de X). La igualdad anterior muestra que las coordenadas qi de la imagen en una base, del individuo promedio xi es la D-proyección de la fila wi de la matriz W sobre los ejes
286
8.4 La intraestructura
del compromiso (columnas de C) multiplicada por un factor de dilatación √1λ . i Se generaliza esta idea y se definen las coordenadas de una imagen Euclídea suplementaria para los individuos de la tabla Xk como la D-proyección de las filas de la matriz Wk sobre los ejes del compromiso corregida por un factor de dilatación, esto es Wk DC∆ √1 = Qk . λ
Las coordenadas de la imagen Euclídea suplementaria de las filas xki de Xk definida por las filas qki de Qk , no verifican la relación hqki , qkj iI = hxki , xkj iMk = Wkij , pues las columnas de C no son vectores propios de Wk D. Sin embargo se tienen las siguientes propiedades: 1. La norma cumple: kwki − wli k2D = kwki k2D =
n X
j=1 n X j=1
λj qkij − qlij λj qkij
2
2
.
P 2. Como kWk − Wl kφD = ni=1 wi kwki − wli k2D (ver relación (8.2)) y de la relación (1.) se puede concluir que cuando los primeros h valores propios no son muy diferentes y despreciendo Ph los últimos n2 − h valores 2 propios, se tiene kwki − wli kD ≈ hλ1 j=1 (qkij − qlij ) , y por tanto la distancia entre los estudios k, l se debe a las trayectorias que en los instantes k, l presenten mayor distancia. Definición 8.3 Se entiende por trayectoria del individuo xi , la línea que une los puntos {qki |k = 1, . . . , m }, de la representación del individuo xi en los ejes del compromiso, a través de las m tablas. Ejemplo 6 En el ejemplo 2, del proyecto hidroeléctr4ico Angostura, las trayectorias de los individuos (meses) corresponden a una poligonal de cinco puntos, uno por cada punto de muestreo. La longitud de las trayectorias está directamente relacionada con la distancia entre los puntos de muestreo representada en la interestructura (ver Figuras 8.4). Los meses con trayectorias más largas son: Enero, Marzo, Abril, Setiembre y Octubre y Diciembre, son por lo tanto los meses en los que hay una mayor diferencia en los valores de algunas de las variables. Nótese además que el punto T2 (Turr2) es el que se separa más del
287
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
resto, esto es interpretado como el río que se diferencia de los otros. Las observaciones anteriores pueden verificarse en las siguientes figuras de algunas de las trayectorias. 6 R3•
Oc
Ab T2 • R3 • • T4 • R1 •
T2
•
R1•• • T5 T4
•
T4• • R1 T5• R3
•
T2
6
T5
•
R3 • T5 En
Jl T2 • R1 • R3 • • T4 • T4 T5• • T2 •R3• • R1
•
T2
•
R1 -
T4
Di
•
Se
T5
?
?
(a) Octubre, Abril y Diciembre.
(b) Setiembre, Julio y Enero.
6 •
T2
T4
Jn • •R1• • R3 •T2 T5 • T5 • • T4 R3 R1• My
T4
•
•
Mz •R3
R1
T5
-
•
T2
? (c) Mayo, Marzo y Junio.
Figura 8.4: Trayectorias de los meses.
8.5 Correlaciones de las variables con los ejes del compromiso Los vectores propios del operador WD corresponden a las componentes principales del A.C.P. de la nube N = (X, M, D), por lo que se pueden calcular
288
8.5 Correlaciones de las variables con los ejes del compromiso
las correlaciones de las variables de las diferentes tablas con estas componentes. Si cr es la r-ésima componente y xjk es la j-ésima variable de la k-ésima tabla, entonces la covarianza de esta variable con el eje r es hxjk , cr iD = (xjk )t Dcr . Las correlaciones de las diferentes variables se representan en un gráfico en el cual la variable xjk es un punto cuya coordenada sobre el eje r es hxjk , cr iD . El estudio del gráfico de las correlaciones es útil para interpretar las trayectorias de los individuos.
Ejemplo 7 Para el ejemplo del proyecto Angostura, las correlaciones correspondientes al ejemplo 2 de algunas de las variables se muestran en la Figura 8.5 (donde se han superpuesto las trayectorias de los individuos). 6 • T2
•
Cal •
• R1
T4
T5
• R3
•T4 R3 •• • T4 T5 • T5 Ca • R1
• R1
R3 •• Mg R1
DBO
• R3
•
•
T2 • T2
•
T5 • T4
•
T5
T2
•R1
• T4
PO4 R3 ••T5
• T4
• T2
•
T2 R3
•
• R1
ST
? Figura 8.5: Proyecto Angostura: correlaciones de las variables Mg, Ca, DBO, ST, PO4 y Cal en el plano principal 1–2.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
289
Del gráfico de las correlaciones de las variables se observa que el eje 1 está determinado en su parte negativa por las variables M g y Ca.El eje 2 está influenciado en su parte negativa por las variables ST y P O4, en su lado positivo por el índice de calidad CAL. Contrastando las trayectorias de los meses con esta situación se puede conjeturar que: el mes de Octubre se caracteriza por la presencia de sólidos y altos valores en la concentración de fósforo (P O4), Abril presenta una situación análoga y además concentraciones altas de manganeso y calcio. Diciembre, en cambio, presenta bajas concentraciones de M g, Ca, ST y P O4 y valores altos en la calidad. Finalmente los gráficos de las variables mencionadas anteriormente ayudan a corroborar en alguna medida estas observaciones (ver Figuras 8.6).
290
8.5 Correlaciones de las variables con los ejes del compromiso
1.92
280
? • . • •
0.96
. • ? . ? ? ? • . • • . • . ?
0.0
en
mz
• Rev1;
• ? .
? Rev3;
•
•
• ? • • . ? ? . . ? . ? . ? • • .
my
jl
se
no
. Tuis4; Tuis5; Turr2
140
0
en
• Rev1;
my
mz ? Rev3;
22
7.5
11
•
jl
se
no
. Tuis4; Tuis5;
(b) ST.
?
• ? ? • ? ? • • ? ? . ? • . ? • ? . . . . . . . . .
•
(a) PO4 .
15.0
•
•
? • ? . ? ? • • • • . ? ? ? • • . . . . .
? • • • ? • ? • ? • . . . . .
• . . • ? ? • • • • • • • • . ? . . • . ? ? ? . ? . • ? . ? ? . ? . . 0.0 en
mz
my
jl
se
0 en
no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2
mz
my
(c) Mn.
89.0
jl
se
(d) Ca.
. . . . . . . • • ? . • . • ? • . ? • • . ? • ? • ? ? ? ? • ? • . • • ?
44.5
0.0 en
mz
my
no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2
jl
se
no
• Rev1; ? Rev3; . Tuis4; Tuis5; Turr2
(e) Calidad.
Figura 8.6: Proyecto Angostura: concentración mensual.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
291
8.6 Análisis evolutivo de una encuesta de opinión Se ha utilizado el método Statis para analizar la evolución de la opinión pública de los costarricenses mayores de 18 años. Los datos de base corresponden a las encuestas de opinión pública de los años 1988, 1989, 1990 y 1991 realizadas por el proyecto de investigación Estructuras de la Opinión Pública de la Escuela de Matemática de la Universidad de Costa Rica. Estas encuestas, a escala nacional, son anuales sobre una muestra de unos 1000 individuos, mayores de 18 años, preservando cuotas por sexo, edad y ocupación. Los entrevistados se pronuncian sobre unas 100 afirmaciones relativas a los principales conflictos sociales ventilados por la prensa local [85], [44]. Como interesa analizar la evolución de las opiniones de los diferentes grupos sociales se seleccionan aquellas preguntas que se repitieron en los cuatro años, las cuales son: • El seguro social debe privatizarse (SP).
• Se debe propiciar la libre elección médica (LM). • La democracia es el sufragio (DS).
• Se debe defender la banca nacionalizada (BN). • Se debe confiar en la justicia (CJ).
• Se debe aumentar el presupuesto en seguridad (PS). • Ya no nos sentimos seguros (IS).
• Los enfermos de sida deben aislarse (SD). Los entrevistados deben responder una de las siguientes alternativas, codificadas en una escala de 1 a 5 (llamadas escalas de Likert): • En total desacuerdo.
• Bastante en desacuerdo. • Podría estar de acuerdo. • Bastante de acuerdo.
• Totalmente de acuerdo.
292
8.6 Análisis evolutivo de una encuesta de opinión
8.6.1 Construcción de la tabla de datos Para analizar la evolución de la opinión se ha considerado la opinión promedio de los grupos sociales determinados por las siguientes variables: • Provincia: San José (Sjos), Alajuela (Ala), Cartago (Car), Guanacaste (Gua), Puntarenas (Aren), Limón (Lim) y Heredia (Her). • Edad, codificada en las siguientes clases: de 18 a 25 años (A18), de 25 a 35 (A25), de 35 a 45 (A35), de 45 a 55 (A45) y más de 55 años (A55). • Escolaridad: Ninguna (EN), Primaria (EP), Secundaria (ES), Técnica (ET), Universitaria incompleta (EUI) y Universitaria completa (EUC). • Partido político: Partido Liberación Nacional (PLN), Partido Unidad Social Cristiana (PUSC), Izquierda (Izq), Otros partidos (Potr) y Ningún partido (Pnin). • Ingreso Familiar: Ingresos Bajos (IB), Ingresos Medios (IM) e Ingresos Altos (IA). También se disponía de información sobre el Sexo y la Profesión, pero no se presentan aquí. Las tablas de datos se construyeron usando los centros de gravedad como filas (individuos), para obtener así cuatro matrices de tamaño 42 × 8 (una por cada año). Los resultados obtenidos se presentan a continuación.
8.6.2 Análisis de la interestructura La Figura 8.7 muestra la evolución global de la opinión anual en el periodo 1988-1991 en el primer plano principal el cual explica un 85% de la inercia total. Los puntos representativos de cada encuesta se encuentran muy próximos a la circunferencia de radio uno, lo que garantiza una buena representación de la realidad descrita por las variables tomadas en cuenta en este estudio. Se observa una estabilidad de la opinión en los años 89, 90, 91 diferenciándose de la estructura de la opinión en 1988. Esta diferenciación se analizó en el contexto de la intraestructura.
293
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
(% Inercia 85.00)
Eje 2 6
•1988
-Eje 1
•1989 •1990 •1991
? Figura 8.7: Interestructura para la evolución de la opinión.
8.6.3 Análisis de la intraestructura La Figura 8.8 corresponde a la representación de las variables en el círculo de correlaciones generado por los dos primeros ejes, los cuales explican el 58% de la inercia total. A la etiqueta de cada variable se le agrega un 1, 2, 3 ó 4 para indicar el año 1988, 1989, 1990, 1991 respectivamente. Eje 2 6
% Inercia 57.89
• PS4
• IS4 • LM1 •IS1
• LM3 • LM4 • IS3•IS2 • LM2
CJ3 • • • • BN2 CJ1 PS3 • BN4• BN3 • • CJ2 • SP3 • CJ4 SP1 • SD3 • • SP2 Eje 1 • PS2 • BN1 SD4 • PS1 SD1 DS2 • • • • •DS4 •• SP4 DS1 DS3SD2
-
? Figura 8.8: Correlación entre variables y los ejes del compromiso para la evolución de la opinión.
294
8.6 Análisis evolutivo de una encuesta de opinión
Se observa que las variables SD, DS, SP y en menor grado BN y CJ, correlacionan con el primer eje. Por otra parte las variables LM e IS lo hacen con el segundo eje. En el caso de las variables BN y CJ se observa una evolución (movimiento) sobre el primer eje que es explicada en parte por la diferenciación del año 88 con respecto a los restantes. En las Figuras 8.9 y 8.10 se representan algunos grupos sociales promedio en los ejes del compromiso y en las Figuras 8.11 y 8.12 las trayectorias de los grupos de edad y escolaridad más opuestos. Se nota que el nivel de escolaridad es un factor claramente discriminante en cuanto a la opinión. Los grupos de mayor escolaridad, EUC arriba en el segundo cuadrante, se oponen a los grupos sociales de menor escolaridad (EP) que son a su vez los de más bajos ingresos (IB). Asociadas con estos grupos se encuentran, respectivamente, las provincias de mayor desarrollo como San José y Alajuela, en oposición a Limón y Guanacaste. Las diferencias de opinión más claras derivan de las variables que determinan en mayor grado esas direcciones. Es así como a partir de las observaciones anteriores se puede decir lo siguiente: • En los grupos sociales de más alta escolaridad, como EUC, se nota una evolución en el sentido de disminuir su confianza en la justicia, aumentar su deseo de que se invierta más presupuesto en seguridad y cada año el sentimiento de inseguridad es mayor. Respecto a la enfermedad del sida estos grupos sociales son cada vez más tolerantes. En los sectores de menos escolaridad, como EP y EN, esta tendencia es menos pronunciada y más irregular. • Hay una diferenciación de la opinión entre los grupos de menor edad con respecto a los de mayor edad, la cual se expresa en grado creciente de desconfianza en la justicia de parte de los jóvenes que a su vez son más tolerantes respecto al sida, que las personas de mayor edad (ver Figuras 8.8 y 8.9). • En relación con los grupos de filiación política, se ve que la diferenciación proviene de los grupos minoritarios fuera del PLN y del PUSC. Estos dos últimos partidos son indistinguibles desde el ángulo de la opinión respecto de las variables analizadas, como lo ponen en evidencia las representaciones en la Figura 8.10
295
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
% Inercia 57.89
Eje 2
6
• EUC • A55 • A35
• EUI
• A45
• • • SJOSALAJ IA • IM • • ET A25 • LIM • • ES IB • GUAN
• EN Eje 1 • EP
• A18
? Figura 8.9: Grupos sociales promedio: Escolaridad, Edad, Ingreso Familiar y Provincia.
% Inercia 57.89
Eje 2
POTR
•
6
• PIZQ PLN • • • PUSC PNIN
-Eje 1
? Figura 8.10: Grupos sociales promedio: partidos políticos.
296
8.6 Análisis evolutivo de una encuesta de opinión
% Inercia 57.89
Eje 2
6
• A553
A182 • A184 •
A452 • A453 • • A454 A451 • • A551 • A181
• A554 •A552
-Eje 1
• A183
? Figura 8.11: Trayectorias de los grupos de edad más opuestos.
% Inercia 57.89
Eje 2
6
EUC4 • EUC2 • EUC3 •
EUC1 • EP1 • ••EP2 EN1 • EP4 • EN4
EP3 •
• EN3 • EN2
-Eje 1
? Figura 8.12: Trayectorias de los escolaridad más opuestos.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
297
8.7 Statis Dual: las mismas variables en los m instantes Como se señaló al inicio del capítulo, el método Statis Dual se usa en el caso en que, en los m estudios, las variables medidas son las mismas, pero los individuos son posiblemente diferentes al pasar de una tabla a otra. Precisando, se supone que están dados m estudios (Xk , M, Dk ); k = 1, . . . , m donde Xk es la matriz de datos nk × p generada a partir de la medición de p variables cuantitativas sobre nk individuos, en la ocasión k-ésima. En adelante se supondrá que cada Xk es centrada respecto de la correspondiente matriz diagonal Dk = diag(wi ) de mk pesos de los individuos, y que M es una métrica Euclídea en el espacio de los individuos (Rp ). En este caso se usa la matriz de varianza-covarianza Vk = Xtk Dk Xk como objeto representativo del estudio (Xk , M, Dk ), por razones análogas a las mencionadas en Statis. Nótese que las matrices Vk son todas matrices p × p. Situaciones como la anterior se encuentran cuando, usando los datos del ejemplo 1, se quiere estudiar la evolución de un punto de muestreo particular a lo largo de los cuatro años. Se dispone por lo tanto de cuatro matrices, una por cada año, la primera de tamaño 10 × 17 (no se dispone de los meses enero y febrero) y las tres restantes de tamaños 12 × 17, se está en presencia de tablas con las mismas variables, pero con individuos diferentes. Ejemplo 8 Para ilustrar el método Statis Dual, se examinará el crecimiento de la caña de azúcar en la variedad1 cp 722086, para lo cual se realizaron durante once meses desde marzo de 1995 a enero de 1996, mediciones mensuales de cinco variables en 30 matas seleccionadas al azar mes a mes. Las mediciones de las variables implican la destrucción de la mata, por lo que no hay trayectorias de los individuos. Se tiene entonces once tablas de datos de tamaño 30 × 5. Las siguientes son las variables consideradas: • AFV: Area Foliar verde (cm2 ). • Altura: Altura de los tallos (cm). • PSHF: Peso seco de las hojas verdes (grs). 1
• PSCO: Peso seco de los cogollos (grs).
Los datos fueron aportados por los profesores Walter Marín y Fermín Subirós de la Escuela de Biología de la Universidad de Costa Rica.
298
8.7 Statis Dual: las mismas variables en los m instantes
• PSTA: Peso seco de los tallos (grs).
8.7.1 La interestructura La métrica de Hilbert-Schmidt para el caso de los operadores Vk es: hVk , Vl iΦM = tr (Vk MVl M) Sea Π = diag (tk )m×m la matriz diagonal de los pesos dados a los operadores {V1 , . . . , Vm }. La imagen Euclídea de los operadores Vk con pesos Π se obtiene diagonalizando la matriz Π- simétrica SΠ; donde skl = hVk , Vl iΦM . Sean u1 , . . . , ur los vectores propios Π− ortonormados de SΠ, asociados a los valores propios λ1 ≥ · · · ≥ λr > 0. La matriz S se expresa como S=
r X
λj uj utj = U∆λ Ut = (U∆√λ )(U∆√λ )t
j=1
donde U = [u1 , · · · , ur ]m×r y ∆λ = diag(λj ). Representación bidimensional de la interestructura Una representación óptima de la interestructura en el plano se obtiene, según el teorema 8.1, por medio de las filas de la matriz U∆√λ , tomando solamente los dos primeros vectores propios. Las m matrices Vk están representadas en el plano por m puntos cuyas√coordenadas en los dos primeros ejes {u1 , u2 } son las √ filas de la matriz Q2 = ( λ1 u1 , λ2 u2 ). La distancia entre dos puntos Vbk y Vbl (filas k y l de Q2 ) es la que mejor aproxima la distancia del producto escalar de Hilbert-Schmidt entre V k y Vl que en este caso se define como hVk , Vl iΦM = tr Vkt ΠVl Π . Se tiene la siguiente aproximación:
2
2 2
b
Vk − Vbl = Vbk + Vbl − 2 · Vbk · Vbl 2 ∼ + kVl k2 − 2 hVk , Vl i = kVk k ΦM
= kVk − Vl k2ΦM .
ΦM
ΦM
El error en que se incurre por esta aproximación es cuantificado por
Pr
2 j=3 λj .
299
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Interpretación de la interestructura Se desarrollan algunos resultados que ayudan a comprender el significado de las proximidades entre los operadores Vk . Relación entre distancias y correlaciones. Si las tablas Xk son centradas y reducidas, entonces Vk = Rk que es la matriz de correlaciones de las columnas de la tabla Xk . Es claro que si M = I, entonces p X p h p i2 X X 0 r xjk , xjk krkj k2 = kRk k2ΦM = j=1 j 0 =1
j=1
donde rkj es la fila j de Rk . En consecuencia d2ΦM (Rk , Rl ) =
p p X X
0
0
[r(xjk , xjk ) − r(xjl , xjl )]2 .
j=1 j 0 =1
Observaciones: 1. De lo anterior se concluye que la proximidad entre puntos observada en el plano de la interestructura se interpreta como estabilidad en la estructura de correlaciones para las mediciones efectuadas en las ocasiones k y l. 2. Si en la fórmula de d2ΦM (Rk , Rl ) se sustituye Rl por αRk , se tiene: d2ΦM (Rk , αRk )
2
= (α −
1)kRk k2ΦM
2
= (α − 1)
p X p X
0
[r(xjk , xjk )]2 .
j=1 j 0 =1
Por lo tanto la comparación entre dos puntos homotéticos tales que Rl = αRk depende de la magnitud de las correlaciones y de α2 − 1. 3. En caso que las matrices xk no sean reducidas, se tiene kVk k2ΦM
= hVk , Vk iΦM =
p X p X
0
0
[r(xjk , xjk ]2 var(xjk )var(xjk ).
j=1 j 0 =1
Así entonces, cuando hay estabilidad de las correlaciones entre dos ‘instantes’ k y l (k < l) y las normas kVk kΦM y kVl kΦM son muy diferentes, se ha producido un aumento o una disminución en las varianzas de las variables de un instante al otro. Dependiendo de la naturaleza del problema analizado, puede ser interesante identificar los factores responsables de dichas variaciones.
300
8.7 Statis Dual: las mismas variables en los m instantes
Otras propiedades 1. Supóngase que Vk M = Vl M entonces : (a) Los A.C.P. de los tripletes (Xk , M, Dk ) y (Xl , M, Dl ), tienen los mismos vectores y valores propios y, las componentes principales, en ambos casos, son combinaciones lineales de las mismas variables con los mismos pesos. Es decir, tienen la misma interpretación. (b) Si las matrices Xk , Xl son reducidas entonces las correlaciones de las variables con las componentes principales en el instante k, son iguales a las correlaciones de las variables con las componentes principales en el instante l. 2. En el caso Vl M = αVk M, entonces hay proporcionalidad en la estructura de correlaciones. La demostración de estas dos propiedades es sencilla y se deja como ejercicio (ver ejercicio 4). Ejemplo 9 Para hacer el cálculo de la interestructura para los datos de caña de azúcar, se centran y reducen las variables de las once tablas por lo que el objeto representativo de cada tabla es la matriz de correlaciones Rk = Xtk Dk Xk 1 I30 (todos los individuos donde la métrica de pesos de los individuos es Dk = 30 con el mismo peso), además se usará como métrica en el espacio de individuos a 1 I11 . la identidad M = I5 y como matriz de pesos para los once estudios Π = 11 La matriz de productos internos S está definida por skl = hRk , Rl iΦM = tr(Rk MRl M) = tr(Rk Rl ). Se construye una imagen Euclídea plana, primeramente con la matriz de coeficientes RV denotada Sn (Figura 8.13) y luego con la matriz Sc centrada (Figura 8.14), donde Sn = diag( √ Sc = JSJ t ,
1 1 ) S diag( √ ) skk skk J = I11 − 111 1t11 Π.
301
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
En el círculo de la Figura 8.13 se pueden observar aproximadamente las relaciones entre las matrices de correlaciones a través del RV -coeficiente hRk ,Rl i definido como RV (Rk , Rl ) = kR . k kkRl k 6 •en
•di no •••oc ag se• jl ••jn•ab mz •• my
-
? Figura 8.13: Caña de azúcar: interestructura normalizada (94% de inercia).
Por otro lado, en la Figura 8.14 se tiene una representación aproximada de las distancias entre las matrices de correlaciones. Así entonces, la proximidad de dos puntos bien representados observada en el círculo y en la Figura 8.14, significa que las matrices de correlación correspondientes son aproximadamente iguales. Como ayuda en la lectura de la Figura 8.14 se construye una tabla con las normas y la calidad de la representación de cada matriz, definida como el cociente de la norma de su proyección ortogonal entre la norma de la matriz (ver Tabla 8.7). Mes 100 Cal Mes 100 Cal
mar 98 sep 97
abr 18 oct 87
may 99 nov 77
jun 95 dic 68
jul 86 ene 96
ago 69
Tabla 8.7: Caña de azúcar: calidad de la representación plana.
302
8.8 El compromiso
Eje 2
6
• se oc•
mz•
jl • • jn
• ag • • abno
-Eje 1 di• en•
my•
?
Figura 8.14: Caña de azúcar: interestructura centrada (79% de inercia).
De ambos gráficos se puede observar lo siguiente: 1. Los meses de enero, setiembre y mayo son los puntos más alejados, cuestión que muestra cambios importantes (relativamente) en algunas de las variables. 2. Abril y noviembre están muy próximos, pero no es concluyente, puesto que hay una mala representación del mes de abril (18%). 3. {Marzo, junio, julio}, {Agosto, octubre, noviembre, diciembre} son grupos estables, en el sentido que la estructura de correlaciones se mantiene aproximadamente igual.
8.8 El compromiso El compromiso en Statis Dual se define de manera análoga al compromiso en el método Statis, teniendo en cuenta que al ser las matrices Xk centradas y reducidas los objetos de estudio son las matrices de correlaciones. Las propiedades
303
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
son las misma de Statis, sólo varían las interpretaciones, las cuales se resumen a continuación. El compromiso R es R=
m X
βk Rk .
k=1
donde β es vector propio de ΠS asociado al mayor valor propio λ1 y 1; R verifica las siguientes propiedades:
Pm
i=1 βi
=
1. R es el objeto más correlacionado con los Rk , en el sentido de que R es el que maximiza el promedio del cuadrado de las correlaciones de R con los Rk . Es decir, R maximiza el cociente Pm Pm 2 k=1 tk h l=1 αl Rl , Rk i al variar α ∈ Rm . kRk2 √ √ √ Pm β1 Xt1 , β2 Xt2 , . . . , βm Xtm p×n con n = 2. Si Xt = k=1 nk y t D = diag(Dk )n×n entonces R = X DX. Además las variables definidas por las columnas de X son centradas y reducidas respecto a D, por lo que se puede interpretar el compromiso como una matriz de correlaciones. P 0 j j0 j j0 3. rD (xj , xj ) = m k=1 βk rDk (xk , xk ) donde x , x son las variables de la 0 matriz X (columnas j-ésima, j 0 -ésima de X) y xjk , xjk son las correspondientes variables de la matriz Xk (columnas j-ésima y j 0 -ésima de Xk ). Puede notarse que la D–correlación entre dos variables de X es el promedio de las Dk –correlaciones entre las correspondientes variables de Xk . 4. Si todos los Rk son iguales entonces βk = tk para todo k, es decir el compromiso es el promedio de los Rk 5. Si algún Rk es muy diferente a los demás (es decir, hRk , Rl i = 0 , para todo l 6= k), éste no participa del compromiso (βk = 0). 1 Im , entonces 6. Si se eligen todos los pesos de los Rk iguales, esto es Π = m los mayores βk corresponden a los Rk que en promedio correlacionan más con el resto de los Rl .
Se puede afirmar de estas propiedades que el compromiso rescata lo que es común a las diferentes configuraciones y descarta las diferencias. Las pruebas de esas propiedades se encuentran en [64].
304
8.9 Intraestructura
Ejemplo 10 Se define S y Π como sigue: Sk,l = RV (k, l) = h
Rl Rk , i, kRk k kRl k
Π=
1 I11 . 11
El vector propio β asociado P al mayor valor propio λ1 de la matriz ΠS define Rk los pesos del compromiso C = m k=1 βk kRk k (ver Tabla 8.8). Rk 100 × βk Rk 100 × βk
mar 9.38 sep 9.10
abr 9.00 oct 9.27
may 9.17 nov 9.60
jun 9.51 dic 9.06
jul 9.54 ene 6.84
ago 9.55
Tabla 8.8: Caña de azúcar: pesos del compromiso.
Como se observó en las figuras 8.13 y 8.14 el mes de enero es el que más difiere y según las propiedades del compromiso enumeradas anteriormente este mes debería tener un bajo peso en la formación del compromiso, lo que se corrobora en la tabla anterior (peso de 6.84).
8.9 Intraestructura El estudio de la intraestructura involucra la representación en un subespacio de baja dimensión (usualmente dos) de las trayectorias (por alusión al tiempo) de las variables y, eventualmente, de los individuos. Ello permite explicar las desviaciones entre tablas de datos observadas en la interestructura, por medio de las desviaciones individuales de las variables en las trayectorias. √ √ β1 Xt1 . . . βm Xtm y D = diag (Dk )n×n . Si u1 , . . . , up son Sea Xt = los vectores propios M-ortonormados del A.C.P. de (X, M, D), asociados a los valores propios λ1 ≥ . . . ≥ λp > 0, entonces los ui son vectores propios de RM donde R = Xt DX es el compromiso. Se denotan con c1 , . . . cp las componentes principales correspondientes de este A.C.P..
8.9.1 Representación de las variables Se consideran representaciones de las variables definidas por las columnas de la tabla X (variables activas) y de las variables definidas por las columnas de las tablas Xk ponderadas por un factor βk (variables suplementarias).
305
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Variables activas Por definición Xt Dcs =
√1 RMus , λs
luego m
X βk j 1 √ (rk )t Mus coordcs (xj ) = (xj )t )Dcs = √ rj Mus = λs λs k=1 donde rjk es la columna j de Rk y rj es la fila j de R. Esta representación corresponde a una imagen Euclídea óptima de rango q ≤ p, asociada a R. Ejemplo 11 La Figura 8.15 muestra la representación de las variables activas (variables promedio) en los dos primeros ejes del compromiso correspondiente al ejemplo 8. 0.6 6 • Altura PSTA• PSCO•
-
0.6
PSHF •• AFV
? Figura 8.15: Caña de azúcar: variables activas (75% de inercia).
Como se puede observar, el primer eje del compromiso (57.4%) está determinado fundamentalmente por la variable peso seco de los cogollos (PSCO) y en menor grado por la variable peso seco de los tallos (PSTA). Se hace referencia a él como Eje de los gramos. El segundo eje, con un porcentaje de Inercia del 17.5%, está definido por la variable Altura de los tallos (Altura) y en menor grado por la variable Area foliar verde (AFV). Se le denomina Eje de los centímetros.
306
8.9 Intraestructura
Variables suplementarias Para hacer una representación, se identifica la variable xjk con la variable su√ plementaria (e xjk )t = [0 . . . 0, ( βk xjk )t , 0 . . . 0]1×n , luego su coordenada en la componente cs es: βk 1 coordcs (e xjk ) = (e xjk )t Dcs = √ (xjk )t Dk Xk Mus = √ (rjk )t Mus . λs λs Nótese que las coordenadas de las variables observadas en el período entero son iguales al promedio de las variables correspondientes en cada instante, salvo por la constante 1/m: m X coordcs (xj ) = coordcs (e xjk ). k=1
Véanse las figuras 8.16, donde se ilustra este tipo de representación por medio de variables suplementarias. Se muestran los siguientes casos: (a) AFV: Área foliar verde. (b) Altura: Altura de los tallos. (c) PSHF: Peso seco de las hojas verdes. (d) PSCO: Peso seco de los cogollos. (e) PSTA: Peso seco de los tallos.
307
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
6
•mz •jn
ab•
•jl
-
ag •
• oc
no •• di oc••ag
en•
6
se •
•my
•no jl• •di • ab
se•
(b) Altura.
6
6
•my
• ab •jl
• di
•my
?
(a) AFV.
no •
-
•mz
• en
?
en •
• jn
•jn •mz
• en no• •ag • • di ab
-
oc • •ag •se
oc•
?
?
(c) PSHF.
my • • jl
• se
(d) PSCO.
6 di •
• en
ab• •my
no •
mz•
oc•
se •• ag
-
jn • •jl
?
(e) PSTA.
Figura 8.16: Caña de azúcar: variables suplementarias.
• jn
mz • -
308
8.10 Aproximación óptima de matrices
8.9.2 Relación entre la interestructura y las trayectorias de las variables Se trata de identificar las variables que explican las desviaciones observadas en la interestructura. Se sabe que los Rk mejor representados en el compromiso corresponden a los de mayor βk . Por lo tanto interesan fundamentalmente las cantidades kRk − Rl k2 , donde βk y βl son grandes y si además βk ≈ βl y M = I se tiene que kRk − Rl k2 ≈
p p X X j=1 s=1
2 xjk ) − coordcs (e xjl ) . λs coordcs (e
Se ve que mientras más grande sea el desplazamiento de una variable j entre los instantes k y l, más aporta esta variable a la distancia entre Rk y Rl . Ejemplo 12 En el caso del crecimiento de la caña de azúcar, como se observa en la interestructura, los meses de enero, mayo y setiembre son lo más alejados, las trayectorias de las variables muestran que los aportes fundamentales a esta separación corresponden a las variables: Altura, PSHF, PSCO y PSTA para el mes de enero; Altura, AFV y PSHF para el mes de mayo; Altura y PSCO para el mes de setiembre.
8.9.3 Representación de los individuos La representación de un individuo xi es la usual del A.C.P., es decir su coordenada en el eje uj es: coorduj (xi ) = xti Muj . xi =
r X j=1
hxi , uj iM uj =
r X j=1
xti Muj uj .
En el ejemplo de crecimiento de la caña no es posible analizar trayectorias de individuos, pues éstos se destruyen mes a mes.
8.10 Aproximación óptima de matrices En esta sección se presentan los resultados matemáticos a partir de los cuales se deduce la optimalidad de las imágenes Euclídeas aproximadas que se construyen en Statis.
309
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Definición 8.4 Sean Rp y Rn espacios vectoriales provistos de métricas M y N, respectivamente. El producto escalar de Hilbert Schmidt se define como hX, YiM,N = tr Xt NYM para todas las matrices X, Y de tamaño n × p. Teorema 8.2 Sea X una matriz n × p de rango mayor o igual que q. Una solución del problema min kX − Yk2M,N | rng (Y) = q Y
es XMHHt con H = [v1 . . . vq ] , v1 . . . vq vectores propios M−ortonormados de Xt NXM, donde rng (Y) denota el rango de Y. D EMOSTRACIÓN : Es claro que expresando M = Lt1 L1 y N = Lt2 L2 se tiene
hX, YiM,N = L2 XLt1 , L2 YLt1 Ip ,In y
kX − YkM,N = L2 XLt1 − L2 YLt1 Ip ,In .
Sean x1 , . . . , xn las filas de la matriz X. Se sabe que n o
min L2 XLt1 − L2 YLt1 Ip ,In | rng (Y) = q =
= L2 XLt − L2 XLt UUt 1
=
n X i=1
kxi k2 −
1
q X k=1
Ip ,In
t utk L2 XLt1 L2 XLt1 uk
con U = [u1 . . . uq ] , u1 . . . uq vectores propios Ip –ortonormados de L1 Xt NXLt1 asociados a λ1 ≥ · · · ≥ λq > 0 (ver [33]). Sea uj = L1 vj entonces se deduce que v1 . . . vq son vectores propios M−ortonormados de Xt NXM asociados a λ1 ≥ · · · ≥ λq > 0. Por otra parte, como L1 H = U entonces L2 XLt1 UUt = L2 XMHHt Lt1 de donde
L2 XLt1 − L2 XLt1 UUt = X − XMHHt M,N . Ip ,In
310
8.11 Datos del Proyecto Angostura
Corolario 8.1 Se tiene: 1. min{kX − Yk2M,N | rng (Y) ≤ q} = min{kX − Yk2M,N | rng (Y) = q}. 2. Sea M = N y X = S simétrica. Entonces se tiene que min{kS − Yk2M,M | rng (Y) = q} se alcanza en SMHHt =
q X
λj vj vjt
j=1
donde v1 . . . vq son vectores propios M−ortonormados de SM asociados a λ1 ≥ · · · ≥ λq > 0. P 3. min{kS − YkM,M | rng (Y) = q} = rj=q+1 λ2j con r = rng (S).
D EMOSTRACIÓN : 1. Sea Y de rango q1 ≤ q y sean x1 , . . . , xn las filas de X; entonces kX − Yk2M,N ≥ min{kX − Zk2M,N | rng (Z) = q1 } =
n X i=1
≥
n X i=1
2
kxi k − kxi k2 −
= min{kX −
q1 X
utk (L2 XLt1 )t L2 XLt1 uk
k=1
q X
utk (L2 XLt1 )t L2 XLt1 uk
k=1 Zk2M,N | rng (Z)
= q}.
2. Se tiene Xt NXM = SMSM. Sean v1 . . . vq vectores propios M−ortonormados de SM asociados a λ1 ≥ · · · ≥ λq > 0, luego también lo son de SMSM P asociados a λ21 ≥ · · · ≥ λ2q > 0. Por lo tanto SMHHt = t HDλ H = qk=1 λk vk vkt . P P 3. Como S = rk=1 λk vk vkt entonces S − SMHHt = rk=q+1 λk vk vkt .
Ahora, en vista de que vk vkt , vl vlt M,M = δkl (el delta de Kronecker) se P deduce que kS − SMHHt k2 = rk=q+1 λ2k .
8.11 Datos del Proyecto Angostura En las tablas 8.9 y 8.10 se presentan los datos que corresponden al Proyecto Hidroeléctrico Angostura.
pH 7.37 7.23 7.49 7.87 7.36 7.21 7.40 7.47 7.34 7.19 7.32 7.33
pH 7.00 7.17 7.13 6.57 6.84 7.04 7.19 7.36 7.10 7.12 7.42 7.04
Rev1 En Fe Mz Ab My Jn Jl Ag Se Oc No Di
Rev3 En Fe Mz Ab My Jn Jl Ag Se Oc No Di
Temp 22.83 24.07 22.30 23.20 22.30 21.57 21.67 22.63 22.87 20.97 20.67 20.20
Temp 20.07 20.47 20.43 21.87 21.60 20.30 20.60 20.63 21.30 20.80 19.97 19.87
Na 4.72 5.51 5.77 7.07 4.52 4.19 4.43 4.81 4.49 4.59 4.50 4.56
Na 6.56 5.67 6.19 7.00 5.59 5.04 4.80 4.98 4.82 5.22 5.09 5.24
K 1.04 1.51 1.59 2.03 1.28 3.27 1.11 1.36 1.37 1.45 1.35 1.42
K 2.16 1.93 1.92 2.32 1.78 1.76 1.63 1.67 1.83 1.88 1.58 1.81
Ca 15.40 15.90 17.07 15.77 13.57 13.70 13.07 13.27 12.77 12.63 11.93 11.93
Ca 15.30 14.43 15.30 16.27 14.67 12.63 12.20 12.83 12.73 13.27 12.36 12.93
Mg 3.10 3.47 4.09 3.91 2.87 2.71 2.81 3.02 2.91 2.86 2.83 2.85
Mg 6.08 3.88 4.17 5.23 3.76 3.31 3.76 3.35 3.32 3.51 3.17 3.75
SiO2 20.00 19.10 21.97 21.73 23.50 21.87 20.20 19.93 20.37 30.10 25.13 20.93
SiO2 29.80 24.27 26.30 25.57 26.10 22.57 19.93 24.33 24.20 33.10 27.63 25.60
SO4 HCO3 8.52 77.97 8.15 67.60 8.39 71.47 9.83 81.20 8.78 67.00 7.77 60.87 6.39 58.53 5.85 58.27 6.49 56.10 7.47 61.37 6.68 56.90 7.23 61.97
OD DBO SD ST PO4 Cl NO3 SO4 HCO3 7.61 3.54 80.00 113.33 0.22 1.03 0.29 3.70 73.50 6.93 3.49 88.00 106.00 0.32 2.13 0.86 7.13 69.40 7.90 2.84 95.33 122.67 0.33 2.05 1.03 10.62 74.70 7.45 7.57 107.33 142.67 0.34 3.11 2.08 13.40 70.60 7.62 2.87 76.00 158.67 0.55 1.70 1.62 6.96 61.13 7.97 3.94 86.00 118.67 0.48 1.34 0.56 6.02 60.90 7.51 3.42 80.00 150.67 0.33 2.61 0.60 5.12 58.00 7.89 2.07 91.33 125.33 0.42 1.56 1.19 5.90 60.07 7.94 2.09 90.00 172.00 0.57 1.90 2.21 5.24 53.53 7.85 2.21 110.00 278.00 0.87 1.93 2.52 7.47 55.63 8.54 2.00 73.33 142.67 0.34 1.32 1.48 5.24 54.33 8.54 2.00 93.67 127.67 0.48 0.69 0.73 1.77 57.80
OD DBO SD ST PO4 Cl NO3 7.94 2.00 128.67 149.33 0.28 2.87 2.16 7.66 2.89 88.00 114.67 0.21 2.49 2.26 8.45 2.00 86.00 108.67 0.27 2.69 2.06 8.17 2.14 123.33 144.00 0.31 3.06 1.74 8.20 2.29 94.00 202.00 0.72 2.75 2.63 8.20 3.14 94.00 176.67 0.52 2.19 2.53 8.22 2.12 96.00 196.33 0.33 1.95 2.05 8.00 2.44 96.67 136.00 0.29 1.80 1.62 8.40 2.36 114.67 217.33 0.69 2.26 2.37 8.29 2.41 104.00 267.33 0.93 2.24 2.16 8.32 2.05 84.67 199.33 1.20 1.96 1.91 8.23 2.21 94.97 174.67 0.60 2.16 2.04
DT POD Cal 51.77 95.33 83.80 55.50 88.93 82.03 61.10 97.77 85.27 56.67 94.07 74.50 46.47 94.47 81.63 48.57 97.93 82.63 45.33 92.10 84.53 46.80 98.33 85.80 45.40 99.70 82.70 46.20 95.10 81.70 42.60 102.73 86.53 42.23 102.27 85.73
DT POD Cal 63.73 92.87 86.00 53.47 89.90 84.80 55.67 99.20 86.43 64.33 98.80 84.90 54.37 98.67 81.17 48.00 95.83 83.53 47.57 97.10 85.00 48.47 94.40 85.40 47.07 100.70 81.07 49.27 97.97 78.93 45.63 96.57 79.10 49.03 95.63 82.73
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
311
Tabla 8.9: Proyecto Angostura: Reventazón 1 y Reventazón 3.
pH 7.44 7.49 7.65 7.78 7.32 7.55 7.41 7.40 6.95 7.23 7.39 7.12
pH 7.44 7.45 7.88 8.25 7.38 7.42 7.13 7.27 6.74 7.13 7.10 7.03
pH 7.61 7.74 8.07 7.86 7.59 7.56 7.59 7.79 7.31 7.34 7.21 7.38
Tuis4 En Fb Mz Ab My Jn Jl Ag Se Oc No Di
Tuis5 En Fb Mz Ab My Jn Jl Ag Se Oc No Di
Turr2 En Fb Mz Ab My Jn Jl Ag Se Oc No Di
Na 4.30 3.97 4.34 4.72 3.51 3.46 3.87 3.82 3.34 3.44 3.66 3.71
Na 4.18 4.92 5.45 4.63 3.51 5.30 3.60 3.80 3.40 3.61 3.52 3.49
K 1.59 1.52 1.68 1.99 1.45 1.35 1.48 1.60 2.29 1.56 1.62 1.57
K 1.52 1.73 1.80 1.86 1.33 2.53 2.08 1.51 2.67 1.44 1.36 1.47
Ca 10.87 10.84 11.58 11.50 9.08 9.23 9.49 9.99 9.20 9.11 9.59 10.07
Ca 10.37 15.40 14.46 10.84 8.96 10.00 9.15 10.12 9.13 9.49 9.49 9.74
Mg 3.53 3.46 3.67 3.92 2.95 2.83 3.32 3.15 2.91 2.85 3.20 3.28
Mg 3.40 4.25 4.44 3.72 2.81 2.44 3.08 3.12 2.87 2.85 3.04 3.19
SiO2 29.13 30.57 32.33 32.37 28.50 28.17 26.30 29.17 28.37 34.07 30.23 35.77
SiO2 29.43 31.37 31.13 36.23 28.90 32.53 25.00 28.83 26.83 35.00 24.40 32.23
Cl NO3 4.05 5.24 4.14 5.01 5.71 6.01 5.38 5.72 4.30 6.70 2.36 3.35 3.48 4.88 3.45 4.49 4.32 5.35 4.37 4.49 2.81 3.71 2.87 4.09
SO4 14.17 13.21 14.67 17.50 12.50 7.23 10.23 9.94 12.47 13.40 8.51 8.79
SO4 HCO3 0.74 64.37 0.93 64.13 1.39 60.20 1.52 65.80 0.98 53.87 0.96 51.23 1.40 58.17 1.44 55.83 0.54 53.43 1.68 52.37 0.70 60.23 0.95 61.17
Cal 80.70 81.36 78.26 75.59 81.85 83.25 78.73 78.12 75.01 61.59 74.52 82.70
DT POD Cal 42.20 96.03 87.40 44.03 96.67 81.13 44.80 101.83 85.23 45.23 102.93 81.33 37.73 98.30 84.47 36.73 95.60 86.37 38.70 92.70 85.20 39.67 89.47 81.97 35.73 92.17 75.83 36.33 97.13 83.80 37.60 95.93 86.30 39.33 98.77 85.87
HCO3 DT POD 121.67 93.30 95.33 120.63 97.43 95.60 121.33 102.00 99.00 137.67 116.67 96.67 107.33 86.80 98.33 86.93 61.27 99.93 104.67 87.03 95.53 102.00 85.43 97.23 105.67 86.50 95.77 107.73 85.20 99.87 114.33 87.57 93.33 92.97 70.60 105.33
OD DBO SD ST PO4 Cl NO3 7.78 2.00 87.33 97.33 0.26 0.83 0.47 7.58 4.78 75.33 134.00 0.42 1.01 1.06 8.12 2.00 92.67 112.00 0.40 0.89 1.30 8.18 3.45 98.00 114.00 0.36 0.98 0.56 7.75 3.13 63.33 130.67 0.36 0.85 0.96 7.81 2.43 74.67 106.67 0.34 0.75 0.41 7.41 2.03 96.67 114.20 0.69 1.00 0.55 7.08 2.88 86.67 149.33 0.54 0.63 0.54 7.19 4.24 86.00 174.00 0.97 0.90 0.64 7.85 2.30 95.33 100.67 0.80 1.02 0.75 7.72 2.45 72.67 77.33 0.59 0.70 0.78 8.01 2.35 99.00 116.00 0.38 0.81 0.98
OD DBO SD ST PO4 Cl NO3 SO4 HCO3 DT POD Cal 7.95 2.00 88.67 92.00 0.22 0.89 0.46 0.77 62.90 43.07 98.13 88.73 7.78 3.27 96.67 100.67 0.22 1.08 1.15 3.28 80.73 63.30 98.27 84.43 8.49 2.24 82.00 92.00 0.38 1.34 1.16 2.69 80.13 58.37 106.97 86.77 7.88 2.46 99.33 233.33 0.91 0.87 0.62 0.90 66.97 44.17 98.10 80.80 7.90 2.76 60.67 104.00 0.31 0.80 0.79 0.83 54.57 38.47 98.50 86.23 8.12 2.08 72.67 75.33 0.23 0.85 1.56 5.17 57.37 37.70 99.83 88.33 7.82 2.32 70.33 80.67 0.19 0.87 0.48 1.01 56.07 39.33 98.67 88.27 7.09 2.45 85.33 98.00 0.40 0.79 0.47 1.19 58.67 40.07 90.03 85.37 7.60 2.09 96.67 107.33 0.42 1.03 0.79 1.38 50.77 35.13 97.13 82.97 8.33 3.20 85.33 91.33 0.42 0.85 0.73 1.90 53.37 37.47 102.80 84.53 8.27 2.00 69.33 76.67 0.56 0.74 1.06 0.78 57.53 40.93 101.93 87.73 8.57 2.00 79.67 87.00 0.33 0.82 0.82 1.01 56.73 37.90 103.13 87.63
Temp Na K Ca Mg SiO2 OD DBO PO4 21.13 9.75 4.91 18.00 11.67 50.17 7.82 1.84 0.55 21.73 9.48 4.69 19.77 11.47 44.33 7.76 1.75 0.46 22.33 10.04 5.48 19.77 12.30 37.80 7.95 2.26 0.59 22.07 11.70 5.50 21.70 14.90 44.00 7.84 2.58 0.87 23.67 8.60 3.92 16.87 10.25 46.40 7.70 1.31 0.43 22.07 6.54 3.22 12.92 6.84 44.47 8.07 1.56 0.49 22.13 8.44 4.46 16.33 10.73 42.10 7.69 3.59 0.50 22.97 8.66 4.71 16.40 9.91 45.70 7.73 3.75 0.61 22.40 8.50 4.86 16.93 10.17 43.70 7.82 3.32 1.29 21.53 8.54 4.93 16.47 9.72 46.50 8.14 4.17 1.92 20.83 8.84 5.47 17.03 10.53 49.60 7.73 10.92 1.10 20.43 7.23 4.24 13.57 8.44 45.90 8.80 2.63 0.37
Temp 21.97 23.63 22.80 22.80 23.27 21.63 22.67 23.23 23.90 21.93 22.03 21.83
Temp 22.07 23.53 22.67 22.37 22.63 21.87 23.07 23.40 23.73 22.00 21.80 20.53
312 8.11 Datos del Proyecto Angostura
Tabla 8.10: Proyecto Angostura: Tuís 4, Tuís 5 y Turrialba2.
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
313
Ejercicios 1. Demuestre que la matriz S del método Statis cuyas entradas son skl = hWk , Wl iΦD es semidefinida positiva, donde Wk = Xk Mk Xtk y Xk es una matriz de individuos por variables de rango completo por columnas para k = 1, . . . m. 1 2. En el método Statis, sea Π = m Im la matriz de pesos (todos iguales), c1 , . . . , W cm } skl = hWk , Wl iΦD . Demuestre que la imagen Euclídea {W se puede obtener diagonalizando S en lugar de SΠ.
Indicación: Demuestre que
(a) Si u es vector propio de S asociado al valor propio λ, con kuk = 1, √ 1 entonces mu es vector propio de SΠ asociado al valor propio m √ con k mukΠ = 1.
(b) La imagen Euclídea para {W1 , . . . , Wm } obtenida con los vectores propios kui k = 1 de S, es la misma que se obtiene con los vectores propios kui kΠ = 1 de SΠ. 3. Demuestre las siguientes propiedades del compromiso del método Statis:
(a) Si todos los Wk son iguales entonces el compromiso es la media aritmética de los Wk . (b) Si algún Wk es muy diferente de los demás (es decir, es tal que hWk , Wl iΦD = 0, todo l), éste no participa del compromiso (αk = 0). 1 (c) Si se eligen todos los pesos de los Wk iguales, esto es Π = m Im , entonces los mayores αk corresponden a los Wk que en promedio tienen un mayor RV–coeficiente con el resto de los Wi .
(d) En la imagen Euclídea no centrada de la interestructura, el compromiso se encuentra sobre el primer eje a la distancia de ||W||ΦD . (e) Demuestre las dos propiedades dadas en la subsección denominada otras propiedades de la sección 8.7.1, página 300.
4. En el contexto del método Statis Dual. (a) Supóngase que Vk M = Vl M entonces :
314
8.11 Datos del Proyecto Angostura
i. Los A.C.P. de los tripletes (Xk , M, Dk ) y (Xl , M, Dl ), tienen los mismos vectores y valores propios y, las componentes principales, en ambos casos, son combinaciones lineales de las mismas variables con los mismos pesos. Es decir, tienen la misma interpretación. ii. Si las matrices Xk , Xl son reducidas entonces las correlaciones de las variables con las componentes principales en el instante k, son iguales a las correlaciones de las variables con las componentes principales en el instante l. (b) En el caso Vk M = αVl M, entonces hay proporcionalidad en la estructura de correlaciones. 5. Para estudiar la contaminación en un proyecto hidroeléctrico en Costa Rica2 se dispone de la observación de 13 variables en 9 puntos de muestreo durante 4 estaciones climáticas. Las variables son: • Nit: concentración de nitratos.
• Fos: concentración de fosfatos.
• Cal: índice de calidad del agua (función no lineal de los parámetros). • Sto: concentración de sólidos totales.
• pH: potencial hidrógeno.
• Mn: concentración de manganeso.
• Zn: concentración de zinc.
• SS: concentración de sólidos sedimentables.
• Alc: alcalinidad.
• Cl: concentración de cloro.
• Cau: caudal.
• DBO: demanda bioquímica de oxígeno (ppm). • Por: porcentaje de saturación de oxígeno. Los sitios de muestreo son: • Alajuela: río Alajuela. 2
Los datos fueron aportados por la Lic. Vania Morales G. del Laboratorio Químico del Instituto Costarricense de Electricidad (I.C.E.).
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
315
• Ciruelas: río Ciruelas.
• Desf: desfogue.
• Embcen: embalse centro. • Embori: embalse orilla.
• Embsal: embalse salida. • Presa: presa.
• QSoto: río Quebrada Soto.
• Virilla: río Virilla.
Las 4 tablas de datos, que corresponden a estaciones climáticas, son: • V: verano (enero, febrero, marzo, abril).
• VI: transición verano–invierno (mayo).
• I: invierno (junio, julio, agosto, setiembre, octubre). • IV: transición invierno–verano (noviembre).
Los datos son mostrados en las tablas 8.11, 8.12, 8.13 y 8.14. Aplique el método Statis para analizar estos datos. En vista de que se tiene que la posibilidad de aplicar también el método Statis Dual, ¿cómo cree que se comportarán los resultados del análisis?
Punto muestreo Alajuela Ciruelas Desfogue Embcent Embori Embsal Presa QSoto Virilla 0.43 0.53 0.70 0.69 0.63 0.66 0.78 0.55 1.19
2.36 3.60 0.89 1.06 0.83 0.92 1.44 2.14 7.65
69.00 72.25 61.00 55.50 53.25 59.00 58.25 71.25 58.50
Fos Cal
Nit 156.50 184.75 172.25 177.25 169.00 160.25 167.50 188.25 335.50
Sto 8.41 8.44 7.31 7.21 7.70 7.25 7.29 8.36 8.05
pH 0.06 0.04 0.19 0.18 0.18 0.18 0.21 0.03 0.28
0.03 0.01 0.02 0.02 0.26 0.03 0.03 0.02 0.06
Mn Zn 0.20 0.42 0.55 0.72 0.70 0.49 0.66 0.20 1.85
SS 150.75 149.50 129.00 127.75 136.75 125.75 120.50 165.00 182.25
Alc
Cau 7.85 0.45 8.12 1.37 3.75 19.90 3.70 12.00 3.60 12.00 3.37 12.00 3.92 17.85 3.60 0.14 12.90 16.68
Cl
16.70 4.78 11.07 13.55 22.18 14.02 25.00 3.27 21.50
87.25 88.25 48.50 58.25 76.50 43.25 53.25 66.50 83.50
DBO Por
316 8.11 Datos del Proyecto Angostura
Tabla 8.11: Proyecto Hidroeléctrico Ventanas–Garita: Verano.
Punto muestreo Alajuela Ciruelas Desfogue Embcent Embori Embsal Presa QSoto Virilla 0.96 1.39 0.90 1.21 1.21 1.10 1.13 1.58 1.91
1.89 3.74 2.32 2.58 2.31 2.52 2.71 2.42 5.73
68.50 63.50 64.00 58.50 60.50 61.50 62.50 68.50 57.00
Fos Cal
Nit 230.00 232.50 227.50 288.00 224.50 217.00 195.00 209.00 404.00
Sto 8.10 8.05 7.40 7.25 7.28 7.35 7.50 8.20 8.05
pH 0.16 0.12 0.26 0.42 0.16 0.21 0.20 0.04 0.31
0.16 0.04 0.16 0.05 0.06 0.10 0.02 0.03 0.07
Mn Zn 0.95 0.75 0.95 0.65 0.95 0.85 1.15 0.35 1.75
SS 116.50 128.50 101.00 95.00 97.00 98.00 104.50 153.00 153.50
Alc
Cau 17.70 0.90 9.30 3.05 4.10 37.10 4.25 12.00 4.10 12.00 4.25 12.00 4.10 28.20 4.55 0.35 12.85 17.25
Cl
46.35 84.00 46.00 70.00 54.15 68.50 22.45 57.00 24.25 61.00 21.65 64.00 90.70 77.00 20.10 85.50 116.95 86.50
DBO Por
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Tabla 8.12: Proyecto hidroeléctrico Ventanas–Garita: Verano–Invierno.
317
Punto muestreo Alajuela Ciruelas Desfogue Embcent Embori Embsal Presa QSoto Virilla 0.24 0.37 0.27 0.27 0.27 0.25 0.35 0.40 0.87
2.13 3.71 4.08 3.86 3.96 4.14 3.90 2.66 6.09
80.25 80.00 81.25 81.50 81.25 82.75 79.25 82.25 67.00
Fos Cal
Nit 176.25 190.25 169.00 168.00 160.50 152.25 176.50 186.50 321.25
Sto 7.74 7.75 7.33 7.16 7.17 7.26 7.41 8.00 7.80
pH 0.25 0.22 0.17 0.17 0.36 0.20 0.37 0.03 0.28
0.07 0.05 0.04 0.48 0.05 0.09 0.28 0.06 0.11
Mn Zn 0.62 0.46 0.70 0.46 0.33 0.37 0.62 0.16 1.27
SS 104.75 113.25 85.75 78.75 158.00 79.50 80.25 162.50 136.00
Alc
5.90 7.08 3.27 3.35 3.25 3.35 3.35 3.42 9.05
Cl
1.64 4.68 59.75 20.00 20.00 20.00 53.27 0.61 50.05
Cau
4.47 1.85 1.93 1.35 1.33 1.45 3.77 1.75 9.35
86.00 83.00 84.50 81.75 82.00 84.50 89.75 85.25 90.5
DBO Por
318 8.11 Datos del Proyecto Angostura
Tabla 8.13: Proyecto hidroeléctrico Ventanas–Garita: Invierno.
Punto muestreo Alajuela Ciruelas Desfogue Embcent Embori Embsal Presa QSoto Virilla 0.46 0.84 0.33 0.46 0.37 0.37 0.48 0.76 0.76
1.06 4.77 1.06 1.11 1.37 1.06 1.87 2.23 4.65
73.00 72.50 67.00 60.50 66.50 64.50 68.00 78.00 73.00
Fos Cal
Nit 180.50 159.00 134.00 157.50 158.00 156.50 171.00 185.50 254.00
Sto 8.05 8.05 7.30 7.25 7.30 7.30 7.50 8.30 8.05
pH 0.12 0.08 0.17 0.16 0.15 0.15 0.18 0.00 0.21
0.25 0.15 0.03 0.07 0.21 0.16 0.66 0.15 0.32
Mn Zn 0.45 0.40 0.70 1.00 0.85 0.45 0.75 0.20 0.95
SS 135.00 105.00 103.50 99.50 99.50 101.50 97.50 178.50 144.50
Alc
Cau 10.55 1.21 6.65 3.58 2.90 62.25 2.75 20.00 2.60 20.00 2.75 20.00 3.05 46.75 2.90 0.36 7.80 42.20
Cl
8.90 3.50 8.10 9.65 6.60 8.10 26.60 1.50 6.50
79.00 84.50 51.00 41.50 49.50 47.00 72.50 85.50 88.00
DBO Por
J. T REJOS — W. C ASTILLO — J. G ONZÁLEZ
Tabla 8.14: Proyecto hidroeléctrico Ventanas–Garita: Invierno–Verano.
319
Indice Alfabético Φ2 , 18 χ2 , 18 algoritmo voraz, 324 algoritmos genéticos, 324 análisis bivariado, 15 análisis de correspondencias, 102, 328 análisis de correspondencias múltiples, 137, 140 análisis de datos simbólicos, 325 análisis discriminante, 237 análisis discriminante decisional, 238 análisis discriminante descriptivo, 237 análisis en componentes principales, 110 análisis factorial de correspondencias, 102, 141 análisis univariado, 14 atributos, 6 código disyuntivo completo, 138 categorías, 6 centro de gravedad, 104, 106, 141, 142 chi-cuadrado, 18 cociente de correlación, 19 cociente de Rayleigh, 262 codificación, 6, 10 coeficiente RV , 278 coeficiente de contingencia Φ2 , 18
coeficiente de correlación, 16 colonias de hormigas, 324 compromiso, 271, 282 comunalidad, 56 coordenada factorial, 110 coordenadas factoriales, 143 covarianza, 16 datos, 1 desigualdad de Cauchy-Schwartz, 26 desviación estándar, 15 distancia, 24 distancia de chi-cuadrado, 107, 141, 143 distancia Euclídea clásica, 25, 26 efecto talla, 62, 91 eje factorial, 85, 110 enjambres de partículas, 325 equivalancia distribucional, 107, 134 escalas de Likert, 78, 293 espacio de individuos, 24 espacio de variables, 24 Estadística, 1 fórmulas de transición, 130, 173 igualdad de Fisher, 204 imagen Euclídea, 271 independencia, 102 indicadoras, 7 indicatrices, 7
339
340
Indice alfabético
índice de chi-cuadrado, 102, 109 individuo, 2 inercia, 109, 165 inercia inter-clases, 204 inercia intra-clases, 204 inercia total, 33, 204 interestructura, 271, 276 intraestructura, 271, 285
producto escalar de Hilbert-Schmidt, 272
k-medias, 208, 324
tablas de datos, 8 tabla de Burt, 12, 160, 162, 170 tabla de contingencia, 11, 17, 100, 328 tabla de frecuencias, 101 tabla individuos × variables, 8 tablas individuos × individuos, 12 tablas variables × variables, 10 teorema de Rayleigh, 262 trayectorias, 288 trayectoria de un individuo, 288 trayectorias de las variables, 306
método de nubes dinámicas, 208 método Statis, 270 método Statis dual, 299 métrica, 26, 270 métrica de los inversos de las varianzas, 35 métrica de Mahalanobis, 266 métrica de pesos, 27, 270 métrica identidad, 26, 30, 35 matriz de Burt, 12, 160, 162, 170 matriz de covarianzas, 28 matriz de varianzas-covarianzas, 28 media, 15 minería de datos, 326 modalidades, 6 muestra, 2 multipartición, 212 norma, 25 nubes dinámicas, 208 objeto, 2 optimización, 215, 323 particionamiento, 201, 215, 324 perfiles columna, 105, 142 perfiles fila, 103, 141 pesos de los individuos, 3 población, 2 ponderación, 3
recocido simulado, 324 relaciones de transición, 112, 144 sobrecalentamiento simulado, 324 Statis, 270 Statis dual, 299
unidad de medida, 5 unidad estadística, 2 variable, 4 variable binaria, 6 variable categórica, 5 variable continua, 5 variable cualitativa, 5 variable cuantitativa, 4 variable de conteo, 5 variable de presencia-ausencia, 6 variable dicotómica, 6 variable discreta, 5 variable nominal, 6 variable numérica, 4 variable ordinal, 6 varianza, 15