XIX Simposio Colombiano de Estadísti a Estadísti as O iales Medellín Colombia, Julio 16 al 20 de 2009
Considera iones sobre té ni as de análisis por Mínimos Cuadrados Par iales PLS y su aporte a la forma ión del ingeniero de alimentos Consideration about the analize the ni al whit partial least square PLS and their aport the enginier aliment formation Nelson Rodríguez
1, a
2, b
, Guillermo Salaman a Grosso
1 Departamento de Estadísti a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia 2 Departamento de Quími a, Fa ultad de Cien ias, Universidad del Tolima, Ibagué, Colombia
Resumen
En la onstru
ión de un modelo de regresión lineal múltiple basado en una matriz de datos X , de orden n × p, se pueden presentar dos problemas: multi olinealidad y alta dimensionalidad de sus variables predi toras. En este trabajo se revisan dos metodologías relativamente similares y usadas en la solu ión de estos problemas: (Wold 2001, Martens 2001) Regresión por Componentes Prin ipales y Regresión por Mínimos Cuadrados Par iales. En te nología de alimentos, ha in ursionado de manera importante ombina el análisis de omponentes prin ipales y el análisis de orrela ión anóni o (de Jong et al. 2001) ambos métodos transforman las variables predi toras en variables arti iales llamadas omponentes o variables latentes, las uales son ortogonales y permiten ha er una redu
ión de la dimensionalidad del espa io de variables predi toras. Luego usando solamente las variables latentes se onstruye el modelo de regresión estimado.
Palabras lave : Regresión por mínimos uadrados par iales, Componentes Prin ipales, valida ión
ruzada, Clasi a ión supervisada. Abstra t
In a multiple linear regressión model based on an n × p, data matrix two problems may arise: multi olineality and high dimensional predi tor variables. In this work we evaluate two relatively similar methodologies whi h are used to deal with these problems prin ipal omponents regression and partial least squares regression.In food te hnology, it has emerged a ombination of prin ipal
omponents analysis and anoni al orrelation analysis. Both methods transform predi tor variables into arti ial variables, also alled omponents or latent variables. They are orthogonal and allow us to redu e the dimension of the predi tor variables spa e. Finally, by using only latent variables, we build the estimated regression model.
Key words : Partial least squares regression, Prin ipal Components.
Té ni as El análisis de omponentes prin ipales (PCA) Es una té ni a que ha sido utilizada por mu ho tiempo para de redu ir la dimensionalidad. Sin embargo, las primeras omponentes que se supone tienen la más alta variabilidad no ne esariamente mejoran la predi
ión uando se usa en regresión o en lasi a ión. (Mardia 1979) a Profesor asistente. E-mail: nrariasut.edu. o b Profesor titular. E-mail: salaman agrossogmail. om
1
Nelson Rodríguez & Guillermo Salaman a Grosso
2
Regresión por Mínimos Cuadrados Par iales ( Regresión PLS) La regresión por mínimos uadrados par iales (regresión PLS, por sus siglas en inglés), fue introdu ida por Herman Wold (1975) (Wold 2001, Wold et al. 2001) para ser apli ada en ien ias e onómi as y so iales. Sin embargo gra ias a las ontribu iones de su hijo Svante Wold, (Wold et al. 1984) ha ganado popularidad en el área de la quími a ono ida omo Chemometri s, en donde se analizan datos que se ara terizan por mu has variables predi toras, on problemas de multi olinealidad, y po as unidades experimentales en estudio. La idea motivadora de PLS fue heurísti a, por este motivo algunas de sus propiedades son todavía des ono idas a pesar de los progresos al anzados por Helland (1988), Hoskuldson (1988), Stone y Brooks (1990) y otros. La metodología PLS generaliza y ombina ara terísti as del Análisis de Componentes Prin ipales y Análisis de Regresión Múltiple (Draper & Smith 1981, Helland 2001). La demanda por esta metodología y la eviden ia de que trabaja bien, van en aumento y así, la metodología PLS está siendo apli ada en mu has ramas de la ien ia. En PLS, a diferen ia de Componentes Prin ipales, los datos de entrada además de la matriz de predi toras X, deben ontener una matriz de respuestas Y. X : matriz de variables predi toras, de orden n × p Y : matriz de variables dependientes, de orden de n × p
Objetivos del PLS • Para eliminar problemas de multi olinealidad de las variables predi toras que pueden ausar severos errores de predi
ión. • Sele
ión de variables o redu
ión de la dimensionalidad, para disminuir el tiempo de estima ión de la tasa de error de la fun ión lasi adora y a elerar el pro eso de predi
ión. • Para disminuir la arga omputa ional que se origina al onstruir y validar el lasi ador.
Regresión PLS univariado Es el aso de apli a ión de regresión PLS, uando Y es un ve tor (q = 1). Puede ser visto omo una transforma ión de las variables predi toras X , onsiderando su rela ión on el ve tor de respuestas Y de orden n × 1, obteniéndose omo resultado una matriz de omponentes o variables latentes no
orrela ionadas, T = (T1 , . . . , Tp ) de orden n × p (Geladi & Kowalski 1986a) Se debe notar que esto
ontrasta on el Análisis de Componentes Prin ipales, en el ual las omponentes son obtenidas usando sólo la matriz de predi toras X. El número de variables latentes T1 , . . . , Tk , donde k ≤ p, es determinado generalmente por el método de valida ión ruzada dejando una observa ión afuera, también llamado PRESS (Predi tion Sum of Squares). (Draper & Smith 1981, ?) La e ua ión de regresión estimada tomará la siguiente forma: yb = β0 + β1 T1 + β2 T2 + . . . + βk Tk
Sele
ión del número de omponentes El número de omponentes PLS ne esario para estimar un buen modelo de regresión, a partir del PLS UNIVARIADO, se elige por el riterio de minimiza ión de la suma de uadrados de residuales. XIX Simposio de Estadísti a (2009)
Mínimos Cuadrados Par iales PLS
3
Los métodos más usados Estima ión del PRESS (Predi tion Sum of Squares) (Geladi & Kowalski 1986b, Wold et al. 1984): Es un aso parti ular del método valida ión ruzada, onsiste de los siguientes pasos: 1. Estimar el modelo de regresión, ex luyendo la i-ésima observa ión, i = 1, 2, . . . , n 2. Cal ular la predi
ión de la observa ión que no fue in luida: ybi ,i = 1, 2, . . . , n 3. Cal ular el residual orrespondiente: ei = yi − ybi , i = 1, 2, . . . , n P 4. El PRESS promedio es al ulado por: 12 ni−1 e2i
Estima ión de la suma de uadrados de residuales por valida ión
ruzada (SCRv ) Es un método general de estima ión, onsiste de los siguientes pasos: (Qin 1998, Wold et al. 1984) 1. Permutar la muestra y dividirla en k partes; ada parte Vj , j = 1, . . . , k tiene aproximadamente n/k observa iones. Los valores más usados de k son 3, 10 ó n; uando k = n, el ál ulo se llama PRESS. 2. Estimar el modelo de regresión, ex luyendo una j-ésima parte (j = 1, . . . , k) 3. Con el modelo estimado al ular las predi
iones de las observa iones, que no fueron in luidas para estimar el modelo: ybij , j = 1, . . . , k, tal que xi ∈ Vj
4. Cal ular la suma de uadrados de residuales (SCR) orrespondiente: X (yij − ybij )2 j = 1, . . . , k SCRJ = i:xii ∈Vj
P 5. El SCRv promedio es al ulado por: n1 kj−1 SCRj El número de omponentes PLS que minimiza la suma de uadrados de residuales: Se elige de la siguiente manera: • Con base en la matriz de predi toras X(n×p) y el ve tor de lases Y(n×1) , se halla la matriz de
omponentes o variables latentes T(n×p) . • Estimar el promedio de la suma de uadrados de residuales PRESS o SCRVC del modelo de regresión Y sobre las primeras h- omponentes T1 , . . . , Th Enton es PRESS (h),h = 1, . . . , p • El número de omponentes PLS (h∗), que serán utilizados es obtenido por la siguiente regla: h∗ = m´ın(h > 1 : P RESS(h + 1) − P RESS(h) > 0)
Regresión PLS multivariado Es una generaliza ión de la regresión PLS univariado y se diferen ia de ésta porque aquí se tiene una matriz de variables respuesta Y(n×q) , además de la matriz de predi toras X(n×p) , on q < p (Eri kson et al. 1992). El propósito del PLS multivariado es en ontrar un onjunto de omponentes T1 , . . . , Tk , donde k ≤ p , que rindan buenos modelos lineales para todas las variables respuesta Y. El modelo estimado es de la siguiente forma: ybj = βj0 + βj1 T1 + βj2 T2 + . . . + βjk Tk XIX Simposio de Estadísti a (2009)
Nelson Rodríguez & Guillermo Salaman a Grosso
4
Clasi a ión Es un problema de análisis multivariado que onsiste en asignar individuos u objetos en uno de G grupos o lases. Para esto se ha e uso de una fun ión llamada lasi ador, la ual se onstruye on base a los datos observados que onforman la muestra en estudio. Hay dos tipos de problemas de lasi a ión (Mardia 1979) : En este aso se dispone de un onjunto de Observa iones multivariadas, para las uales se ono en a priori las lases a las que pertene en, es de ir la variable respuesta está denida. : En este aso se dispone de un onjunto de observa iones multivariadas, pero no se ono en las lases a las que pertene en.Aquí, no existe variable respuesta.
Ejemplo Calibra ión espe tro métri a (Al iaturi et al. 1998, Al iaturi et al. 1996) Suponga que tiene un pro eso quími o uyo rendimiento tiene 5 omponentes diferentes se usa un instrumento para prede ir la antidad de estos omponentes basados en un espe tro on el n de alibrar el instrumento se orre 20 ombina iones ono idas de 5 omponentes a través y se observa el espe tro los resultados son 20 espe tros on sus antidades de omponentes aso iados. Los PLS pueden ser usados para onstruir un modelo lineal predi tivo para las antidades de omponentes basados en el espe tro. Cada espe tro esta ompuesto de medidas de 1000 diferentes fre uen ias; estos son los niveles de los fa tores y las respuestas son las antidades de los 5 omponentes En el lado izquierdo de la tabla se muestran las varia iones individuales y a umuladas ontadas por los 10 primeros fa tores del PLS; para ambos los fa tores y las respuestas. Note que los 5 fa tores del PLS al ula para asi todos la varia ión en las respuestas, on el fa tor quinto al ulado para una por ión regular. Esto da una fuerte indi a ión que los 5 fa tores PLS son apropiados para modelar las 5 antidades de omponentes. El análisis de valida ión ruzada onrma esto: aunque el modelo on 9 fa tores PLS logra el mínimo absoluto de la suma de los uadrados prede idos (PRESS) esto es insigni ante mejor que el modelo on 5 fa tores. Los fa tores PLS son al ulados omo iertas ombina iones lineales de las amplitudes espe trales, las respuestas son prede idas linealmente basada en estos fa tores extraídos. Así, la fun ión lineal predi tiva para ada respuesta es también una ombina ión lineal de las amplitudes espe trales. La traza para el resultado predi tor de la primera respuesta es mostrada en la gura Note que una predi
ión PLS no esta aso iada on una úni a fre uen ia omo si fuera el aso donde tratáramos de es oger fre uen ias optimas para prede ir ada respuesta. En lugar, la predi
ión PLS es una fun ión de todos los fa tores entrantes en este aso, las predi
iones PLS pueden ser interpretadas
omo ontrastes entre bandas extensas de fre uen ias.
Metodología de trabajo 1. Lista de omponentes prin ipales on la propiedad de ortogonalidad extraídas por valida ión ruzada, que expliquen más del 70 % de la variabilidad total. XIX Simposio de Estadísti a (2009)
Mínimos Cuadrados Par iales PLS
5
2. Matriz de orrela iones de las omponentes prin ipales para observar el grado de aso ia ión eliminando problemas de multi olinealidad de las variables predi toras que pueden ausar severos errores de predi
ión. 3. Se determina la taza de error de lasi a ión por valida ión ruzada de ada uno de los lasi adores por ejemplo el análisis dis riminante lineal. Existen otros lasi adores tales omo: Regresión logísti a nominal (NLR), Regresión logísti a ordinal (OLR), Regresión logísti a (LR), aso multivariado. La obten ión de las mejores tasas de error por valida ión ruzada para ada onjunto de datos depende de la metodología on que se generó las omponentes PLS y del lasi ador utilizado. 4. Se presenta el grá o de las dos y tres primeras omponentes PLS de ada uno de los onjuntos de datos . Estas omponentes fueron generadas on ada una de las metodologías presentadas. Los grá os de los datos tendrán que lograr una buena separabilidad de grupos on dos o tres
omponentes, la mejor separabilidad se logra por ejemplo on omponentes a partir del algritmo MLRPLS. 5. Con la sele
ión de las omponentes PLS, se plantea la regresión lineal múltiple para ada omponente ( ombina ión lineal de los datos originales) y los modelos ajustados que obtengan predi
ión que presenten un mejor R-ajustado serán los elegidos para prede ir mejores respuestas ne esarias en los pro esos i investigativos. 6. En la parte omputa ional se utiliza la fun ión pr omp de el paquete R. y los módulos de programa ión del SAS, para desarrollar los algoritmos, para valida ión ruzada; una vez denidas las
omponentes prin ipales se utilizan los módulos de XLStat para PLS, Minitab y otro paquetes de la preferen ia del investigador, para onstruir los modelos de regresión estimados para predi
ión que es el objetivo del trabajo.
1. Con lusiones 1. Las omponentes PLS presentadas son ortogonales entre sí. Esta ara terísti a es fundamental para redu ir la dimensionalidad del espa io de predi toras y ser apli ados en la te nología de alimentos. 2. Las omponentes PLS generados a partir de las metodologías presentadas, son ombina iones lineales de las variables predi toras, así omo lo son las omponentes prin ipales y obtienen sus pondera iones a partir de las variables predi toras y del ve tor de respuestas; mientras que las
omponentes prin ipales lo ha en sólo a partir de las variables predi toras.
Referen ias Al iaturi, C. E., Es obar, M. E., De La Cruz, C. & Rin ón, C. (1998), `Predi
ión de propiedades de
arbones minerales por espe tros opia infrarroja y regresión de omponentes prin ipales', Memorias de las 10mas Jornadas Cientí o Té ni as de Ingeniería 2, QUI 40 QUI 45. Al iaturi, C. E., Es obar, M. E. & Vallejo, R. (1996), `Predi tion of oal properties by derivative drift spe tros opy', Fuel 34(4), 491499. de Jong, S., Wise, B. & Ri ker, N. (2001), `Canoni al partial least squares and ontinuum power regression', J. Chemometri s 15(2), 85100. Draper, N. & Smith, H. (1981), Applied Regression Analysis, Wiley, New York. Eri kson, C. L., Lysaght, M. J. & Callis, J. B. (1992), `Relationship between digital ltering and multivariate regression in quantitative analysis', Anal. Chem. 64(24), 1155A1163A. XIX Simposio de Estadísti a (2009)
6
Nelson Rodríguez & Guillermo Salaman a Grosso
Geladi, P. & Kowalski, B. R. (1986a), `An example of 2-blo k predi tive partial-least squares regression with simulated data', Anal. Chim. A ta 185, 117. Geladi, P. & Kowalski, B. R. (1986b), `Partial least squares regression: A tutorial', Anal. Chim. A ta 185, 1932. Helland, I. S. (2001), `Some theoreti al aspe ts of partial least square regression', Chemom. Intell. Lab. Syst. 58(2), 97107. Mardia, K. V. (1979), Multivariable Analysis, A ademi Press, New York. Martens, H. (2001), `Re ursive pls algorithms for adaptive data modeling', Chemom. Intell. Lab. Syst. 58, 8595. Qin, S. J. (1998), `Relationship between digital ltering and multivariate regression in quantitative analysis', Computers Chem. Eng. 22(4-5), 503514. Wold, S. (2001), `Personal memories of the early pls development', Anal. Chim. A ta 2, 8384. Wold, S., Ruke, A., Wold, H. & Dunn III, W. (1984), `The ollinearity problem in linear regression, the partial least squares (pls) approa h to generalized inverses', SIAM Journal of S ienti and Statisti al Computation 5(3), 735743. Wold, S., Trygg, J., Berglund, A. & Antti, H. (2001), `Rsome re ent developments in pls modeling', Chemom. Intell. Lab. Syst. 58(2), 131150.
XIX Simposio de Estadísti a (2009)