Multikolinearitas Multikolinearitas adalah keadaan jika antara X dan X yang lain memiliki hubungan (diharapkan X dan Y berhubungan erat/korelasi dan X dan X tidak berhubungan/multikolinearitas).
Pengaruh Adanya Multikolinearitas : 1. Interpretasi koefisien regresi sebagai ukuran perubahan nilai variabel dependen ketika variabel independen yang berhubungan naik 1 unit sementara variabel independen lainnya konstan; tidak sepenuhnya dapat diaplikasikan ketika terjadi multikolinearitas. 2. Secara Individu koefisien regresi mungkin tidak signifikan secara statistik walaupun ada hubungan antara variabel dependen dengan seluruh variabel independen. 3. Penambahan atau pengurangan variabel independen akan merubah koefisien regresi. 4. Extra sum of Square dari variabel independen berubah-ubah tergantung dari variabel bebas yang ada dalam model. 5. Perkiraan standar deviasi dari koefisien regresi
menjadi besar ketika variabel
independen dari koefisien regresi saling berkorelasi. Cara mendiagnosa : a. Informal Diagnostic Adanya serious multikolinearitas : 1. Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel ditambah atau dikurangi. 2. Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel independen yang penting. 3. Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau pengalaman sebelumnya.
4. Koefisien korelasi sederhana yang besar antara pasangan variabel independen. 5. Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang penting. b. Formal Diagnostic Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak berkolerasi. Rumus untuk menentukan nilai VIF yaitu :
dimana
adalah koefisien determinasi berganda ketika Xk diregresikan dengan p-2 variabel X
lainnya dalam model. Nilai terbesar (VIF ) k digunakan untuk mengindikasikan adanya pelanggaran yang serius terhadap asumsi nonmultikolinieritas. Jika nilai terbesar (VIF ) k > 10, maka data mengalami multikolinieritas.
Cara Mengatasi (Remedial) Multikolinearitas : 1. Drop atau buang satu atau beberapa variabel independen dari model. 2. Karena kehadiran serious multikolinearitas mempengaruhi inferensia dibatasi hanya
untuk data yang tidak mengikuti pola multikolineritas. 3. Dalam model regresi polinom, bentuklah variabel independen dari selisih terhadap rataratanya. 4. Kadang kala bisa dengan menambah sampel atau case untuk menghilangkan pola
multikolinearitas. Selain beberapa cara tadi, terdapat cara lain untuk mengatasi multikolinearitas yaitu : Dengan metode Principal Component(komponen utama) dalam pembentukan variabel
independen.
Dengan metode Ridge Regression
RIDGE REGRESSION Ridge
regression
merupakan
suatu
metode
untuk
mengatasi
permasalahan
multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.
Pada metode Ridge Regression modifikasi yang dilakukan hampir sama dengan transformasi korelasi pada Ordinary Least Square(OLS).
Transformasi pada OLS Persamaan Normal
Model Regresi yang di transformasi
korelasi Ridge Regression
Ridge Estimator Persamaan normal pada OLS dapat dirumuskan dalam
Jika semua variable ditransformasikan dengan transformasi korelasi, model regresinya akan ditransformasi menjadi ; dengan
Dan persamaan normalnya menjadi:
Dengan rXX adalah matriks korelasi dari variable bebas dan rYX adalah vector dari koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.
rXX
rYX
1 r 21 = r( p −1)1
r12 1
r( p −1) 2
r1( p −1) r2( p −1) 1
rY 1 r Y2 = ry ( p −1) n
rik =
∑(x j =1
n
ji
− xi )( x jk − x k )
∑ ( x ji − xi ) 2 j =1
n
∑ (x j =1
jk
− xk ) 2
Dengan i = 1, 2, …, p-1 dan k = 1, 2, …, p-1 Penduga ridge regression yang terstandarisasi dibentukmdengan memasukkan suatu nilai bias konstan c ≥ 0 pada persamaan OLS. Formulanya adalah
Dengan bR adalah vector dari koefisien ridge regression yang terstandarkan,
Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter. Persamaan normal untuk ridge estimator juga dapat dituliskan sebagai :
Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang terstandarisasi adalah
Model regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal, yaitu Yi = β0 + β1 X i1 + ... + βk X ik + ε i
Yang diestimasi menjadi ∧
Y
i
= b0 + b1 X i1 + ...+ bk X ik
sY R Dengan bk = bk sX
k = 1, 2, …, p-1
b0 =Y −b1 X 1 −... −b p −1 X
p −1
Nilai VIF untuk koefisien ridge regression adalah elemen diagonal dari matriks (rXX + cI ) −1 rXX (rXX + cI ) −1
Batasan dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan pada subjektifitas atau pendapat peneliti. Nilai c dapat juga ditentukan dengan menggunakan sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias akan semakin besar. Pada ridge regression terdapat konstanta c yang nilainya ≥ 0. Jika c=0 ridge regression akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun lebih stabil dibandingkan dengan OLS PROSEDUR :
1.
Tentukan Ridge Trace yaitu plot yang simultan dari nilai estimasi koefisien
regresi yang distandarkan(
) dengan berbagai kemungkinan nilai c. Biasanya nilai c
yang digunakan antara 0-1. Perubahan nilai
yang disebabkan oleh perubahan c
sangat fluktuatif, bahkan dapat terjadi perubahan tanda. 2.
3.
Tentkan nilai VIFk untuk masing-masing nilai c. Untuk menentukan model yang tepat, kita lihat nilai VIF yang mendekati 1,
karena estimasi koefisien regresinya akan lebih stabil. 4.
Lihat nilai
yang sesuai dengan nilai c berdasarkan VIF yang mendekati nilai 1
pada prosedur (3). 5.
Susun model ridge regresi dengan nilai
yang sesuai.
6.
Transformasikan kembali model pada prosedur (5) dengan rumus :
Contoh Soal: Table 1. contains data for a study of the relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 25-34 years old. The possible independent variables are triceps skinfold thickness (X1), thigh circumference (X2), and midarm circumference (X3). Table 1. Data of the X variable foe body fat example Subject (i)
Triceps Skinfold Thigh Thickness Circumference (X1) (X2)
Midarm Circumference (X3)
Body Fat (Y1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2
43.1 49.8 51.9 54.3 42.2 53.9 58.5 52.1 49.9 53.5 56.6 56.7 46.5 44.2 42.7 54.4 55.3 58.6 48.2 51.0
29.1 28.2 37.0 31.1 30.9 23.7 27.6 30.6 23.2 24.8 30.0 28.3 23.0 28.6 21.3 30.1 25.7 24.6 27.1 27.5
11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1
OUTPUT SPSS REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT body_fat /METHOD=ENTER tricep_skinfold Thigh_circum midarm_circum.
Regression [DataSet1] G:\aNarEg.sav
Variables Entered/Removedb Variables
Variables
Model
Entered
Removed
Method
1
midarm_circum, .
Enter
Thigh_circum, tricep_skinfolda
a. All requested variables entered. b. Dependent Variable: body_fat
Model Summary Adjusted
R Std. Error of the
Model
R
R Square
Square
Estimate
1
.895a
.801
.764
2.47998
a.
Predictors:
(Constant),
midarm_circum,
Thigh_circum,
tricep_skinfold
ANOVAb Model 1
Sum of Squares df
Mean Square
F
Sig.
Regression
396.985
3
132.328
21.516
.000a
Residual
98.405
16
6.150
Total
495.389
19
a. Predictors: (Constant), midarm_circum, Thigh_circum, tricep_skinfold b. Dependent Variable: body_fat
Coefficientsa Standardized Unstandardized Coefficients
Coefficients
B
Std. Error
Beta
(Constant)
117.085
99.782
tricep_skinfold
4.334
3.016
Thigh_circum
-2.857
midarm_circum
-2.186
Model 1
Collinearity Statistics t
Sig.
Tolerance
VIF
1.173
.258
4.264
1.437
.170
.001
708.843
2.582
-2.929
-1.106
.285
.002
564.343
1.595
-1.561
-1.370
.190
.010
104.606
a. Dependent Variable: body_fat
Coefficient Correlationsa Model 1
Correlations
Covariances
midarm_circum
Thigh_circum
tricep_skinfold
midarm_circum
1.000
.994
-.995
Thigh_circum
.994
1.000
-.999
tricep_skinfold
-.995
-.999
1.000
midarm_circum
2.546
4.095
-4.788
Thigh_circum
4.095
6.667
-7.779
tricep_skinfold
-4.788
-7.779
9.093
a. Dependent Variable: body_fat
Collinearity Diagnosticsa Variance Proportions
Dimensi Model
on
Eigenvalue
Condition Index
(Constant)
tricep_skinfold
Thigh_circum
midarm_circum
1
1
3.968
1.000
.00
.00
.00
.00
2
.021
13.905
.00
.00
.00
.00
3
.012
18.566
.00
.00
.00
.01
4
8.648E-6
677.372
1.00
1.00
1.00
.99
a. Dependent Variable: body_fat
Ridge Regression Report
Page/Date/Time Database Dependent
1
1/28/2009 11:03:07 AM
Body_fat
Descriptive Statistics Section Variable Skinfold Thigh Midarm Body_fat
Count 20 20 20 20
Standard Deviation 5.023259 5.234612 3.647147 5.106185
Mean 25.305 51.17 27.62 20.195
Minimum 14.6 42.2 21.3 11.7
Correlation Matrix Section Skinfold Thigh Midarm Body_fat
Skinfold 1.000000 0.923843 0.457777 0.843265
Thigh 0.923843 1.000000 0.084667 0.878090
Midarm 0.457777 0.084667 1.000000 0.142444
Body_fat 0.843265 0.878090 0.142444 1.000000
Least Squares Multicollinearity Section Independent Variance R-Squared Variable Inflation Vs Other X's Tolerance Skinfold 708.8429 0.9986 0.0014 Thigh 564.3434 0.9982 0.0018 Midarm 104.6060 0.9904 0.0096 Since some VIF's are greater than 10, multicollinearity is a problem.
Eigenvalues of Correlations Incremental Cumulative Condition No. Eigenvalue Percent Percent Number 1 2.066473 68.88 68.88 1.00 2 0.932801 31.09 99.98 2.22 3 0.000727 0.02 100.00 2843.95 Some Condition Numbers greater than 1000. Multicollinearity is a SEVERE problem. Eigenvector of Correlations No. 1 2 3
Eigenvalue 2.066473 0.932801 0.000727
Skinfold 0.694696 -0.050106 0.717557
Thigh 0.629428 -0.440509 -0.640135
Midarm 0.348164 0.896349 -0.274482
Maximum 31.4 58.6 37 27.2
Dependent
Body_fat
Standardized Betas
Ridge Trace Section
RidgeTrace 6.00
Variables Skinfold Thigh Midarm
3.50
1.00
-1.50
-4.00
10 -4
10 -3
10 -2
K
10 -1
10 0
Ridge Regression Report
Dependent
Body_fat
VarianceInflationFactor Plot 10 3
Variables Skinfold Thigh Midarm
VIF
10 2
10 1
10 0
10 -1 10 -4
10 -3
10 -2
K
10 -1
10 0
Ridge Regression Report
Dependent
Body_fat
Standardized Ridge Regression Coefficients Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000
Skinfold 4.2637 2.0348 1.4407 1.1653 1.0063 0.9028 0.8300 0.7760 0.7343 0.7012 0.6742 0.5463 0.5463 0.5004 0.4760 0.4605 0.4494 0.4409 0.4341 0.4283 0.4234 0.3914 0.3703 0.3529 0.3377 0.3240 0.3116 0.3001 0.2896 0.2798
Thigh -2.9287 -0.9408 -0.4113 -0.1661 -0.0248 0.0670 0.1314 0.1791 0.2158 0.2448 0.2684 0.3774 0.3774 0.4134 0.4302 0.4392 0.4443 0.4471 0.4486 0.4491 0.4490 0.4347 0.4154 0.3966 0.3791 0.3629 0.3481 0.3344 0.3218 0.3101
Midarm -1.5614 -0.7087 -0.4813 -0.3758 -0.3149 -0.2751 -0.2472 -0.2264 -0.2103 -0.1975 -0.1870 -0.1369 -0.1369 -0.1181 -0.1076 -0.1005 -0.0952 -0.0909 -0.0873 -0.0841 -0.0812 -0.0613 -0.0479 -0.0376 -0.0295 -0.0229 -0.0174 -0.0129 -0.0091 -0.0059
Ridge Regression Report
Dependent
Body_fat
Variance Inflation Factor Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000
Skinfold 708.8429 125.7309 50.5592 27.1750 16.9816 11.6434 8.5033 6.5013 5.1472 4.1887 3.4855 1.1026 1.1026 0.6257 0.4528 0.3705 0.3244 0.2956 0.2761 0.2621 0.2515 0.2053 0.1838 0.1676 0.1540 0.1423 0.1319 0.1227 0.1145 0.1071
Thigh 564.3434 100.2740 40.4483 21.8376 13.7247 9.4759 6.9764 5.3827 4.3046 3.5413 2.9813 1.0805 1.0805 0.6969 0.5553 0.4859 0.4454 0.4189 0.3998 0.3852 0.3735 0.3078 0.2686 0.2383 0.2137 0.1930 0.1755 0.1604 0.1473 0.1358
Midarm 104.6060 19.2810 8.2797 4.8562 3.3628 2.5799 2.1185 1.8238 1.6238 1.4817 1.3770 1.0105 1.0105 0.9235 0.8814 0.8531 0.8306 0.8111 0.7934 0.7769 0.7614 0.6342 0.5385 0.4634 0.4033 0.3544 0.3140 0.2802 0.2516 0.2273
Ridge Regression Report
Dependent
Body_fat
K Analysis Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000
R2 0.8014 0.7888 0.7852 0.7832 0.7819 0.7809 0.7801 0.7794 0.7787 0.7781 0.7776 0.7726 0.7726 0.7681 0.7639 0.7597 0.7556 0.7515 0.7475 0.7436 0.7397 0.7031 0.6702 0.6405 0.6134 0.5887 0.5659 0.5449 0.5254 0.5073
Sigma 2.4800 2.5570 2.5791 2.5907 2.5984 2.6043 2.6092 2.6135 2.6174 2.6210 2.6244 2.6534 2.6534 2.6793 2.7040 2.7278 2.7511 2.7738 2.7961 2.8178 2.8392 3.0321 3.1954 3.3363 3.4596 3.5687 3.6661 3.7538 3.8333 3.9056
B'B 29.1945 5.5277 2.4763 1.5267 1.1124 0.8953 0.7673 0.6855 0.6300 0.5906 0.5615 0.4596 0.4596 0.4352 0.4233 0.4151 0.4084 0.4026 0.3973 0.3922 0.3874 0.3460 0.3120 0.2833 0.2586 0.2372 0.2185 0.2021 0.1875 0.1744
Ave VIF 459.2641 81.7620 33.0957 17.9563 11.3564 7.8997 5.8661 4.5693 3.6918 3.0706 2.6146 1.0645 1.0645 0.7487 0.6298 0.5698 0.5335 0.5085 0.4898 0.4748 0.4621 0.3824 0.3303 0.2898 0.2570 0.2299 0.2071 0.1878 0.1711 0.1567
Max VIF 708.8429 125.7309 50.5592 27.1750 16.9816 11.6434 8.5033 6.5013 5.1472 4.1887 3.4855 1.1026 1.1026 0.9235 0.8814 0.8531 0.8306 0.8111 0.7934 0.7769 0.7614 0.6342 0.5385 0.4634 0.4033 0.3544 0.3140 0.2802 0.2516 0.2273
Ridge Regression Report
Dependent
Body_fat
Ridge vs. Least Squares Comparison Section for k = 0.020000 Regular Regular Stand'zed Stand'zed L.S. Independent Ridge L.S. Ridge L.S. Standard Variable Coeff's Coeff's Coeff's Coeff's Error Intercept -7.403425 117.0847 Skinfold 0.555353 4.334092 0.5463 4.2637 3.015511 Thigh 0.3681445 -2.856848 0.3774 -2.9287 2.582015 Midarm -0.1916269 -2.18606 -0.1369 -1.5614 1.595499 R-Squared Sigma
0.7726 2.6534
Ridge Standard Error 0.1272458 0.1208832 0.1677828
0.8014 2.4800
Ridge Regression Coefficient Section for k = 0.020000 Independent Variable Intercept Skinfold Thigh Midarm
Regression Coefficient -7.403425 0.555353 0.3681445 -0.1916269
Standard Error
Stand'zed Regression Coefficient
VIF
0.5463 0.3774 -0.1369
1.1026 1.0805 1.0105
0.1272458 0.1208832 0.1677828
Analysis of Variance Section for k = 0.020000 Sum of Mean Source DF Squares Square Intercept 1 8156.761 8156.761 Model 3 382.739 127.5797 Error 16 112.6505 7.040655 Total(Adjusted) 19 495.3895 26.07313 Mean of Dependent Root Mean Square Error R-Squared Coefficient of Variation
F-Ratio
Prob Level
18.1204
0.000021
20.195 2.653423 0.7726 0.1313901
Residual Plots Section Normal Probability Plot of Residuals of Body_fat Residuals of Body_fat
Histogram of Residuals of Body_fat 6.0
Count
4.5
3.0
1.5
4.0
2.0
0.0
-2.0
-4.0 -2.0
0.0 -4.0
-2.0
0.0
Residuals of Body_fat
2.0
4.0
-1.0
0.0
Expected Normals
1.0
2.0
DAFTAR PUSTAKA http://www.stat.purdue.edu/~jennings/stat512/notes/topic5a.pdf Neter, John. Dkk. Applied Linear Regression Models. Second edition. 1989.