RIDGE REGRESSION Kelompok 2: Umi Salamah
(05.4934)
Evi Wahyu P
(06.5049)
Fandi Kusuma
(06.5052)
Imelda Lestari
(06.5089)
Mulatsih Mahambari (06.5144) Rina Nopita M
(06.5192)
Yogo Aryo Jatmiko
(06.5256)
Multikolinieritas (1) Adalah keadaan dimana X dan Y yang lain memiliki
hubungan. Cara mendiagnosa : Informal Diagnostic Adanya serious multikolinearitas : Ø Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel ditambah atau dikurangi. Ø Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel independen yang penting. Ø Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau pengalaman sebelumnya. Ø Koefisien korelasi sederhana yang besar antara pasangan variabel independen. Ø Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang penting.
Multikolinieritas (2)
Formal Diagnostic Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak berkolerasi. Rumus untuk menentukan nilai VIF yaitu :
dimana adalah koefisien determinasi berganda ketika Xk diregresikan dengan p-2 variabel X lainnya dalam model. Jika nilai VIF > 10, maka data mengalami multikolinieritas. Salah satu cara mengatasi multikolinieritas adalah dengan metode ridge regression.
Ridge Regression(1) Ridge regression merupakan suatu metode
untuk mengatasi permasalahan multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.
Ridge Regression(2) Transformasi korelasi pada OLS Persamaan Normal
Model Regresi yang di transformasi
Ridge Regression
Ridge Regression(3) Persaman Normal pada OLS dapat dirumuskan
dengan:
Jika
semua variable ditransformasikan dengan transformasi korelasi, model regresinya akan ditransformasi menjadi :
Dan persamaan normalnya menjadi:
Dengan rxx adalah matriks korelasi dari variable bebas dan rxy adalah vector dari koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.
Ridge Regression(4) Penduga
ridge regression yang terstandarisasi dibentuk dengan memasukkan suatu nilai bias konstan pada persamaan OLS. Formulanya adalah:
Dengan bR adalah vector dari koefisien ridge regression yang terstandarkan. Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter. Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang terstandarisasi adalah
Ridge Regression(5) Model
regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal, yaitu
Yang diestimasi menjadi :
Batasan
dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan pada subjektifitas atau pendapat peneliti.
Ridge Regression(6) Nilai
c dapat juga ditentukan dengan menggunakan sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias akan semakin besar. Pada ridge regression terdapat konstanta c yang nilainya ≥ 0. Jika c=0 ridge regression akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun lebih stabil dibandingkan dengan OLS
Contoh Soal Table 1. contains data for a study of the
relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 2534 years old. The possible independent variables are triceps skinfold thickness (X1), thigh circumference (X2), and midarm circumference (X3).
Table 1. Data of the X variable for body fat example Subject (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Triceps Skinfold Thickness (X1) 19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2
Thigh Circumference (X2) 43.1 49.8 51.9 54.3 42.2 3.9 58.5 52.1 49.9 53.5 56.6 56.7 46.5 44.2 42.7 54.4 55.3 58.6 48.2 51.0
Midarm Circumference (X3) 29.1 28.2 37.0 31.1 30.9 23.7 27.6 30.6 23.2 24.8 30.0 28.3 23.0 28.6 21.3 30.1 25.7 24.6 27.1 27.5
Body Fat (Y1) 11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1
Hasil Pengerjaan Dengan NCSS Correlation Matrix Section Triceps Triceps 1.000000 Thigh 0.923843 Midarm 0.457777 body_fat 0.843265
Thigh 0.923843 1.000000 0.084667 0.878090
Midarm 0.457777 0.084667 1.000000 0.142444
Least Squares Multicollinearity Section Independent Variance R-Squared Variable Inflation Vs Other X's Tolerance Triceps 708.8429 0.9986 0.0014 Thigh 564.3434 0.9982 0.0018 Midarm 104.6060 0.9904 0.0096 Since some VIF's are greater than 10, multicollinearity is a problem.
body_fat 0.843265 0.878090 0.142444 1.000000
Standardized Ridge Regression Coefficients Section k Triceps Thigh Midarm 0.000000 4.2637 -2.9287 -1.5614 0.001000 2.0348 -0.9408 -0.7087 0.002000 1.4407 -0.4113 -0.4813 0.003000 1.1653 -0.1661 -0.3758 0.004000 1.0063 -0.0248 -0.3149 0.005000 0.9028 0.0670 -0.2751 0.006000 0.8300 0.1314 -0.2472 0.007000 0.7760 0.1791 -0.2264 0.008000 0.7343 0.2158 -0.2103 0.009000 0.7012 0.2448 -0.1975 0.010000 0.6742 0.2684 -0.1870 0.020000 0.5463 0.3774 -0.1369 0.020000 0.5463 0.3774 -0.1369 0.030000 0.5004 0.4134 -0.1181 0.040000 0.4760 0.4302 -0.1076 0.050000 0.4605 0.4392 -0.1005 0.060000 0.4494 0.4443 -0.0952 0.070000 0.4409 0.4471 -0.0909 0.080000 0.4341 0.4486 -0.0873 0.090000 0.4283 0.4491 -0.0841 0.100000 0.4234 0.4490 -0.0812 0.200000 0.3914 0.4347 -0.0613 0.300000 0.3703 0.4154 -0.0479 0.400000 0.3529 0.3966 -0.0376 0.500000 0.3377 0.3791 -0.0295 0.600000 0.3240 0.3629 -0.0229 0.700000 0.3116 0.3481 -0.0174 0.800000 0.3001 0.3344 -0.0129 0.900000 0.2896 0.3218 -0.0091 1.000000 0.2798 0.3101 -0.0059
Variance Inflation Factor Section k Triceps Thigh 0.000000 708.8429 564.3434 0.001000 125.7309 100.2740 0.002000 50.5592 40.4483 0.003000 27.1750 21.8376 0.004000 16.9816 13.7247 0.005000 11.6434 9.4759 0.006000 8.5033 6.9764 0.007000 6.5013 5.3827 0.008000 5.1472 4.3046 0.009000 4.1887 3.5413 0.010000 3.4855 2.9813 0.020000 1.1026 1.0805 0.020000 1.1026 1.0805 0.030000 0.6257 0.6969 0.040000 0.4528 0.5553 0.050000 0.3705 0.4859 0.060000 0.3244 0.4454 0.070000 0.2956 0.4189 0.080000 0.2761 0.3998 0.090000 0.2621 0.3852 0.100000 0.2515 0.3735 0.200000 0.2053 0.3078 0.300000 0.1838 0.2686 0.400000 0.1676 0.2383 0.500000 0.1540 0.2137 0.600000 0.1423 0.1930 0.700000 0.1319 0.1755 0.800000 0.1227 0.1604 0.900000 0.1145 0.1473 1.000000 0.1071 0.1358
Midarm 104.6060 19.2810 8.2797 4.8562 3.3628 2.5799 2.1185 1.8238 1.6238 1.4817 1.3770 1.0105 1.0105 0.9235 0.8814 0.8531 0.8306 0.8111 0.7934 0.7769 0.7614 0.6342 0.5385 0.4634 0.4033 0.3544 0.3140 0.2802 0.2516 0.2273
Ridge vs. Least Squares Comparison Section for k = 0.020000 Independent Variable Intercept Triceps Thigh Midarm R-Squared Sigma
Regular Ridge Coeff's -7.403425 0.555353 0.3681445 -0.1916269 0.7726 2.6534
Regular L.S. Coeff's 117.0847 4.334092 -2.856848 -2.18606 0.8014 2.4800
Stand'zed Stand'zed Ridge L.S. Coeff's Coeff's
Ridge L.S. SE SE
0.5463 0.3774 -0.1369
0.1272458 3.015511 0.1208832 2.582015 0.1677828 1.595499
4.2637 -2.9287 -1.5614
Ridge Regression Coefficient Section for k = 0.020000 Independent Variable Intercept Triceps Thigh Midarm
Regression Coefficient -7.403425 0.555353 0.3681445 -0.1916269
Standard Error 0.1272458 0.1208832 0.1677828
Stand'zed Regression Coefficient
VIF
0.5463 0.3774 -0.1369
1.1026 1.0805 1.0105
Analysis of Variance Section for k = 0.020000 Source Intercept Model Error Total(Adjusted)
DF 1 3 16 19
Mean of Dependent Root Mean Square Error R-Squared Coefficient of Variation
Sum of Squares 8156.761 382.739 112.6505 495.3895 20.195 2.653423 0.7726 0.1313901
Mean Prob Square F-Ratio Level 8156.761 127.5797 18.1204 0.000021 7.040655 26.07313
Ridge Trace
Standardized Betas
6.00
Variables Triceps Thigh Midarm
3.50
1.00
-1.50
-4.00
10 -4
10 -3
10 -2
K
10 -1
10 0
Variance Inflation Factor Plot 10 3
Variables Triceps Thigh Midarm
VIF
10 2
10 1
10 0
10 -1 10 -4
10 -3
10 -2
K
10 -1
10 0