Tugas Analisis Regresi(anareg)

  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Tugas Analisis Regresi(anareg) as PDF for free.

More details

  • Words: 2,294
  • Pages: 18
Multikolinearitas Multikolinearitas adalah keadaan jika antara X dan X yang lain memiliki hubungan (diharapkan X dan Y berhubungan erat/korelasi dan X dan X tidak berhubungan/multikolinearitas).

Pengaruh Adanya Multikolinearitas : 1. Interpretasi koefisien regresi sebagai ukuran perubahan nilai variabel dependen ketika variabel independen yang berhubungan naik 1 unit sementara variabel independen lainnya konstan; tidak sepenuhnya dapat diaplikasikan ketika terjadi multikolinearitas. 2. Secara Individu koefisien regresi mungkin tidak signifikan secara statistik walaupun ada hubungan antara variabel dependen dengan seluruh variabel independen. 3. Penambahan atau pengurangan variabel independen akan merubah koefisien regresi. 4. Extra sum of Square dari variabel independen berubah-ubah tergantung dari variabel bebas yang ada dalam model. 5. Perkiraan standar deviasi dari koefisien regresi

menjadi besar ketika variabel

independen dari koefisien regresi saling berkorelasi. Cara mendiagnosa : a. Informal Diagnostic Adanya serious multikolinearitas : 1. Terjadi perubahan besar dalam koefisien regresi perkiraan ketika sebuah variabel ditambah atau dikurangi. 2. Hasil yang tidak signifikan dalam test individu koefisien regresi untuk variabel independen yang penting. 3. Tanda aljabar yang berlawanan untuk koefisien regresi perkiraan dengan teori atau pengalaman sebelumnya.

4. Koefisien korelasi sederhana yang besar antara pasangan variabel independen. 5. Confidence Interval yang lebar untuk koefisien regresi dari variabel independen yang penting. b. Formal Diagnostic Dengan melihat nilai Variance Inflation Factor(VIF). VIF mengukur seberapa besar varians dari penduga parameter meningkat besarnya dibandingkan dengan jika variable bebasnya tidak berkolerasi. Rumus untuk menentukan nilai VIF yaitu :

dimana

adalah koefisien determinasi berganda ketika Xk diregresikan dengan p-2 variabel X

lainnya dalam model. Nilai terbesar (VIF ) k digunakan untuk mengindikasikan adanya pelanggaran yang serius terhadap asumsi nonmultikolinieritas. Jika nilai terbesar (VIF ) k > 10, maka data mengalami multikolinieritas.

Cara Mengatasi (Remedial) Multikolinearitas : 1. Drop atau buang satu atau beberapa variabel independen dari model. 2. Karena kehadiran serious multikolinearitas mempengaruhi inferensia dibatasi hanya

untuk data yang tidak mengikuti pola multikolineritas. 3. Dalam model regresi polinom, bentuklah variabel independen dari selisih terhadap rataratanya. 4. Kadang kala bisa dengan menambah sampel atau case untuk menghilangkan pola

multikolinearitas. Selain beberapa cara tadi, terdapat cara lain untuk mengatasi multikolinearitas yaitu :  Dengan metode Principal Component(komponen utama) dalam pembentukan variabel

independen.

 Dengan metode Ridge Regression

RIDGE REGRESSION Ridge

regression

merupakan

suatu

metode

untuk

mengatasi

permasalahan

multikolinearitas dengan memodifikasi metode least square dengan tidak mempermasalahkan estimator bias dari koefisien regresi. Ridge regression ini dapat digunakan saat biasnya kecil dengan presisi yang lebih baik daripada estimator yang unbiased, karena estimator dengan bias kecil tersebut mempunyai peluang yang lebih besar untuk mendekati nilai parameternya.

Pada metode Ridge Regression modifikasi yang dilakukan hampir sama dengan transformasi korelasi pada Ordinary Least Square(OLS).

Transformasi pada OLS Persamaan Normal

Model Regresi yang di transformasi

korelasi Ridge Regression

Ridge Estimator Persamaan normal pada OLS dapat dirumuskan dalam

Jika semua variable ditransformasikan dengan transformasi korelasi, model regresinya akan ditransformasi menjadi ; dengan

Dan persamaan normalnya menjadi:

Dengan rXX adalah matriks korelasi dari variable bebas dan rYX adalah vector dari koefisien korelasi sederhana antara variable tak bebas dan tiap variable bebas.

rXX

rYX

 1  r 21 =     r( p −1)1

r12 1

 





r( p −1) 2



r1( p −1)  r2( p −1)     1 

 rY 1   r  Y2   =      ry ( p −1)  n

rik =

∑(x j =1

n

ji

− xi )( x jk − x k )

∑ ( x ji − xi ) 2 j =1

n

∑ (x j =1

jk

− xk ) 2

Dengan i = 1, 2, …, p-1 dan k = 1, 2, …, p-1 Penduga ridge regression yang terstandarisasi dibentukmdengan memasukkan suatu nilai bias konstan c ≥ 0 pada persamaan OLS. Formulanya adalah

Dengan bR adalah vector dari koefisien ridge regression yang terstandarkan,

Dan I adalah matriks identitas berukuran (p-1) x (p-1), dengan p = banyaknya parameter. Persamaan normal untuk ridge estimator juga dapat dituliskan sebagai :

Dengan demikian, solusi dari persamaan normal dengan koefisien ridge regression yang terstandarisasi adalah

Model regresi yang sudah ditransformasi kemudian dikembalikan menjadi bentuk awal, yaitu Yi = β0 + β1 X i1 + ... + βk X ik + ε i

Yang diestimasi menjadi ∧

Y

i

= b0 + b1 X i1 + ...+ bk X ik

 sY  R Dengan bk =  bk  sX 

k = 1, 2, …, p-1

b0 =Y −b1 X 1 −... −b p −1 X

p −1

Nilai VIF untuk koefisien ridge regression adalah elemen diagonal dari matriks (rXX + cI ) −1 rXX (rXX + cI ) −1

Batasan dalam ridge regression adalah penentuan nilai bias konstan (c) yang didasarkan pada subjektifitas atau pendapat peneliti. Nilai c dapat juga ditentukan dengan menggunakan sebuah grafik yang disebut ridge trace. Grafik ini menggambarkan penduga koefisien ridge regression sebagai fungsi dari c. Nilai c dipilih pada saat penduga koefisien ridge regression menjadi stabil dengan c yang minimum. Hal ini disebabkan semakin betambah nilai c, maka bias akan semakin besar. Pada ridge regression terdapat konstanta c yang nilainya ≥ 0. Jika c=0 ridge regression akan sama dengan OLS yang distandarkan. Saat c>0 koefisien ridge regression akan bias namun lebih stabil dibandingkan dengan OLS PROSEDUR :

1.

Tentukan Ridge Trace yaitu plot yang simultan dari nilai estimasi koefisien

regresi yang distandarkan(

) dengan berbagai kemungkinan nilai c. Biasanya nilai c

yang digunakan antara 0-1. Perubahan nilai

yang disebabkan oleh perubahan c

sangat fluktuatif, bahkan dapat terjadi perubahan tanda. 2.

3.

Tentkan nilai VIFk untuk masing-masing nilai c. Untuk menentukan model yang tepat, kita lihat nilai VIF yang mendekati 1,

karena estimasi koefisien regresinya akan lebih stabil. 4.

Lihat nilai

yang sesuai dengan nilai c berdasarkan VIF yang mendekati nilai 1

pada prosedur (3). 5.

Susun model ridge regresi dengan nilai

yang sesuai.

6.

Transformasikan kembali model pada prosedur (5) dengan rumus :

Contoh Soal: Table 1. contains data for a study of the relation of amount of body fat (Y) to several possible explanatory, independent variables, based on a sample of 20 healthy females 25-34 years old. The possible independent variables are triceps skinfold thickness (X1), thigh circumference (X2), and midarm circumference (X3). Table 1. Data of the X variable foe body fat example Subject (i)

Triceps Skinfold Thigh Thickness Circumference (X1) (X2)

Midarm Circumference (X3)

Body Fat (Y1)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

19.5 24.7 30.7 29.8 19.1 25.6 31.4 27.9 22.1 25.5 31.1 30.4 18.7 19.7 14.6 29.5 27.7 30.2 22.7 25.2

43.1 49.8 51.9 54.3 42.2 53.9 58.5 52.1 49.9 53.5 56.6 56.7 46.5 44.2 42.7 54.4 55.3 58.6 48.2 51.0

29.1 28.2 37.0 31.1 30.9 23.7 27.6 30.6 23.2 24.8 30.0 28.3 23.0 28.6 21.3 30.1 25.7 24.6 27.1 27.5

11.9 22.8 18.7 20.1 12.9 21.7 27.1 25.4 21.3 19.3 25.4 27.2 11.7 17.8 12.8 23.9 22.6 25.4 14.8 21.1

OUTPUT SPSS REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS BCOV R ANOVA COLLIN TOL /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT body_fat /METHOD=ENTER tricep_skinfold Thigh_circum midarm_circum.

Regression [DataSet1] G:\aNarEg.sav

Variables Entered/Removedb Variables

Variables

Model

Entered

Removed

Method

1

midarm_circum, .

Enter

Thigh_circum, tricep_skinfolda

a. All requested variables entered. b. Dependent Variable: body_fat

Model Summary Adjusted

R Std. Error of the

Model

R

R Square

Square

Estimate

1

.895a

.801

.764

2.47998

a.

Predictors:

(Constant),

midarm_circum,

Thigh_circum,

tricep_skinfold

ANOVAb Model 1

Sum of Squares df

Mean Square

F

Sig.

Regression

396.985

3

132.328

21.516

.000a

Residual

98.405

16

6.150

Total

495.389

19

a. Predictors: (Constant), midarm_circum, Thigh_circum, tricep_skinfold b. Dependent Variable: body_fat

Coefficientsa Standardized Unstandardized Coefficients

Coefficients

B

Std. Error

Beta

(Constant)

117.085

99.782

tricep_skinfold

4.334

3.016

Thigh_circum

-2.857

midarm_circum

-2.186

Model 1

Collinearity Statistics t

Sig.

Tolerance

VIF

1.173

.258

4.264

1.437

.170

.001

708.843

2.582

-2.929

-1.106

.285

.002

564.343

1.595

-1.561

-1.370

.190

.010

104.606

a. Dependent Variable: body_fat

Coefficient Correlationsa Model 1

Correlations

Covariances

midarm_circum

Thigh_circum

tricep_skinfold

midarm_circum

1.000

.994

-.995

Thigh_circum

.994

1.000

-.999

tricep_skinfold

-.995

-.999

1.000

midarm_circum

2.546

4.095

-4.788

Thigh_circum

4.095

6.667

-7.779

tricep_skinfold

-4.788

-7.779

9.093

a. Dependent Variable: body_fat

Collinearity Diagnosticsa Variance Proportions

Dimensi Model

on

Eigenvalue

Condition Index

(Constant)

tricep_skinfold

Thigh_circum

midarm_circum

1

1

3.968

1.000

.00

.00

.00

.00

2

.021

13.905

.00

.00

.00

.00

3

.012

18.566

.00

.00

.00

.01

4

8.648E-6

677.372

1.00

1.00

1.00

.99

a. Dependent Variable: body_fat

Ridge Regression Report

Page/Date/Time Database Dependent

1

1/28/2009 11:03:07 AM

Body_fat

Descriptive Statistics Section Variable Skinfold Thigh Midarm Body_fat

Count 20 20 20 20

Standard Deviation 5.023259 5.234612 3.647147 5.106185

Mean 25.305 51.17 27.62 20.195

Minimum 14.6 42.2 21.3 11.7

Correlation Matrix Section Skinfold Thigh Midarm Body_fat

Skinfold 1.000000 0.923843 0.457777 0.843265

Thigh 0.923843 1.000000 0.084667 0.878090

Midarm 0.457777 0.084667 1.000000 0.142444

Body_fat 0.843265 0.878090 0.142444 1.000000

Least Squares Multicollinearity Section Independent Variance R-Squared Variable Inflation Vs Other X's Tolerance Skinfold 708.8429 0.9986 0.0014 Thigh 564.3434 0.9982 0.0018 Midarm 104.6060 0.9904 0.0096 Since some VIF's are greater than 10, multicollinearity is a problem.

Eigenvalues of Correlations Incremental Cumulative Condition No. Eigenvalue Percent Percent Number 1 2.066473 68.88 68.88 1.00 2 0.932801 31.09 99.98 2.22 3 0.000727 0.02 100.00 2843.95 Some Condition Numbers greater than 1000. Multicollinearity is a SEVERE problem. Eigenvector of Correlations No. 1 2 3

Eigenvalue 2.066473 0.932801 0.000727

Skinfold 0.694696 -0.050106 0.717557

Thigh 0.629428 -0.440509 -0.640135

Midarm 0.348164 0.896349 -0.274482

Maximum 31.4 58.6 37 27.2

Dependent

Body_fat

Standardized Betas

Ridge Trace Section

RidgeTrace 6.00

Variables Skinfold Thigh Midarm

3.50

1.00

-1.50

-4.00

10 -4

10 -3

10 -2

K

10 -1

10 0

Ridge Regression Report

Dependent

Body_fat

VarianceInflationFactor Plot 10 3

Variables Skinfold Thigh Midarm

VIF

10 2

10 1

10 0

10 -1 10 -4

10 -3

10 -2

K

10 -1

10 0

Ridge Regression Report

Dependent

Body_fat

Standardized Ridge Regression Coefficients Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000

Skinfold 4.2637 2.0348 1.4407 1.1653 1.0063 0.9028 0.8300 0.7760 0.7343 0.7012 0.6742 0.5463 0.5463 0.5004 0.4760 0.4605 0.4494 0.4409 0.4341 0.4283 0.4234 0.3914 0.3703 0.3529 0.3377 0.3240 0.3116 0.3001 0.2896 0.2798

Thigh -2.9287 -0.9408 -0.4113 -0.1661 -0.0248 0.0670 0.1314 0.1791 0.2158 0.2448 0.2684 0.3774 0.3774 0.4134 0.4302 0.4392 0.4443 0.4471 0.4486 0.4491 0.4490 0.4347 0.4154 0.3966 0.3791 0.3629 0.3481 0.3344 0.3218 0.3101

Midarm -1.5614 -0.7087 -0.4813 -0.3758 -0.3149 -0.2751 -0.2472 -0.2264 -0.2103 -0.1975 -0.1870 -0.1369 -0.1369 -0.1181 -0.1076 -0.1005 -0.0952 -0.0909 -0.0873 -0.0841 -0.0812 -0.0613 -0.0479 -0.0376 -0.0295 -0.0229 -0.0174 -0.0129 -0.0091 -0.0059

Ridge Regression Report

Dependent

Body_fat

Variance Inflation Factor Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000

Skinfold 708.8429 125.7309 50.5592 27.1750 16.9816 11.6434 8.5033 6.5013 5.1472 4.1887 3.4855 1.1026 1.1026 0.6257 0.4528 0.3705 0.3244 0.2956 0.2761 0.2621 0.2515 0.2053 0.1838 0.1676 0.1540 0.1423 0.1319 0.1227 0.1145 0.1071

Thigh 564.3434 100.2740 40.4483 21.8376 13.7247 9.4759 6.9764 5.3827 4.3046 3.5413 2.9813 1.0805 1.0805 0.6969 0.5553 0.4859 0.4454 0.4189 0.3998 0.3852 0.3735 0.3078 0.2686 0.2383 0.2137 0.1930 0.1755 0.1604 0.1473 0.1358

Midarm 104.6060 19.2810 8.2797 4.8562 3.3628 2.5799 2.1185 1.8238 1.6238 1.4817 1.3770 1.0105 1.0105 0.9235 0.8814 0.8531 0.8306 0.8111 0.7934 0.7769 0.7614 0.6342 0.5385 0.4634 0.4033 0.3544 0.3140 0.2802 0.2516 0.2273

Ridge Regression Report

Dependent

Body_fat

K Analysis Section k 0.000000 0.001000 0.002000 0.003000 0.004000 0.005000 0.006000 0.007000 0.008000 0.009000 0.010000 0.020000 0.020000 0.030000 0.040000 0.050000 0.060000 0.070000 0.080000 0.090000 0.100000 0.200000 0.300000 0.400000 0.500000 0.600000 0.700000 0.800000 0.900000 1.000000

R2 0.8014 0.7888 0.7852 0.7832 0.7819 0.7809 0.7801 0.7794 0.7787 0.7781 0.7776 0.7726 0.7726 0.7681 0.7639 0.7597 0.7556 0.7515 0.7475 0.7436 0.7397 0.7031 0.6702 0.6405 0.6134 0.5887 0.5659 0.5449 0.5254 0.5073

Sigma 2.4800 2.5570 2.5791 2.5907 2.5984 2.6043 2.6092 2.6135 2.6174 2.6210 2.6244 2.6534 2.6534 2.6793 2.7040 2.7278 2.7511 2.7738 2.7961 2.8178 2.8392 3.0321 3.1954 3.3363 3.4596 3.5687 3.6661 3.7538 3.8333 3.9056

B'B 29.1945 5.5277 2.4763 1.5267 1.1124 0.8953 0.7673 0.6855 0.6300 0.5906 0.5615 0.4596 0.4596 0.4352 0.4233 0.4151 0.4084 0.4026 0.3973 0.3922 0.3874 0.3460 0.3120 0.2833 0.2586 0.2372 0.2185 0.2021 0.1875 0.1744

Ave VIF 459.2641 81.7620 33.0957 17.9563 11.3564 7.8997 5.8661 4.5693 3.6918 3.0706 2.6146 1.0645 1.0645 0.7487 0.6298 0.5698 0.5335 0.5085 0.4898 0.4748 0.4621 0.3824 0.3303 0.2898 0.2570 0.2299 0.2071 0.1878 0.1711 0.1567

Max VIF 708.8429 125.7309 50.5592 27.1750 16.9816 11.6434 8.5033 6.5013 5.1472 4.1887 3.4855 1.1026 1.1026 0.9235 0.8814 0.8531 0.8306 0.8111 0.7934 0.7769 0.7614 0.6342 0.5385 0.4634 0.4033 0.3544 0.3140 0.2802 0.2516 0.2273

Ridge Regression Report

Dependent

Body_fat

Ridge vs. Least Squares Comparison Section for k = 0.020000 Regular Regular Stand'zed Stand'zed L.S. Independent Ridge L.S. Ridge L.S. Standard Variable Coeff's Coeff's Coeff's Coeff's Error Intercept -7.403425 117.0847 Skinfold 0.555353 4.334092 0.5463 4.2637 3.015511 Thigh 0.3681445 -2.856848 0.3774 -2.9287 2.582015 Midarm -0.1916269 -2.18606 -0.1369 -1.5614 1.595499 R-Squared Sigma

0.7726 2.6534

Ridge Standard Error 0.1272458 0.1208832 0.1677828

0.8014 2.4800

Ridge Regression Coefficient Section for k = 0.020000 Independent Variable Intercept Skinfold Thigh Midarm

Regression Coefficient -7.403425 0.555353 0.3681445 -0.1916269

Standard Error

Stand'zed Regression Coefficient

VIF

0.5463 0.3774 -0.1369

1.1026 1.0805 1.0105

0.1272458 0.1208832 0.1677828

Analysis of Variance Section for k = 0.020000 Sum of Mean Source DF Squares Square Intercept 1 8156.761 8156.761 Model 3 382.739 127.5797 Error 16 112.6505 7.040655 Total(Adjusted) 19 495.3895 26.07313 Mean of Dependent Root Mean Square Error R-Squared Coefficient of Variation

F-Ratio

Prob Level

18.1204

0.000021

20.195 2.653423 0.7726 0.1313901

Residual Plots Section Normal Probability Plot of Residuals of Body_fat Residuals of Body_fat

Histogram of Residuals of Body_fat 6.0

Count

4.5

3.0

1.5

4.0

2.0

0.0

-2.0

-4.0 -2.0

0.0 -4.0

-2.0

0.0

Residuals of Body_fat

2.0

4.0

-1.0

0.0

Expected Normals

1.0

2.0

DAFTAR PUSTAKA http://www.stat.purdue.edu/~jennings/stat512/notes/topic5a.pdf Neter, John. Dkk. Applied Linear Regression Models. Second edition. 1989.

Related Documents