Regresi Linier Multivariat FERDIANA YUNITA DEPT IKK-IKM FKUPNVJ 2016 BESRAL: Departemen Biostatistika FKM UI, 2012
1
03/28/19
ANALISIS MULTIVARIAT Definisi= Menghubungkan beberapa var independen dng satu var dependen Kenapa Perlu Multivariat ?
Pada bidang kesmas: ● outcome/akibat --- tak mungkin penyebab tunggal ● outcome/akibat ---multi faktor Mis: agent, host & lingk Kontribusi murni masing-masing faktor setelah mempertimbangkan faktor laindigunakan analis multivariat
Kegunaan multivariat:
1.Mengetahui pengaruh murni/efek bersih masing-masing variabel 2.Mengetahui faktor yang paling dominan
2
03/28/19
ANALISIS MULTIVARIAT Untuk mengetahui pengaruh murni/efek bersih : a.
Rancangan Eksperimen : variabel lain dikontrol
b.
Rancangan studi: responden dipilih dengan cara Matching
(misal: subjeknya tikus dari induk yg sama)
(misal: subjeknya dari umur yg sama, sex sama, pendidikan sama, pekerjaan sama, ekonomi sama, tempat tinggal sama) c.
Pengontrol pada tahap analisis statistik ---- ANALISIS MULTIVARIAT
Syarat kecukupan sampel multivariat: Satu variabel = 15 kejadian sampel 3
10 variabel = 150
03/28/19
Jenis Analisis Multivariat 1. Metode Dependensi:
(independen
dependen) A. dependen satu variabel - numerik : regresi linier ganda - katagorik : regresi Logistik ganda B. dependen beberapa variabel - numerik : Manova, GLM-repeated - kategorik : Kanonikal
2. Metode Interdependensi : tidak ada var independen dan dependen : pemetaan/pengelompokan variabel - numerik : cluster, faktor analisis - katagorik : Multi dimensional scaling 4
03/28/19
Jenis Analisis Multivariat 1. Metode Dependensi:
(independen dependen)
A. dependen satu variabel - numerik : regresi linier ganda - katagorik : regresi Logistik ganda B. dependen beberapa variabel - numerik : Manova, GLM-repeated - kategorik : Kanonikal
2. Metode Interdependensi : tidak ada var independen dan dependen : pemetaan/pengelompokan variabel - numerik : cluster, faktor analisis - katagorik : Multi dimensional scaling 5
03/28/19
ANALISIS MULTIVARIAT 1. Regresi linier Ganda
var dependen = numerik var independen = numerik dan kategorik 2. Regresi logistik Ganda var dependen = kategorik var independen = kategorik dan numerik 3. Regresi Cox Ganda var dependen = time (survival) var independen = kategorik dan numerik
6
03/28/19
REGRESI LINIER Regresi linier sederhana: Y = a + bx Regresi linier ganda: Y = a +b1x1 + b2x2 + …. + bnxn
7
03/28/19
FUNGSI REGRESI LINIER GANDA 1.
2. 3. 4. 5.
8
Menetapkan model matematik yang paling baik utk menggambarkan hubungan var. indep dan var dep. Sig < 0,05 Menggambarkan hubungan kuantitatif antara var. indep (x) dng var dep (y) setelah dikontrol var. lain coef.B Mengetahui variabel x yang dominan dlm memprediksi var. dep Standardized Beta Mengetahui adanya interaksi pada dua atau lebih var. independen thd variabel dependen Memprediksi var dep (Y) dari beberapa var indep (X) R 2 harus > 60% 03/28/19
ASUMSI REGRESI LINIER GANDA 1.HOMOSCEDASTICITY Varian nilai variabel Y sama untuk semua nilai var. X Homoscedasticity : Plot residual membentuk tebaran merata diatas dan dibawah garis tengah nol Heteroscedasticity: tebaran residual mengelompok dibawah/diatas garis tengah nol 2. EKSISTENSI Var. dep. Y merupakan variabel random pada setiap nilai var. independen X. Sampel diambil random, asumsi ini terpenuhi bila residual menunjukan nilai : mean = 0.0 9
03/28/19
ASUMSI REGRESI LINIER GANDA 3. INDEPENDENSI Masing-masing var Y bebas satu sama lain, tidak boleh diukur dua kali. Asumsi terpenuhi: angka Durbin Watson antara -2 s/d 2 4. LINEARITAS Nilai mean dari var. Y untuk suatu kombinasi X1, X2, dst terletak pada grs linier yg dibentuk persamaan regresi Asumsi terpenuhi: hasil Uji Anova regresi hasilnya signifikan 5. NORMALITAS Var. Y berdistribusi normal utk setiap pengamatan variabel X. Asumsi terpenuhi bila Grafik Normal P-P plot residual, titik tebarannya menyebar sekitar garis diagonal. Sebaliknya bila tebaran data menjauhi garis diagonal maka asumsi tidak terpenuhi
10
03/28/19
PEMODELAN REGRESI LINIER GANDA “memasukan sebanyak mungkin variabel indep ?” - Banyak variabel hanya aspek statistik - Banyak variabel overfitting, Std.Error terlalu besar Lalu ? - Memasukan variabel– ada aspek substansi dan statistik - Sebaiknya variabel yg masuk sedikit, namun cukup baik utk menjelaskan hubungannya dng var. dependen Model yg baik ? R Square besar namun var. Indep jumlahnya sedikit
11
03/28/19
PEMODELAN REGRESI LINIER GANDA Langkah : 1.
Melakukan seleksi bivariat: bila p value < 0,25 dapat lanjut ke multivariat. Namun kalau ada var yang secara substansi penting walaupun p valuenya > 0,25 variabel tsb dapat masuk ke multivariat (Metode terkini: Tidak perlu seleksi bivariat)
2. Melakukan pemodelan multivariat: Memasukkan secara bersamaan seluruh var indep ke model multivariat. Variabel yang p valuenya besar dikeluarkan dari model multivariat satu per satu. Ketentuannya: - Variabel yg p valuenya < 0,05 tetap dalam model. - Variabel yg p valuenya > 0,05 dikeluarkan dari model satu persatu, dimulai dari variabel yg p valuenya terbesar. (untuk var dg kategori lebih dari satu, lihat p value terkecil) - Bila var yg dikeluarkan tsb mengakibatkan perubahan besar koefisien variabel2 lain dalam model (berubah > 10 %), maka var tsb adalah konfounding dan dimasukkan kembali ke dalam model.
12
03/28/19
PEMODELAN REGRESI LINIER GANDA 3.Melakukan Diagnostik regresi linier a. Pengujian asumsi, termasuk b. Pengujian Kolinearitas, antar independen terjadi hub yg sangat kuat : r ≥ 0,8. Atau nilai VIF > 10 4. Uji interaksi Hubungan antara var. indep dan var. dep, berbeda menurut tingkat var indep yg lain. Penentuan var interaksi pertimbangan substansi 5. Reliabilitas Model Sampel di bagi dua, bila kedua sampel menghasil model yg sama, maka model regresi sudah reliabel 13
03/28/19
REGRESI LINIER (seleksi bivariat) P-value 0.219 0.010
1. Age-Umur (..th) 2. lwt-Berat badan (..pound)
0.009
3. smoke-Merokok (Y/N)
0.034
4. ptl-Prematur (…kali)
Berat bayi
0.045
5. ht-Hipertensi (Y/N)
(gram)
0.426
6. ftv-anc
0.008
7. Race (White, black, other)
0.000
8. ui-Uterine irritability (Y/N)
14
(…kali)
03/28/19
SELEKSI VARIABEL : Analisis`Bivariat dengan Korelasi
Umur = 0,219, bera ibu=0,010, anc=0,425, prematur =0,034. Variabel anc p value > 0,25 namun krn secara substansi penting, maka variabel anc lanjut ke multivariat 15
03/28/19
Bivariat dng uji t
Hasil p value merokok = 0,009, p value < 0,25 berarti masuk ke multivariat
16
03/28/19
Bivariat uji t
P value hipertensi = 0,045, p value < 0,25 maka lanjut ke multivariat 17
03/28/19
Pemodelan Multivariat
1. Umur (..th) 2. Berat badan (..pound) 3. Merokok (Y/N) 4. Prematur (…kali) 5. Hipertensi (Y/N) 6. anc 18
(…kali) 03/28/19
Pemodelan Multivariat
Model Summary Model 1
R .340a
R Square .116
Adjusted R Square .086
Std. Error of the Estimate 696.829
a. Predictors: (Constant), No physician visits in first trimester, Smoking status, History of hypertension, History of premature labor, Age of mother, Weight of mother (pounds)
Coefficientsa
Model 1
(Constant) Age of mother Weight of mother (pounds) Smoking status History of premature labor History of hypertension No physician visits in first trimester
Unstandardized Coefficients B Std. Error 2315.862 299.442 7.162 10.022
Standardized Coefficients Beta .052
t 7.734 .715
Sig. .000 .476
4.793
1.777
.201
2.698
.008
-232.253 -154.002 -574.230
105.928 106.574 215.481
-.156 -.104 -.193
-2.193 -1.445 -2.665
.030 .150 .008
-2.847
49.705
-.004
-.057
.954
a. Dependent Variable: Birth weight (gram)
19
Tahap berikutnya, evaluasi seleksi variabel dengan batas p value < 0,05 Dari nilai p diatas, variabel umur, prematur, anc memiliki p value > 0,05 shg harus keluar dari model. ANC Pvalue yg tertinggi, maka dikeluarkan terlebih dahulu 03/28/19
Model Summary Model 1
Pemodelan Multivariat
R .340a
R Square .116
Adjusted R Square .091
Std. Error of the Estimate 694.929
a. Predictors: (Constant), History of hypertension, Smoking status, Age of mother, History of premature labor, Weight of mother (pounds)
Coefficientsa
Model 1
(Constant) Age of mother Weight of mother (pounds) Smoking status History of premature labor History of hypertension
Unstandardized Coefficients B Std. Error 2317.608 297.074 7.051 9.807
Standardized Coefficients Beta .051
t 7.801 .719
Sig. .000 .473
4.781
1.759
.201
2.718
.007
-232.224 -153.747 -573.011
105.638 106.191 213.841
-.156 -.104 -.192
-2.198 -1.448 -2.680
.029 .149 .008
a. Dependent Variable: Birth weight (gram)
Setelah anc keluar terlihat R square tdk berubah, dan Coef B Untuk masing-masing juga tak berubah besar ( > 10 %) 20
03/28/19
Perubahan coef. B Variabel
Anc msih ada
Anc dikeluarkan
perubahan Coef.
Age bwt smoke ptl hi ftv
7,1 4,7 -232,2 -154,0 -574,2 -2,8
7,0 4,7 -232,2 153,7 573,0 -
1,4 % 0% 0% 0,1 % 0,1 %
Koefisien B tidak ada yang berubah > 10 % sehingga variabel anc dikeluarkan dari model Tahap selanjutnya variabel umur dikeluarkan dari model 21
03/28/19
Pemodelan Multivariat Model Summary Model 1
R .336a
R Square .113
Adjusted R Square .094
Std. Error of the Estimate 694.016
a. Predictors: (Constant), History of hypertension, Smoking status, History of premature labor, Weight of mother (pounds) Coefficientsa
Model 1
(Constant) Weight of mother (pounds) Smoking status History of premature labor History of hypertension
Unstandardized Coefficients B Std. Error 2449.121 233.779
Standardized Coefficients Beta
t 10.476
Sig. .000
5.035
1.721
.211
2.925
.004
-236.420 -145.412 -582.566
105.338 105.417 213.148
-.159 -.098 -.195
-2.244 -1.379 -2.733
.026 .169 .007
a. Dependent Variable: Birth weight (gram)
Setelah umur keluar, ternyata R Square berubah sedikit, dari 0,116 menjadi 0,113. 22
Untuk koefisien B perubahannya sbb:
03/28/19
Perubahan nilai coef. B Variabel
Masih lengkap
Age bwt smoke ptl hi ftv
7,1 4,7 -232,2 -154,0 -574,2 -2,847
umur dikeluarkan 5,0 -236,4 145,4 582,5 -
perubahan Coef. 6,3 % 1,8 % 5,6 % 1,5 %
Dari hasil perhitungan perubahan coef. Ternyata tidak ada yang lebih dari 10 %, dengan demikian variabel umur dikeluarkan dari model. Langkah selanjutnya mengeluarkan riwayat prematur 23
03/28/19
Model tanpa prematur Model Summary Model 1
R .322a
R Square .104
Adjusted R Square .089
Std. Error of the Estimate 695.707
a. Predictors: (Constant), History of hypertension, Smoking status, Weight of mother (pounds) Coefficientsa
Model 1
(Constant) Weight of mother (pounds) Smoking status History of hypertension
Unstandardized Coefficients B Std. Error 2390.105 230.391
Standardized Coefficients Beta
t 10.374
Sig. .000
5.352
1.710
.224
3.130
.002
-263.009 -586.722
103.812 213.646
-.177 -.197
-2.534 -2.746
.012 .007
a. Dependent Variable: Birth weight (gram)
R square berubah dari 0,113 menjadi 0,104. Sedangkan untuk koef B perubahannya sbb: 24
03/28/19
Perubaha n nilai coef.
Variabel Age bwt smoke ptl hi ftv
Masih lengkap 7,1 4,7 -232,2 -154,0 -574,2 -2,847
Prematur keluar
perubahan Coef.
5,3 -236,4 582,5 -
11,7 % 13,2 % 2,2 %
Hasil perhitungan setelah dikeluarkan variabel prematur, ternyata coef.B pada variabel berat ibu (bwt) berubah sebesar 11,7 % dan smoke berubah 13,2%, dengan demikian riwayat prematur mempengaruhi hubungan antara Berat ibu dg berat bayi, dan hubungan antara smoke dg berat bayi. Riwayat prematur merupakan KONFOUNDING, harus masuk kembali ke dalam model Dari hasil analisis ternyata tidak ada lagi yang p value-nya > 0,05 dengan demikian proses pencarian variabel yang masuk dalam model telah selesai dan model yang terakhir adalah sbb, setelah prematur dimasukkan kembali: 25
03/28/19
Model Akhir
Model Summaryb Model 1
R .336a
R Square .113
Adjusted R Square .094
Std. Error of the Estimate 694.016
DurbinWatson .222
a. Predictors: (Constant), History of premature labor, History of hypertension, Smoking status, Weight of mother (pounds) b. Dependent Variable: Birth weight (gram)
Coefficientsa
Mo de l 1
Unstandardized Coefficients
(Constant) Weight of mother (pounds) Smoking status History of hypertension History of premature labor
B 2449.121
Std. Error 233.779
5.035
1.721
-236.420 -582.566 -145.412
Stand ardize d Coeffi cients Beta
Collinearity Statistics Tolera nce VIF
t 10.476
Sig. .000
.211
2.925
.004
.925
1.081
105.338 213.148
-.159 -.195
-2.244 -2.733
.026 .007
.964 .943
1.037 1.060
105.417
-.098
-1.379
.169
.947
1.056
a. Dependent Variable: Birth weight (gram)
26
03/28/19
Uji asumsi 1. Eksistensi
Setelah didapatkan model yang parsimony, maka harus dilakukan pengujian terhadap asumsi regresi linier ganda
Hasil dari output diatas menunjukkan angka residual dengan mean 0,000 Dengan demikian asumsi Eksistensi terpenuhi 27
03/28/19
2. Asumsi Independensi Suatu keadaan dimana masing-masing nilai Y bebas satu sama lain. Untuk mengetahui asumsi ini dilakukan uji Durbin Watson, bila nilai Durbin berkisar –2 s.d +2 berarti asumsi independensi terpenuhi, sebaliknya bila nilai Durbin < -2 atau > +2 berarti asumsi tidak terpenuhi
Dari hasil uji didapatkan koefisien Durbin Watson 1,452, berarti asumsi independensi terpenuhi. 03/28/19 28
3. Asumsi liniearitas Nilai mean dari variabel Y untuk suatu kombinasi X1, X2, X3, …, Xk terletak pada garis/bidang linier yang dibentuk dari persamaan regresi. Untuk mengetahui asumsi linieritas dapat diketahui dari uji ANOVA (overall F test) bila hasilnya signifilan (p value
Regression Residual Total
Sum of Squares 11291987 88625066 99917053
df 4 184 188
Mean Square 2822996.778 481657.965
F 5.861
Sig. .000a
a. Predictors: (Constant), History of premature labor, History of hypertension, Smoking status, Weight of mother (pounds) b. Dependent Variable: Birth weight (gram)
Dari output diatas menghasilkan uji anova 0,000, berarti asumsi linearitas terpenuhi 29
03/28/19
4. Asumsi homoscedascity R e g r e s s io n S t u d e n t iz e d R e s id u a l
Analisa scatter-plot antara Nilai prediksi standar (ZPRED) dengan nilai residu standar (ZRESID) Scatterplot Dependent Variable: Birth weight (gram) 3 2 1 0 -1 -2 -3 -4 -3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
30
Dari hasil plot diatas terlihat tebaran titik mempunyai pola tertentu, titik-titik menyebar diatas dan dibawah titik 0,0. Dengan demikian asumsi homoscedasity terpenuhi 03/28/19
5. Multivariat normaliti
31
Histogram memperlihatkan distribusi normal & pada P-P plot nilai residual berhimpit dengan garis diagonal Kedua grafik tersebut menggambarkan asumsi Normalitas terpenuhi 03/28/19
Multicollinearity
Coefficientsa
Mo de l 1
Unstandardized Coefficients
(Constant) Weight of mother (pounds) Smoking status History of hypertension History of premature labor
B 2449.121
Std. Error 233.779
5.035
1.721
-236.420 -582.566 -145.412
Stand ardize d Coeffi cients Beta
Collinearity Statistics Tolera nce VIF
t 10.476
Sig. .000
.211
2.925
.004
.925
1.081
105.338 213.148
-.159 -.195
-2.244 -2.733
.026 .007
.964 .943
1.037 1.060
105.417
-.098
-1.379
.169
.947
1.056
a. Dependent Variable: Birth weight (gram)
Dari hasil uji asumsi didapatkan nilai VIF tidak lebih dari 10, dengan demikian tidak ada Multicollinearity antara sesama variabel indepeden
32
Dari hasil uji asumsi dan uji kolinearitas ternyata semua asumsi terpenuhi sehingga model dapat digunakan untuk memprediksi berat badan bayi.
03/28/19
Model Summaryb
Model Akhir
Model 1
Model 1
R .336a
R Square .113
Std. Error of the Estimate 694.016
R Square .113
Adjusted R Square .094
Std. Error of the Estimate 694.016
DurbinWatson .222
a. Predictors: (Constant), History of premature labor, History of hypertension, Smoking status, Weight of mother (pounds)
Model Summaryb Adjusted R Square .094
R .336a
DurbinWatson .222
b. Dependent Variable: Birth weight (gram)
a. Predictors: (Constant), History of premature labor, History of hypertension, Smoking status, Weight of mother (pounds) b. Dependent Variable: Birth weight (gram)
Mo de l 1
Coefficientsa
Stand ardize Berat Bayi = 2449,1+5,0 Lwt – 236,4 smoke d --582Hi Berat Bayi = 2449,1+5,0 Lwt – 236,4 smoke 582Hi––145,4 145,4Ptl Ptl Unstandardized Coeffi Collinearity Coefficients cients Statistics Tolera B Std. Error Beta t Sig. nce VIF (Constant) 2449.121 233.779 10.476 .000 Weight of mother 5.035 1.721 .211 2.925 .004 .925 1.081 (pounds) Smoking status -236.420 105.338 -.159 -2.244 .026 .964 1.037 History of hypertension -582.566 213.148 -.195 -2.733 .007 .943 1.060 History of premature -145.412 105.417 -.098 -1.379 .169 .947 1.056 labor
a. Dependent Variable: Birth weight (gram)
33
Dengan model persamaan ini, kita dapat memperkirakan berat badan bayi , namun model ini hanya dapat menjelaskan 11,3% variasi pada berat bayi, 88,7% lagi ditentukan oleh variabel lain yang tidak diteliti 03/28/19
Interpretasi Berat BeratBayi Bayi==2449,1+5,0 2449,1+5,0Lwt Lwt––236,4 236,4smoke smoke--582Hi 582Hi––145,4 145,4Ptl Ptl
- Setiap kenaikan berat badan ibu sebesar 1 pound, maka berat badan bayi akan naik sebesar 5,0 gram setelah dikontrol variabel merokok, hipertensi dan prematur - Pada ibu yang merokok berat bayinya akan lebih rendah sebesar 236,4 gram setelah dikontrol variabel berat badan, hipertensi dan prematur. - Pada ibu yang menderita hipertensi,berat bayinya akan lebih rendah sebesar 582,5 gram setelah dikontrol variabel berat badan ibu,merokok dan prematur. Kolom Beta dapat digunakan untuk mengetahui variabel mana yang paling besar peranannya (pengaruhnya) dalam menentukan variabel dependennya (berat badan bayi). Semakin besar nilai beta semakin besar pengaruh nya terhadap variabel dependennya. Pada hasil di atas berarti variabel yang paling besar pengaruhnya terhadap penentuan berat badan bayi adalah berat badan ibu.. 34
03/28/19