Kelas B LAPORAN PRAKTIKUM ANALISIS REGRESI TERAPAN Modul 6: Regresi Logistik
Nama Praktikan
Nomor Mahasiswa
Tanggal Kumpul
Zetta Nillawati Reyka Putri
17611090
11-12-18
Nama Penilai
Tanggal Koreksi
Nilai
Tanda Tangan Praktikan
Tanda tangan Asisten
Dosen
Munaffidzul Ihsan Shelly Ila Amalia Dina Tri Utari, S.Si., M.Sc
JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS ISLAM INDONESIA YOGYAKARTA 2018
Daftar Isi Daftar Isi.................................................................................................................. ii Daftar Gambar ........................................................................................................ iii 1 Pendahuluan .................................................................................................... 1 1.1 Regresi Logistik ...................................................................................... 1 1.2 Persamaan Regresi Logistik .................................................................... 2 2 Deskripsi Kerja................................................................................................ 3 2.1 Studi Kasus ............................................................................................. 3 2.2 Langkah Kerja ......................................................................................... 4 3 Pembahasan ..................................................................................................... 6 3.1 Regresi Logistik ...................................................................................... 6 4 Penutup.......................................................................................................... 10 4.1 Kesimpulan ........................................................................................... 10 5 Daftar Pustaka ............................................................................................... 11
ii
Daftar Gambar Gambar 1.1 Data studi kasus ................................................................................. 3 Gambar 2.1 Ikon RStudio....................................................................................... 4 Gambar 2.2 Tampilan awal RStudio ...................................................................... 4 Gambar 2.3 Sintaks input data............................................................................... 4 Gambar 2.4 Sintaks proporsi kemacetan kredit ..................................................... 4 Gambar 2.5 Sintaks penguncian dan pengacakan data .......................................... 4 Gambar 2.6 Sintaks pembagian data ..................................................................... 5 Gambar 2.7 Sintaks analisis regresi logistik .......................................................... 5 Gambar 2.8 Sintaks prediksi nilai kredit ............................................................... 5 Gambar 2.9 Sintaks plot ROCR ............................................................................. 5 Gambar 2.10 Sintaks menghitung tingkat akurasi data ......................................... 5 Gambar 3.1 Data studi kasus dalam RStudio ......................................................... 6 Gambar 3.2 Output untuk menghitung tingkat kemacetan kredit kendaraan ........ 6 Gambar 3.3 Output penguncian dan perandoman data ......................................... 7 Gambar 3.4 Output pembagian data, training dan testing..................................... 7 Gambar 3.5 Output analisis regresi logistik .......................................................... 7 Gambar 3.6 Output prediksi .................................................................................. 8 Gambar 3.7 Output ROCR curve ........................................................................... 9 Gambar 3.8 Output untuk akurasi data tes ............................................................ 9
iii
1 Pendahuluan 1.1
Regresi Logistik Regresi linier seperti yang kita ketahui tidak dapat menyelesaikan kasus
dimana variabel dependen bersifat dikotomi dan kategori dengan dua atau lebih kemungkinan (contoh→ sukses atau gagal; terpilih atau tidak terpilih; lulus atau tidak lulus; melakukan pembelian atau tidak; mendapat promosi atau tidak, dan lain-lain). Regresi logistik umumnya melibatkan berbagai macam variabel prediktor baik numerik ataupun kategorik, termasuk variabel dummy. Pada regresi linier, variabel prediktor yang digunakan biasanya numerik, tetapi jika kita melibatkan
campuran
antara
numerik
maupun
kategorik
kita
dapat
menggunakan regresi logistik. Regresi
logistik
membentuk
persamaan
atau
fungsi
dengan
pendekatan maximum likelihood, yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Dua nilai yang biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (contoh→ 1=berhasil, 0=gagal). Regresi
logistik menghasilkan
rasio
peluang
(odds
ratios)
antara
keberhasilan atau kegagalan suatu dari analisis. Dapat kita contohkan dengan seorang tokoh yang ingin menjadi presiden, akan lebih baik peluangnya jika menjadi ketua partai politik tertentu. Disini odds ratio yang dimaksud adalah seberapa besar peluang tokoh tersebut dengan mempertimbangkan variabel prediktor yang ada. Regresi logistik akan membentuk variabel prediktor/respon (log (p/(1-p)) yang merupakan kombinasi linier dari variabel independen. Nilai variabel prediktor ini kemudian ditransformasikan menjadi probabilitas dengan fungsi logis. Asumsi-asumsi dalam regresi logistik
Tidak mengasumsikan hubungan linier antar variabel dependen dan independen
Variabel dependen harus bersifat dikotomi (2 variabel) 1
Variabel independen tidak harus memiliki keragaman yang sama antar kelompok variabel
Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif
Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data untuk sebuah variabel prediktor (bebas).
1.2
Persamaan Regresi Logistik Regresi logistik menghasilkan rasio peluang yang dinyatakan dengan
transformasi fungsi logaritma (log), dengan demikian fungsi transformasi log ataupun ln diperlukan untuk p-value, dengan demikian dapat dinyatakan bahwa logit(p) merupakan log dari peluang (odds ratio) atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1, dengan demikian persamaan regresi logistik menjadi: logit(p) = log (p/1-p) = ln (p/1-p) dimana p bernilai antara 0-1. Model yang digunakan pada regresi logistik adalah: Log (P / 1 – p) = β0 + β1X1 + β2X2 + …. + βkXk Dimana p adalah kemungkinan bahwa Y = 1, dan X1, X2, X3 adalah variabel independen, dan b adalah koefisien regresi. Hipotesis dalam regresi logistik antara lain: h0= ketika persamaan regresi bernilai 0 [logit(p) = 0]. h1= persamaan regresi berbeda nyata dari 0 [logit(p) ≠ 0].
2
2 Deskripsi Kerja 2.1
Studi Kasus Sebuah perusahaan pembiayaan sepeda motor ingin mengetahui faktor-
faktor apa daja yang mempengaruhi sebuah kredit kendaraan dapat mengalami kemacetan. Data digunakan sampel sebanyak 35 peminjam untuk mencari penyebab dimana faktor-faktor yang dicurigai diantaranya, DP (Besar uang muka), jangka waktu pembayaran, umur peminjam, dan pendiikan peminjam. Variabel
Kode
Kredit (Status kredit)
DP (Uang muka)
Kategori
0
Tidak macet
1
Macet
0
> Rp1,5 jt
1
≤ Rp1,5 jt
Jangka waktu pembayaran
Numerik
Umur pemohon
Numerik
Pendidikan pemohon
0
Perguruan Tinggi
1
SMA
2
≤ SMP
Dan berikut ini pada Gambar 1.1 merupakan data yang akan dianalisis menggunakan analisis regresi logistik menggunakan software R.
Gambar 1.1 Data studi kasus 3
2.2
Langkah Kerja Berikut ini adalah langkah kerja untuk menyelesaikan studi kasus.
1. Langkah pertama praktikan membuka software RStudio dengan double klik pada ikon RStudio.
Gambar 2.1 Ikon RStudio 2. Lalu akan muncul tampilan seperti pada Gambar 2.2.
Gambar 2.2 Tampilan awal RStudio 3. Praktikan menginput data studi kasus ke dalam RStudio dengan sintaks sebagai berikut pada Gambar 2.3.
Gambar 2.3 Sintaks input data 4. Praktikan mencari tahu proporsi kemacetan kredit dengan sintaks pada Gambar 2.3 berikut.
Gambar 2.4 Sintaks proporsi kemacetan kredit 5. Praktikan mengunci dan mengacak data dengan sintaks sepeti Gambar 2.5 dan mengaktifkan package “caTools”.
Gambar 2.5 Sintaks penguncian dan pengacakan data 4
6. Lalu praktikan membagi ke 35 data menjadi dua (data train dan data test).
Gambar 2.6 Sintaks pembagian data 7. Setelah data dibagi dua, langkah selanjutnya praktikan menganalisis regresi logistik.
Gambar 2.7 Sintaks analisis regresi logistik 8. Selanjutnya praktikan memprediksi nilai kredit dengan sintaks sebagai berikut pada Gambar 2.8.
Gambar 2.8 Sintaks prediksi nilai kredit 9. Praktikan membuat plot dengan ROCR.
Gambar 2.9 Sintaks plot ROCR 10. Praktikan mencari tingkat akurasi data dengan sintaks berikut pada Gambar 2.10.
Gambar 2.10 Sintaks menghitung tingkat akurasi data
5
3 Pembahasan 3.1
Regresi Logistik Sebelum menyelesaikan studi kasus yang diberikan, praktikan tentunya
memuat data studi kasus ke dalam RStudio dan berikut ini pada Gambar 3.1 merupakan 35 data studi kasus yang akan dicari nilai regresinya.
Gambar 3.1 Data studi kasus dalam RStudio Dari data kemacetan pembayaran kredit kendaraan yang telah dibangkitkan, praktikan tidak langsung meregresikannya akan tetapi praktikan terlebih dahulu melihat apakah kridit kendaraan tersebut benar-benar macet atau tidak, dan berikut ini pada Gambar 3.2 merupakan keputusannya.
Gambar 3.2 Output untuk menghitung tingkat kemacetan kredit kendaraan Pada output pertama yaitu ada 25 untuk 0 (tidak macet) dan 15 untuk 1 (macet) itu artinya ada 25 data kredit kendaraan yang tidak macet dan 15 data yang menunjukkan bahwa kredit macet. Output yang kedua yaitu 0,57 yang menunjukkan bahwa 57% kredit kendaraan tidak macet. Untuk yang selanjutnya praktikan mengunci data kredit kendaraan dan seperti pada output data yang ada 6
di random sebanyak 88 kali. Akan tetapi sebelumnya mengaktifkan terlebih dahulu package “caTools”.
Gambar 3.3 Output penguncian dan perandoman data Penguncian data telah dilakukan dan selanjutnya praktikan membagi data menjadi
dua
yaitu
terdiri
atas
training
data
yang digunakan
untuk
membentuk/membangun model dan testing data untuk mengetes model atau seberapa akurat model yang didapatkan. Dilihat dari output yang tertera pada Gambar 3.4 diketahui sebanyak 26 data akan digunakan untuk membentuk model dan 9 data digunakan untuk menguji seberapa akurat model yang didapatkan nantinya. Pembagian data telah dilakukan, praktikan menganalisis regresi logistik dan mendapatkan output seperti pada Gambar 3.5.
Gambar 3.4 Output pembagian data, training dan testing Beirikut ini pada Gambar 3.5 merupakan output regresi logistik dari data kredit.
Gambar 3.5 Output analisis regresi logistik 7
Setelah melihat output regresi logistik pada Gambar 3.5 dapat disimpulkan bahwa data yang ada tidak signifikan karena dilihat dari p-valuenya tidak ada yang memenuhi atau dalam kata lain apabila menggunakan tingkat signifikansi sebesar 0,05 hanya variabel jangka waktu yang memenuhi p-value (0,0380) < 𝛼 (0,05) atau signifikan terhadap model jadi apabila variabel dikeluarkan satu-satu dari regresi nanti hasilnya akan menjadi lebih tidak logis, karena itu untuk uji regresi logistik tersebut tidak ada uji parsialnya. Sehingga persamaan regresinya menjadi: 𝑌 = 5,40257 + 1,94625𝑋1 − 0,18502𝑋2 − 0,12828𝑋3 + 1,42363𝑋4 Interpretasi: Dengan menganggap faktor lain konstan, setiap perubahan satu satuan 𝑋1 menyebabkan perubahan 𝑌 sebesar 1,94625 , 𝑋2 menyebabkan perubahan 𝑌 sebesar −0,1850, 𝑋3 menyebabkan perubahan 𝑌 sebesar −0,12828, dan 𝑋4 menyebabkan perubahan 𝑌 sebesar 1,42363. Praktikan melakukan prediksi terhadap ke 26 data train dan outputnya berikut ini pada Gambar 3.6.
Gambar 3.6 Output prediksi Praktikan membuat plot ROCR dengan berikut ini pada Gambar 3.7 merupakan grafik plotnya. Yang mana menunjukkan bahwa tpr (true positive rate) menjadi sumbu y dan fpr (false positive rate) menjadi sumbu x. ada 2 cara membaca ROCR curve yaitu dengan high threshold dengan high specificity atau low sensitivity dan low threshold dengan low specificity atau high sensitivity. Untuk kasus Gambar 3.7 digunakan low threshold karena dilihat dari kurva nilai spesifikasinya rendah dan tingkat sensivitynya tinggi.
8
Gambar 3.7 Output ROCR curve Praktikan menghitung nilai prediksi untuk data tes sebanyak 9 data lalu menghitung tingkat akurasi data dari output yang ada dengan rumus: 𝑇𝑁+𝑇𝑃 𝑇𝑜𝑡𝑎𝑙
× 100% sehingga perhitungannya
2+3 9
× 100% = 56% dibandingkan
dengan persentase awal sebesar 57% maka tingkat akurasi menurun sebesar 0,01%. Dapat dilihat output pada Gambar 3.8 berikut ini.
Gambar 3.8 Output untuk akurasi data tes
9
4 Penutup 4.1
Kesimpulan Berdasarkan percobaan yang telah dilakukan oleh praktikan, dapat
disimpulkan: 1. Dari data diketahui bahwa sebesar 57% kredit kendaraan tidak macet 2. Dari pembagian data, untuk training data sebanyak 26 dan untuk testing data sebanyak 9. 3. Untuk analisis regresi logistik tidak dilakukan uji parsial dikarenakan pvalue yang tidak signifikan dan hanya satu yang sigfinikan yaitu variabel jangka waktu. 4. Didapatkan
model
regresinya
𝑌 = 5,40257 + 1,94625𝑋1 −
0,18502𝑋2 − 0,12828𝑋3 + 1,42363𝑋4 5. Membacara kurva ROCR menggunakan low threshold karena dilihat dari kurva nilai spesifikasinya rendah dan tingkat sensivitynya tinggi 6. Tingkat akurasi menurun sebesar 0,01%.
10
5 Daftar Pustaka Tri Utari, Dina. 2017. Modul Praktikum Analisis Regresi Terapan. Yogyakarta: Universitas Islam Indonesia
11