Ekonomet Fix!.docx

  • Uploaded by: Dewa Ayu Sri Astari
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Ekonomet Fix!.docx as PDF for free.

More details

  • Words: 6,977
  • Pages: 26
EKONOMETRIKA LANJUTAN CHAPTER 15

Kelompok 4 Nama Anggota : 1. 2. 3. 4.

Ni Made Ayu Meilia Dewi Dewa Ayu Sri Astari Komang Putra Jaya Darmawan I Nyoman Bayu Sugiarta Wiguna

1707511019 1707511023 1707511111 1707511119

FAKULTAS EKONOMI DAN BISNIS PROGRAM REGULER UNIVERSITAS UDAYANA 2018

ESTIMASI

VARIABEL

INSTRUMENTAL

DAN

DUA

TAHAP

KUADRAT

TERKECIL Dalam bab ini, kita mempelajari lebih lanjut masalah variabel penjelas endogen dalam model regresi berganda. Dalam Bab 3, kami menurunkan bias pada estimator OLS ketika variabel penting dihilangkan; pada Bab 5, kami menunjukkan bahwa OLS umumnya tidak konsisten di bawah variabel yang dihilangkan. Bab 9 menunjukkan bahwa bias variabel yang dihilangkan dapat dihilangkan (atau setidaknya dikurangi) ketika variabel proxy yang sesuai diberikan untuk variabel penjelas yang tidak teramati. Sayangnya, variabel proxy yang sesuai tidak selalu tersedia. Dalam dua bab sebelumnya, kami menjelaskan bagaimana estimasi efek tetap atau perbedaan pertama dapat digunakan dengan data panel untuk memperkirakan efek variabel independen yang bervariasi waktu dengan adanya variabel yang dihilangkan konstanta waktu. Meskipun metode tersebut sangat bermanfaat, kami tidak selalu memiliki akses ke data panel. Bahkan jika kita dapat memperoleh data panel, tidak ada gunanya bagi kita jika kita tertarik pada efek dari variabel yang tidak berubah seiring waktu: estimasi efek pertama yang membedakan atau tetap menghilangkan variabel penjelas waktu-konstan. Selain itu, metode data panel yang telah kami pelajari sejauh ini tidak menyelesaikan masalah variabel yang dihilangkan dengan variasi waktu yang berkorelasi dengan variabel penjelas. Dalam bab ini, kami mengambil pendekatan yang berbeda untuk masalah endogenitas. Anda akan melihat bagaimana metode variabel instrumental (IV) dapat digunakan untuk menyelesaikan masalah endogenitas satu atau lebih variabel penjelas. Metode dua tahap kuadrat terkecil (2SLS atau TSLS) adalah yang kedua dalam popularitas hanya untuk kuadrat terkecil biasa untuk memperkirakan persamaan linear dalam ekonometrik terapan. Kami mulai dengan menunjukkan bagaimana metode IV dapat digunakan untuk mendapatkan penduga yang konsisten dengan adanya variabel yang dihilangkan. IV juga dapat digunakan untuk menyelesaikan masalah kesalahan-dalam-variabel, setidaknya berdasarkan asumsi tertentu. Bab selanjutnya akan menunjukkan cara memperkirakan model persamaan simultan menggunakan metode IV. 15.1 Motivasi: Variabel yang Dihilangkan dalam Model Regresi Sederhana Ketika dihadapkan dengan prospek bias variabel yang dihilangkan (atau heterogenitas yang tidak teramati), sejauh ini kita telah membahas tiga opsi: (1) kita dapat mengabaikan masalah dan menderita konsekuensi dari penaksir yang bias dan

tidak konsisten; (2) kita dapat mencoba menemukan dan menggunakan variabel proksi yang sesuai untuk variabel yang tidak teramati; atau (3) kita dapat mengasumsikan bahwa variabel yang dihilangkan tidak berubah dari waktu ke waktu dan menggunakan efek tetap atau metode pembedaan pertama dari Bab 13 dan 14. Respons pertama dapat memuaskan jika estimasi digabungkan dengan arah bias untuk parameter kunci. Misalnya, jika kita dapat mengatakan bahwa penaksir parameter positif, katakanlah, pengaruh pelatihan kerja terhadap upah berikutnya, bias menjadi nol dan kami telah menemukan estimasi positif yang signifikan secara statistik, kami masih mempelajari sesuatu: pelatihan kerja memiliki efek positif pada upah, dan kemungkinan kita telah meremehkan efeknya. Sayangnya, kasus sebaliknya, di mana perkiraan kami mungkin terlalu besar yang membuatnya sangat sulit bagi kami untuk menarik kesimpulan yang berguna Solusi variabel proxy yang dibahas dalam Bagian 9-2 juga dapat menghasilkan hasil yang memuaskan, tetapi tidak selalu mungkin untuk menemukan proxy yang baik. Pendekatan ini mencoba memecahkan masalah variabel yang dihilangkan dengan mengganti variabel yang tidak dapat diamati dengan satu atau lebih variabel proksi. Pendekatan lain meninggalkan variabel yang tidak teramati dalam istilah kesalahan, tetapi alih-alih memperkirakan model dengan OLS, ia menggunakan metode estimasi yang mengakui keberadaan variabel yang dihilangkan. Inilah yang dilakukan oleh metode variabel instrumental. Sebagai ilustrasi, pertimbangkan masalah kemampuan yang tidak teramati dalam persamaan upah untuk orang dewasa yang bekerja. Model yang sederhana adalah

di mana e adalah istilah kesalahan. Dalam Bab 9, kami menunjukkan bagaimana, di bawah asumsi tertentu, variabel proksi seperti IQ dapat diganti untuk kemampuan, dan kemudian penaksir konsisten β1 tersedia dari regresi

Anggaplah, bagaimanapun, bahwa variabel proksi tidak tersedia (atau tidak memiliki properti yang diperlukan untuk menghasilkan estimator konsisten β1). Kemudian, kita abil ke dalam istilah kesalahan, dan kita dibiarkan dengan model regresi sederhana

dimana u mengandung abil. Tentu saja, jika persamaan (15.1) diperkirakan oleh OLS, penaksir yang bias dan tidak konsisten menghasilkan β1 jika pendidikan dan kemampuan berkorelasi. Ternyata kita masih bisa menggunakan persamaan (15.1) sebagai dasar untuk estimasi, asalkan kita dapat menemukan variabel instrumental untuk educ (pendidikan). Untuk menggambarkan pendekatan ini, model regresi sederhana ditulis sebagai

di mana kita berpikir bahwa x dan u berkorelasi (memiliki kovarians bukan nol):

Metode variabel instrumental bekerja ketika x dan u berkorelasi ataupun tidak, namun, untuk alasan kita akan lihat nanti, OLS harus digunakan jika x adalah tidak berkorelasi dengan u. Dalam rangka untuk mendapatkan estimator konsisten β0 dan β1 ketika x dan u berkorelasi, kita perlu beberapa informasi tambahan. Informasi yang datang dengan cara variabel baru yang memenuhi sifat tertentu. Misalkan kita memiliki variabel z diamati yang memenuhi dua asumsi ini: (1) z adalah berkorelasi dengan u, yaitu,

(2) z berkorelasi dengan x, yaitu,

Kemudian, kita menyebut z variabel instrumental untuk x, atau terkadang hanya instrumen untuk x. Persyaratan bahwa instrumen z memenuhi (15.4) dirangkum dengan mengatakan "z adalah eksogen dalam persamaan (15.2)," dan karenanya kita sering

menyebut (15.4) sebagai eksogenitas instrumen. Dalam konteks variabel yang dihilangkan, eksogenitas instrumen berarti bahwa z tidak boleh memiliki efek parsial pada y (setelah x dan variabel yang dihilangkan telah dikontrol untuk), dan z harus tidak berkorelasi dengan variabel yang dihilangkan. Persamaan (15.5) berarti bahwa z harus terkait, baik secara positif maupun negatif, dengan variabel penjelas endogen x. Kondisi ini kadang-kadang disebut sebagai relevansi instrumen (seperti dalam "z relevan untuk menjelaskan variasi dalam x"). Ada perbedaan yang sangat penting antara kedua persyaratan untuk variabel instrumental. Karena (15.4) melibatkan kovarians antara z dan kesalahan yang tidak teramati, kita umumnya tidak dapat berharap untuk menguji asumsi ini: dalam sebagian besar kasus, kita harus mempertahankan Cov (z, u) = 0 dengan menarik perilaku ekonomi atau introspeksi. (Dalam kasus yang tidak biasa, kita mungkin memiliki variabel proksi yang dapat diamati untuk beberapa faktor yang terkandung dalam u, dalam hal ini kita dapat memeriksa untuk melihat apakah z dan variabel proksi secara kasar tidak berkorelasi. Tentu saja, jika kita memiliki proksi yang baik untuk elemen penting of u, kita mungkin hanya menambahkan proxy sebagai variabel penjelas dan memperkirakan persamaan yang diperluas dengan kuadrat terkecil biasa (Lihat Bagian 9-2.) Sebaliknya, kondisi yang berkorelasi dengan x (dalam populasi) dapat diuji, diberikan sampel acak dari populasi. Cara termudah untuk melakukan ini adalah memperkirakan regresi sederhana antara x dan z. Dalam populasi, kita punya

Kemudian, karena

asumsi (15.5) berlaku jika, dan hanya jika,

Dengan demikian, kita harus dapat menolak hipotesis nol

terhadap alternatif dua sisi

pada tingkat signifikansi yang cukup kecil

(katakanlah, 5% atau 1%). Jika ini masalahnya, maka kita bisa cukup yakin bahwa (15.5) berlaku. Untuk persamaan log (upah) dalam (15.1), variabel instrumental z untuk pendidikan harus (1) tidak berkorelasi dengan kemampuan (dan faktor-faktor lain yang tidak

diamati yang mempengaruhi upah) dan (2) berkorelasi dengan pendidikan. Sesuatu seperti digit terakhir dari Nomor Jaminan Sosial seseorang hampir pasti memenuhi persyaratan pertama: ia tidak berkorelasi dengan kemampuan karena ditentukan secara acak. Namun, justru karena keacakan angka terakhir SSN yang tidak berkorelasi dengan pendidikan, baik; karena itu ia membuat variabel instrumental yang buruk untuk pendidikan karena melanggar persyaratan relevansi instrumen dalam persamaan (15.5). Apa yang kita sebut variabel proksi untuk variabel yang dihilangkan membuat IV yang buruk karena alasan yang berlawanan. Misalnya, dalam contoh log (upah) dengan kemampuan yang dihilangkan, variabel proksi untuk abil harus sangat berkorelasi mungkin dengan abil. Variabel instrumental harus tidak berkorelasi dengan abil. Oleh karena itu, sementara IQ adalah kandidat yang baik sebagai variabel proksi untuk abil, itu bukan variabel instrumental yang baik untuk pendidikan karena melanggar persyaratan eksogenitas instrumen dalam persamaan (15.4). Apakah kandidat variabel instrumen penting lainnya memenuhi persyaratan eksogenitas dalam (15.4) kurang jelas. Dalam persamaan upah, ekonom tenaga kerja telah menggunakan variabel latar belakang keluarga sebagai IV untuk pendidikan. Misalnya, pendidikan ibu (motheduc) berkorelasi positif dengan pendidikan anak, seperti yang dapat dilihat dengan mengumpulkan sampel data tentang orang yang bekerja dan menjalankan regresi pendidikan sederhana tentang motheduc. Oleh karena itu, motheduc memenuhi persamaan (15.5). Masalahnya adalah bahwa pendidikan ibu mungkin juga berkorelasi dengan kemampuan anak (melalui kemampuan ibu dan mungkin kualitas pengasuhan pada usia dini), dalam hal ini (15,4) gagal. Pilihan IV lain untuk pendidikan di (15.1) adalah jumlah saudara kandung saat tumbuh dewasa (saudara kandung). Biasanya, memiliki lebih banyak saudara kandung dikaitkan dengan tingkat pendidikan rata-rata yang lebih rendah. Jadi, jika jumlah saudara kandung tidak berkorelasi dengan kemampuan, ia dapat bertindak sebagai variabel instrumental untuk pendidikan. Sebagai contoh kedua, pertimbangkan masalah memperkirakan efek kausal dari melewatkan kelas pada skor ujian akhir. Dalam kerangka regresi sederhana, kita miliki

di mana score adalah skor ujian akhir dan dilewati adalah jumlah total kuliah yang terlewatkan selama semester. Kita tentu saja khawatir bahwa bolos berkorelasi dengan faktor-faktor lain dalam u : siswa yang lebih mampu dan bermotivasi tinggi mungkin

kehilangan kelas lebih sedikit. Dengan demikian, regresi skor yang sederhana pada yang dilompati mungkin tidak memberi kita perkiraan yang baik tentang efek kausal dari kelas yang hilang. Apa yang mungkin menjadi IV yang baik untuk dilewati? Kami membutuhkan sesuatu yang tidak memiliki efek langsung pada skor dan tidak berkorelasi dengan kemampuan dan motivasi siswa. Pada saat yang sama, IV harus dikorelasikan dengan yang dilewati. Salah satu pilihan adalah menggunakan jarak antara tempat tinggal dan kampus. Beberapa siswa di universitas besar akan bepergian ke kampus, yang dapat meningkatkan kemungkinan ketinggalan pelajaran (karena cuaca buruk, tidur berlebihan, dan sebagainya). Dengan demikian, lompatan dapat berkorelasi positif dengan jarak; ini dapat diperiksa dengan mundur melewati jarak dan melakukan uji t, seperti yang dijelaskan sebelumnya. Apakah jarak tidak berkorelasi dengan u ? Dalam model regresi sederhana (15,8), beberapa faktor di u mungkin berkorelasi dengan jarak. Misalnya, siswa dari keluarga berpenghasilan rendah dapat tinggal di luar kampus; jika pendapatan mempengaruhi kinerja siswa, ini dapat menyebabkan jarak berkorelasi dengan u . Bagian 15-2 menunjukkan bagaimana menggunakan IV dalam konteks regresi berganda, sehingga faktor-faktor lain yang mempengaruhi skor dapat dimasukkan secara langsung dalam model. Kemudian, jarak mungkin merupakan IV yang baik untuk dilewati. Pendekatan IV mungkin tidak diperlukan sama sekali jika ada proksi yang baik untuk kemampuan siswa, seperti IPK kumulatif semester sebelumnya. Ada poin terakhir yang perlu ditekankan sebelum kita beralih ke mekanisme estimasi IV: yaitu, dalam menggunakan regresi sederhana dalam persamaan (15.6) untuk menguji (15.7), penting untuk mencatat tanda (dan bahkan besarnya) dari 𝜋̂ 1 dan bukan hanya signifikansi statistiknya. Argumen mengapa variabel z membuat kandidat IV yang baik untuk variabel penjelas endogen x harus mencakup diskusi tentang sifat hubungan antara x dan z. Misalnya, karena pengaruh genetik dan latar belakang, masuk akal bahwa pendidikan anak (x) dan pendidikan ibu (z) berkorelasi positif. Jika dalam sampel data u, Anda menemukan bahwa mereka sebenarnya berkorelasi negatif — yaitu, 𝜋̂ 1 < 0 maka penggunaan pendidikan ibu sebagai IV untuk pendidikan anak cenderung tidak meyakinkan. [Dan ini tidak ada hubungannya dengan apakah kondisi (15,4) kemungkinan akan bertahan.] Dalam contoh mengukur apakah kelas skipping memiliki efek pada kinerja tes, seseorang harus menemukan hubungan yang positif dan signifikan secara statistik antara dilewati dan jarak untuk

membenarkan menggunakan jarak sebagai IV untuk dilewati: hubungan negatif akan sulit untuk dibenarkan [dan akan menyarankan bahwa ada variabel yang dihilangkan penting yang mendorong korelasi negatif — variabel yang mungkin sendiri harus dimasukkan dalam model (15,8)]. Kami sekarang menunjukkan bahwa ketersediaan variabel instrumental dapat digunakan untuk memperkirakan secara konsisten parameter dalam persamaan (15.2). Secara khusus, kami menunjukkan bahwa asumsi (15.4) dan (15.5) berfungsi untuk mengidentifikasi parameter β1. Identifikasi parameter dalam konteks ini berarti kita dapat menulis β1 dalam hal momen populasi yang dapat diperkirakan menggunakan sampel data. Untuk menulis β1 dalam hal kovarian populasi, kami menggunakan persamaan (15.2): kovarian antara z dan y adalah

Sekarang, dengan asumsi (15.4), 𝐶𝑜𝑣(𝑧, 𝑢) = 0, dan di bawah asumsi (15.5), 𝐶𝑜𝑣(𝑧, 𝑢) ≠ 0,. Dengan demikian, kita dapat menyelesaikan untuk β1 sebagai

[Perhatikan bagaimana aljabar sederhana ini gagal jika z dan x tidak berkorelasi, yaitu, jika 𝐶𝑜𝑣(𝑧, 𝑢) = 0.] Persamaan (15.9) menunjukkan bahwa β1 adalah kovarians populasi antara z dan y dibagi dengan kovarians populasi antara z dan x, yang menunjukkan bahwa β1 diidentifikasi. Diberikan sampel acak, kami memperkirakan jumlah populasi dengan sampel analog. Setelah membatalkan ukuran sampel dalam pembilang dan penyebut, kami mendapatkan penaksir variabel instrumental (IV) dari β1:

Diberikan sampel data pada x, y, dan z, mudah untuk mendapatkan estimator IV di (15.10). Estimator IV dari β0 hanyalah 𝛽̂ 0 = 𝑦̅ − 𝛽̂ 1 𝑥̅ yang terlihat seperti penaksir intersepsi OLS kecuali bahwa estimator kemiringan, 𝛽̂ 1 , sekarang adalah estimator IV

Bukan kebetulan bahwa ketika z - x kita memperoleh penaksir OLS dari β1. Dengan kata lain, ketika x adalah eksogen, ia dapat digunakan sebagai IV-nya sendiri, dan estimator IV kemudian identik dengan estimator OLS. Penerapan sederhana dari hukum angka besar menunjukkan bahwa estimator IV konsisten untuk

, asalkan asumsi (15,4) dan (15,5) dipenuhi. Jika salah

satu asumsi gagal, estimator IV tidak konsisten (lebih lanjut tentang ini nanti). Salah satu fitur dari estimator IV adalah bahwa, ketika x dan u pada kenyataannya berkorelasi — sehingga estimasi variabel instrumental benar-benar diperlukan — pada dasarnya tidak pernah tidak bias. Ini berarti bahwa, dalam sampel kecil, penaksir IV dapat memiliki bias substansial, yang merupakan salah satu alasan mengapa sampel besar lebih disukai. Ketika membahas penerapan variabel instrumental, penting untuk berhati-hati dengan bahasa. Seperti OLS, IV adalah metode estimasi. Masuk akal untuk merujuk pada "model variabel instrumental" —seperti ungkapan "model OLS" tidak masuk akal. Seperti yang kita ketahui, model adalah persamaan seperti (15.8), yang merupakan kasus khusus dari model generik dalam persamaan (15.2). Ketika kita memiliki model seperti (15.2), kita dapat memilih untuk memperkirakan parameter dari model itu dengan berbagai cara. Sebelum bab ini, kami berfokus terutama pada OLS, tetapi, misalnya, kami juga tahu dari Bab 8 bahwa seseorang dapat menggunakan kuadrat terkecil tertimbang sebagai metode estimasi alternatif (dan ada kemungkinan tak terbatas untuk bobot). Jika kita memiliki kandidat variabel instrumental z untuk x, maka kita dapat menerapkan estimasi variabel instrumental. Memang benar bahwa metode estimasi yang kami terapkan dimotivasi oleh model dan asumsi yang kami buat tentang model itu. Tetapi estimator didefinisikan dengan baik dan ada terlepas dari model atau asumsi yang mendasarinya: ingat, estimator hanyalah aturan untuk menggabungkan data. Intinya adalah bahwa sementara kita mungkin tahu apa artinya seorang peneliti ketika menggunakan frasa seperti "Saya memperkirakan model IV," bahasa tersebut mengkhianati kurangnya pemahaman tentang perbedaan antara model dan metode estimasi. 15-1a Inferensi Statistik dengan Pengukur IV Mengingat struktur yang sama dari penaksir IV dan OLS, tidak mengherankan bahwa penaksir IV memiliki perkiraan distribusi normal dalam ukuran sampel yang besar. Untuk melakukan inferensi pada β1, kita memerlukan kesalahan standar yang

dapat digunakan untuk menghitung statistik dan interval kepercayaan. Pendekatan yang biasa adalah dengan memaksakan asumsi homoskedastisitas, seperti dalam kasus OLS. Sekarang, asumsi homoskedastisitas dinyatakan bersyarat pada variabel instrumental, z, bukan variabel penjelas endogen, x. Seiring dengan asumsi sebelumnya pada u, x, dan z, kami menambahkan

Dapat ditunjukkan bahwa, di bawah (15.4), (15.5), dan (15.11), varian asimptotik dari 𝛽̂ 1 adalah

2 di mana 𝜎𝑥2 adalah varians populasi x, 𝜎 2 adalah varians populasi u, dan 𝑝𝑥,𝑧 adalah

kuadrat dari korelasi populasi antara x dan z. Ini memberi tahu kita seberapa tinggi korelasi x dan z dalam populasi. Seperti dengan estimator OLS, varians asimptotik dari estimator IV berkurang menjadi nol pada laju 1 / n, di mana n adalah ukuran sampel Persamaan (15.12) menarik karena dua alasan. Pertama, ini menyediakan cara untuk mendapatkan kesalahan standar untuk estimator IV. Semua jumlah dalam (15.12) dapat secara konsisten diestimasikan diberikan sampel acak. Untuk memperkirakan 𝜎𝑥2 , kami cukup menghitung varians sampel x1; untuk memperkirakan 2 𝑝𝑥,𝑧 kita dapat menjalankan regresi x1 pada z1 untuk mendapatkan R-kuadrat, 2 katakanlah, 𝑅𝑥,𝑧 . Akhirnya, untuk memperkirakan 𝜎 2 , kita dapat menggunakan residu

IV,

di mana 𝛽̂ 0 dan 𝛽̂ 1 adalah estimasi IV. Penaksir konsisten 𝜎 2 terlihat seperti penaksir 𝜎 2 dari regresi OLS sederhana:

di mana standar untuk menggunakan derajat koreksi kebebasan (meskipun ini memiliki efek kecil ketika ukuran sampel tumbuh). Kesalahan standar (asimptotik)

dari 𝛽̂ 1 adalah akar kuadrat dari varians asimptotik yang diperkirakan, yang terakhir diberikan oleh

di mana SSTx adalah jumlah total kuadrat dari xi. [Ingat bahwa varians sampel xi adalah SSTx / n, sehingga ukuran sampel dibatalkan untuk memberi kita (15,13).] Kesalahan standar yang dihasilkan dapat digunakan untuk menyusun statistik t untuk hipotesis yang melibatkan 𝛽 1 atau interval kepercayaan untuk β1. 𝛽̂ 0 juga memiliki kesalahan standar yang tidak kami sajikan di sini. Paket ekonometrika modern apa pun menghitung kesalahan standar setelah setiap estimasi IV; jarang ada alasan untuk melakukan perhitungan dengan tangan. Alasan kedua (15.12) menarik adalah bahwa hal itu memungkinkan kita untuk membandingkan varian asimtotik dari IV dan penduga OLS (ketika x dan u tidak berkorelasi). Di bawah asumsi Gauss-Markov, varians dari estimator OLS adalah 𝜎 2 / SSTx, sedangkan formula yang sebanding untuk estimator IV adalah 𝜎 2 / (SSTx . 2 2 𝑅𝑥,𝑧 ); mereka hanya berbeda dalam 𝑅𝑥,𝑧 muncul dalam penyebut varian IV. Karena R-

kuadrat selalu kurang dari satu, varians IV selalu lebih besar dari varians OLS (ketika 2 OLS valid). Jika 𝑅𝑥,𝑧 kecil, maka varian IV bisa jauh lebih besar dari varian OLS. 2 Ingat, 𝑅𝑥,𝑧 mengukur kekuatan hubungan linear antara x dan z dalam sampel. 2 Jika x dan z hanya sedikit berkorelasi, 𝑅𝑥,𝑧 bisa kecil, dan ini dapat

diterjemahkan menjadi varians sampel yang sangat besar untuk estimator IV. Semakin 2 tinggi berkorelasi z dengan x, semakin dekat 𝑅𝑥,𝑧 dengan satu, dan semakin kecil 2 adalah varians dari estimator IV. Dalam kasus itu z = x, 𝑅𝑥,𝑧 = 1, dan kami

mendapatkan varian OLS, seperti yang diharapkan. Diskusi sebelumnya menyoroti biaya penting untuk melakukan estimasi IV ketika x dan u tidak berkorelasi: varians asimptotik dari estimator IV selalu lebih besar, dan kadang-kadang jauh lebih besar, daripada varians asimptotik dari estimator OLS. Contoh 15.1 Memperkirakan Kembali ke pendidikan untuk Wanita yang sudah Menikah Kami menggunakan data perempuan pekerja yang sudah menikah di MROZ untuk memperkirakan kembalinya ke pendidikan dalam model regresi sederhana

Sebagai perbandingan, kami pertama-tama mendapatkan taksiran OLS:

Perkiraan untuk β1 menyiratkan pengembalian hampir 11% untuk tahun pendidikan berikutnya Selanjutnya, kami menggunakan pendidikan ayah (fatheduc) sebagai variabel instrumental untuk pendidikan. Kita harus mempertahankan bahwa fatheduc tidak berkorelasi dengan u . Persyaratan kedua adalah bahwa pendidikan (educ ) dan fatheduc berkorelasi. Kita dapat memeriksa ini dengan sangat mudah menggunakan regresi sederhana pada educ dan fatheduc (hanya menggunakan wanita yang bekerja dalam sampel)

Statistik t pada fatheduc adalah 9,28, yang menunjukkan bahwa educ dan fatheduc memiliki korelasi positif yang signifikan secara statistik. (Faktanya, fatheduc menjelaskan sekitar 17% variasi educ dalam sampel.) Menggunakan fatheduc sebagai sebuah IV untuk educ

Perkiraan IV pengembalian ke pendidikan adalah 5,9%, yang hampir tidak lebih dari setengah dari perkiraan OLS. Ini menunjukkan bahwa estimasi OLS terlalu tinggi dan konsisten dengan bias kemampuan yang dihilangkan. Tetapi kita harus ingat bahwa ini adalah perkiraan hanya dari satu sampel: kita tidak akan pernah tahu apakah 0,109 berada di atas pengembalian pendidikan yang sebenarnya, atau apakah 0,059 lebih dekat dengan pengembalian pendidikan yang sebenarnya. Lebih lanjut, kesalahan standar estimasi IV adalah dua setengah kali lebih besar dari kesalahan standar OLS (ini diharapkan, untuk alasan yang kami berikan sebelumnya). Interval kepercayaan 95% untuk β1 menggunakan OLS jauh lebih ketat daripada yang menggunakan IV; pada kenyataannya, interval kepercayaan IV

sebenarnya mengandung estimasi OLS. Oleh karena itu, meskipun perbedaan antara (15.15) dan (15.17) praktis besar, kami tidak dapat mengatakan apakah perbedaannya signifikan secara statistik. Kami akan menunjukkan cara menguji ini di Bagian 15-5.

Dalam contoh sebelumnya, perkiraan pengembalian pendidikan menggunakan IV kurang dari yang menggunakan OLS, yang sesuai dengan harapan kami. Tetapi ini tidak perlu terjadi, seperti ditunjukkan contoh berikut. Contoh 15.2 Memperkirakan Kembali ke Pendidikan untuk Pria Kami sekarang menggunakan WAGE2 untuk memperkirakan kembali ke pendidikan untuk laki-laki. Kami menggunakan variabel saudara kandung (jumlah saudara kandung) sebagai instrumen untuk pendidikan. Ini berkorelasi negatif, karena kami dapat memverifikasi dari regresi sederhana:

Persamaan ini menyiratkan bahwa setiap saudara kandung dikaitkan dengan, rata-rata, sekitar 0,23 kurang dari satu tahun pendidikan. Jika kita mengasumsikan bahwa saudara kandung tidak berkorelasi dengan istilah kesalahan dalam (15.14), maka estimator IV konsisten. Memperkirakan persamaan (15.14) menggunakan saudara kandung sebagai IV untuk pendidikan

(R-kuadrat dihitung menjadi negatif, jadi kami tidak melaporkannya. Diskusi R-kuadrat dalam konteks estimasi IV berikut.) Untuk perbandingan, estimasi OLS dari β1 adalah 0,059 dengan kesalahan standar sebesar. 006. Tidak seperti pada contoh sebelumnya, perkiraan IV sekarang jauh lebih tinggi dari perkiraan OLS. Meskipun kita tidak tahu apakah perbedaannya signifikan secara statistik, ini tidak sesuai dengan bias kemampuan yang dihilangkan dari OLS. Bisa jadi saudara kandung juga berkorelasi dengan kemampuan: lebih banyak saudara kandung, rata-rata, kurang perhatian orang tua, yang dapat mengakibatkan kemampuan yang lebih rendah. Interpretasi lain adalah bahwa estimator OLS condong ke nol karena kesalahan pengukuran dalam pendidikan. Ini tidak sepenuhnya meyakinkan

karena, seperti yang kita bahas dalam Bagian 9-3, pendidikan tidak mungkin memuaskan model kesalahan klasik-dalam-variabel .

Dalam contoh sebelumnya, variabel penjelas endogen (pendidikan) dan variabel instrumental (fatheduc, saudara kandung) memiliki makna kuantitatif. Tetapi tidak ada yang mencegah variabel penjelas atau IV menjadi variabel biner. Angrist dan Krueger (1991), dalam analisis mereka yang paling sederhana, muncul dengan variabel instrumental biner yang cerdas untuk pendidikan, menggunakan data sensus pada pria di Amerika Serikat. Biarkan frstqrt sama dengan satu jika pria itu lahir pada kuartal pertama tahun ini, dan nol sebaliknya. Tampaknya istilah kesalahan dalam (15.14) —dan, khususnya, kemampuan — harus tidak terkait dengan seperempat kelahiran. Tetapi frstqrt juga perlu dikorelasikan dengan pendidikan. Ternyata tahun pendidikan memang berbeda secara sistematis dalam populasi berdasarkan seperempat kelahiran. Angrist dan Krueger berpendapat secara persuasif bahwa ini disebabkan oleh undang-undang kehadiran sekolah wajib yang berlaku di semua negara bagian. Secara singkat, siswa yang lahir di awal tahun biasanya mulai sekolah pada usia yang lebih tua. Oleh karena itu, mereka mencapai usia wajib sekolah (16 di sebagian besar negara bagian) dengan pendidikan yang agak kurang dari siswa yang memulai sekolah pada usia yang lebih muda. Untuk siswa yang lulus SMA, Angrist dan Krueger memverifikasi bahwa tidak ada hubungan antara tahun pendidikan dan seperempat kelahiran. Karena pendidikan bertahun-tahun hanya bervariasi sedikit di seperempat 2 kelahiran — yang berarti 𝑅𝑥,𝑧 dalam (15,13) sangat kecil — Angrist dan Krueger

membutuhkan ukuran sampel yang sangat besar untuk mendapatkan perkiraan IV yang cukup tepat. Dengan menggunakan 247.199 pria yang lahir antara tahun 1920 dan 1929, estimasi OLS untuk kembali ke pendidikan adalah 0,0801 (standard error .0004), dan perkiraan IV adalah 0,0715 (0,01919); ini dilaporkan dalam Tabel III dari makalah Angrist dan Krueger. Perhatikan seberapa besar statistik t untuk estimasi OLS (sekitar 200), sedangkan statistik t untuk estimasi IV hanya 3,26. Dengan demikian, estimasi IV secara statistik berbeda dari nol, tetapi interval kepercayaannya jauh lebih luas daripada yang didasarkan pada estimasi OLS.

Temuan yang menarik dari Angrist dan Krueger adalah bahwa estimasi IV tidak jauh berbeda dari estimasi OLS. Bahkan, dengan menggunakan pria yang lahir pada dekade berikutnya, estimasi IV agak lebih tinggi dari perkiraan OLS. Orang bisa menafsirkan ini sebagai menunjukkan bahwa tidak ada bias kemampuan yang dihilangkan ketika persamaan upah diperkirakan oleh OLS. Namun, makalah Angrist dan Krueger telah dikritik karena alasan ekonometrik. Seperti yang dibahas oleh Bound, Jaeger, dan Baker (1995), tidak jelas bahwa musim kelahiran tidak berhubungan dengan faktor-faktor yang tidak diamati yang mempengaruhi upah. Seperti yang akan kami jelaskan pada subbab berikutnya, bahkan sejumlah kecil korelasi antara z dan u dapat menyebabkan masalah serius bagi estimator IV. Untuk analisis kebijakan, variabel penjelas endogen seringkali merupakan variabel biner. Sebagai contoh, Angrist (1990) mempelajari efek yang menjadi veteran Perang Vietnam terhadap pendapatan seumur hidup. Model yang sederhana adalah

di mana veteran adalah variabel biner. Masalah dengan memperkirakan persamaan ini dengan OLS adalah bahwa mungkin ada masalah pemilihan sendiri, seperti yang kami sebutkan di Bab 7: mungkin orang-orang yang mendapatkan hasil maksimal dari militer memilih untuk bergabung, atau keputusan untuk bergabung berkorelasi dengan karakteristik lain yang memengaruhi penghasilan. Ini akan menyebabkan veteran dan u berkorelasi. Angrist menunjukkan bahwa rancangan lotre Vietnam memberikan eksperimen alami (lihat juga Bab 13) yang menciptakan variabel instrumental untuk veteran. Para remaja putra diberi nomor lotere yang menentukan apakah mereka akan dipanggil untuk melayani di Vietnam. Karena angka-angka yang diberikan adalah (akhirnya) ditetapkan secara acak, tampaknya masuk akal bahwa nomor lotre rancangan tidak berkorelasi dengan istilah kesalahan u. Tetapi mereka dengan jumlah yang cukup rendah harus melayani di Vietnam, sehingga kemungkinan menjadi veteran berkorelasi dengan nomor lotere. Jika kedua pernyataan ini benar, nomor konsep undian adalah kandidat IV yang baik untuk veteran. Dimungkinkan juga untuk memiliki variabel penjelas endogen biner dan variabel instrumental biner. Lihat Soal 1 untuk contoh.

15-1b Properti IV dengan Variabel Instrumental yang Buruk Kita telah melihat bahwa, meskipun IV konsisten ketika z dan u tidak berkorelasi dan z dan x memiliki korelasi positif atau negatif, perkiraan IV dapat memiliki kesalahan standar yang besar, terutama jika z dan x hanya berkorelasi lemah. Korelasi yang lemah antara z dan x dapat memiliki konsekuensi yang lebih serius: estimator IV dapat memiliki bias asimptotik yang besar bahkan jika z dan u hanya berkorelasi sedang. Kita dapat melihat ini dengan mempelajari batas probabilitas estimator IV ketika z dan u mungkin berkorelasi. Membiarkan β̂ 1 , IV menunjukkan estimator IV, kita dapat menulis

di mana σu dan σx masing-masing adalah standar deviasi u dan x. Bagian yang menarik dari persamaan ini melibatkan istilah korelasi. Ini menunjukkan bahwa, bahkan jika Corr (z, u) kecil, ketidakkonsistenan dalam estimator IV bisa sangat besar jika Corr (z, x) juga kecil. Jadi, bahkan jika kita hanya fokus pada konsistensi, belum tentu lebih baik menggunakan IV daripada OLS jika korelasi antara z dan u lebih kecil dari pada antara x dan u. Menggunakan fakta bahwa bersama dengan persamaan (5.3), kita dapat menulis plim penduga OLS — sebut saja β̂ 1, OLS — sebagai

Membandingkan formula ini menunjukkan bahwa mungkin arah bias asimptotik berbeda untuk IV dan OLS. Sebagai contoh, misalkan Corr (x, u)> 0, Corr (z, x)> 0, dan Corr (z, u) <0. Kemudian estimator IV memiliki bias ke bawah, sedangkan estimator OLS memiliki bias ke atas (asimptotik). Dalam praktiknya, situasi ini mungkin jarang terjadi. Lebih bermasalah adalah ketika arah biasnya sama dan korelasi antara z dan x kecil. Untuk konkret, misalkan x dan z keduanya berkorelasi positif dengan u dan Corr (z, x)> 0. Kemudian bias asimtotik pada estimator IV lebih kecil dari pada untuk OLS hanya jika Corr (x, u) / Corr (z, x)
korelasi yang tampaknya kecil antara z dan u dapat diperbesar dan membuat IV lebih buruk daripada OLS, bahkan jika kita membatasi perhatian pada bias. Sebagai contoh, jika Corr (z, x) = .2, Corr (x, u) harus kurang dari seperlima dari Corr (x, u) sebelum IV memiliki bias asimtotik kurang dari OLS. Dalam banyak aplikasi, korelasi antara instrumen dan x kurang dari 0,2. Sayangnya, karena kita jarang memiliki gagasan tentang besaran relatif Corr (x, u) dan Corr (z, x), kita tidak pernah tahu pasti penaksir mana yang memiliki bias asimptotik terbesar [kecuali, tentu saja, kita mengasumsikan Corr ( x, u) = 0]. Dalam Angrist dan Krueger (1991) contoh yang disebutkan sebelumnya, di mana x adalah tahun sekolah dan z adalah variabel biner yang menunjukkan seperempat kelahiran, korelasi antara z dan x sangat kecil. Bound, Jaeger, dan Baker (1995) membahas alasan mengapa seperempat kelahiran dan u mungkin agak berkorelasi. Dari persamaan (15.19), kita melihat bahwa ini dapat menyebabkan bias substansial pada estimator IV. Ketika z dan x tidak berkorelasi sama sekali, semuanya sangat buruk, baik z tidak berkorelasi dengan u. Contoh berikut menggambarkan mengapa kita harus selalu memeriksa untuk melihat apakah variabel penjelas endogen berkorelasi dengan kandidat IV. Contoh 15.3 Memperkirakan Efek Merokok terhadap Berat Badan Lahir Dalam Bab 6, kami memperkirakan efek merokok pada berat lahir anak. Tanpa variabel penjelas lainnya, modelnya adalah

dimana packs adalah jumlah bungkus yang dihisap oleh ibu per hari. Kita mungkin khawatir bahwa paket berkorelasi dengan faktor kesehatan lain atau ketersediaan perawatan prenatal yang baik, sehingga packs dan u mungkin berkorelasi. Variabel instrumental yang mungkin untuk packs adalah harga rata-rata rokok di negara bagian tempat tinggal, cigprice (harga rokok) . Kami akan berasumsi bahwa cigprice dan u tidak berkorelasi (meskipun dukungan negara untuk perawatan kesehatan dapat dikorelasikan dengan pajak rokok). Jika rokok adalah barang konsumsi umum, teori ekonomi dasar menunjukkan bahwa packs dan cigprice berkorelasi negatif, sehingga cigprice dapat digunakan sebagai IV untuk packs. Untuk memeriksanya, kami melakukan regresi paket pada cigprice, menggunakan data dalam BWGHT:

Ini menunjukkan tidak ada hubungan antara merokok selama kehamilan dan harga rokok, yang mungkin tidak terlalu mengejutkan mengingat sifat adiktif dari merokok. Karena packs dan cigprice tidak berkorelasi, kita tidak boleh menggunakan cigprice sebagai IV untuk packs dalam (15.21). Tetapi apa yang terjadi jika kita lakukan? Hasil IV akan menjadi

(R-kuadrat yang dilaporkan negatif). Koefisien pada paket sangat besar dan merupakan tanda yang tidak terduga. Kesalahan standar juga sangat besar, sehingga packs tidak signifikan. Tapi perkiraan itu tidak berarti karena cigprice gagal satu persyaratan IV yang selalu bisa kita uji: asumsi (15,5).

Contoh sebelumnya menunjukkan bahwa estimasi IV dapat menghasilkan hasil yang aneh ketika kondisi relevansi instrumen, 𝐶𝑜𝑟𝑟(𝑧, 𝑥) ≠ 0, gagal. Kepentingan praktis yang lebih besar adalah apa yang disebut masalah instrumen lemah, yang secara longgar didefinisikan sebagai masalah "rendah" (tetapi bukan nol) korelasi antara z dan x. Dalam aplikasi tertentu, sulit untuk menentukan seberapa rendah terlalu rendah, tetapi penelitian teoretis baru-baru ini, ditambah dengan studi simulasi, telah memberikan banyak perhatian pada masalah ini. Staiger dan Stock (1997) meresmikan masalah instrumen lemah dengan memodelkan korelasi antara z dan x sebagai fungsi dari ukuran sampel; khususnya, korelasi diasumsikan menyusut ke nol pada tingkat 1 /√n. Tidak mengherankan, distribusi asimptotik dari penaksir variabel instrumental berbeda dibandingkan dengan asimptotik biasa, di mana korelasi diasumsikan tetap dan tidak nol. Salah satu implikasi dari karya Stock-Staiger adalah bahwa inferensi statistik yang biasa, berdasarkan statistik t dan distribusi normal standar, dapat sangat menyesatkan. Kami membahas ini lebih lanjut dalam Bagian 15-3.

15-1c Komputasi r-kuadrat Setelah Estimasi IV Sebagian besar paket regresi menghitung R-kuadrat setelah estimasi IV, menggunakan rumus standar: R2 = 1 - SSR / SST, di mana SSR adalah jumlah residu kuadrat IV dan SST adalah jumlah total kuadrat y. Tidak seperti dalam kasus OLS, R-kuadrat dari estimasi IV bisa negatif karena SSR untuk IV sebenarnya bisa lebih besar dari SST. Meskipun tidak ada salahnya untuk melaporkan R-kuadrat untuk estimasi IV, itu juga tidak terlalu berguna. Ketika x dan u berkorelasi, kita tidak dapat menguraikan varian y menjadi 𝛽12 𝑣𝑎𝑟 (𝑥) + 𝑣𝑎𝑟 (𝑢)dan R-kuadrat tidak memiliki interpretasi alami. Selain itu, seperti yang akan kita bahas dalam Bagian 15-3, Rkuadrat ini tidak dapat digunakan dengan cara biasa untuk menghitung uji F dari pembatasan bersama Jika tujuan kami adalah untuk menghasilkan R-kuadrat terbesar, kami akan selalu menggunakan OLS. Metode IV dimaksudkan untuk memberikan perkiraan efek ceteris paribus yang lebih baik dari x pada y ketika x dan u berkorelasi; goodnessof-fit bukan faktor. R-kuadrat tinggi yang dihasilkan dari OLS adalah sedikit kenyamanan jika kita tidak dapat secara konsisten memperkirakan β1. 15-2 Estimasi IV pada Model Regresi Berganda Estimator IV untuk model regresi sederhana mudah diperluas ke kasus regresi berganda. Kita mulai dengan kasus di mana hanya satu dari variabel penjelas berkorelasi dengan kesalahan. Bahkan, pertimbangkan model linier standar dengan dua variabel penjelas:

Kami menyebutnya persamaan struktural untuk menekankan bahwa kami tertarik pada βj, yang berarti bahwa persamaan tersebut seharusnya mengukur hubungan sebab akibat. Kami menggunakan notasi baru di sini untuk membedakan variabel endogen dari variabel eksogen. Variabel dependen y1 jelas endogen, karena berkorelasi dengan u1. Variabel y2 dan z1 adalah variabel penjelas, dan u1 adalah kesalahan. Seperti biasa, kita mengasumsikan bahwa nilai yang diharapkan dari u1 adalah nol: E(u1 ) = 0. Kami menggunakan z1 untuk menunjukkan bahwa variabel ini eksogen dalam (15.22) (z1 tidak berkorelasi dengan u1 ). Kami menggunakan y2 untuk menunjukkan bahwa variabel ini diduga berkorelasi dengan u1 . Kami tidak

menentukan mengapa y2 dan u1 berkorelasi, tetapi untuk saat ini yang terbaik adalah menganggap u1 berisi variabel yang dihilangkan berkorelasi dengan y2 . Notasi dalam persamaan (15.22) berasal dari model persamaan simultan (yang kita bahas pada Bab 16), tetapi kami menggunakannya secara lebih umum untuk dengan mudah membedakan variabel eksogen dari variabel penjelas endogen dalam model regresi berganda. Contoh dari (15.22) adalah

di mana y1 = log(wage), y2 = educ, dan z1 = exper. Dengan kata lain, kita mengasumsikan bahwa exper adalah eksogen dalam (15.23), tetapi kami membiarkan pendidikan itu — untuk alasan yang biasa — berkorelasi dengan u1. Kita tahu bahwa jika (15.22) diperkirakan oleh OLS, semua penaksir akan menjadi bias dan tidak konsisten. Dengan demikian, kami mengikuti strategi yang disarankan pada bagian sebelumnya dan mencari variabel instrumental untuk y2. Karena z1 diasumsikan tidak berkorelasi dengan u1, dapatkah kita menggunakan z1 sebagai instrumen untuk y2, dengan asumsi y2dan z1 berkorelasi? Jawabannya adalah tidak. Karena z1 itu sendiri muncul sebagai variabel penjelas dalam (15.22), ia tidak bisa berfungsi sebagai variabel instrumental untuk y2. Kita membutuhkan variabel eksogen lain — sebut saja z2 — yang tidak muncul di (15.22). Oleh karena itu, asumsi utama adalah bahwa z1 dan z2 tidak berkorelasi dengan u1; kami juga berasumsi bahwa u1 memiliki nilai nol yang diharapkan, yang tanpa kehilangan sifat umum ketika persamaan berisi intersep:

Dengan

asumsi

rata-rata

nol,

dua

asumsi

terakhir

setara

dengan

, dan metode pendekatan momen menyarankan untuk memperoleh estimator

dengan menyelesaikan sampel dari ( 15.24):

Ini adalah satu set dari tiga persamaan linier dalam tiga yang tidak diketahui , dan mudah dipecahkan mengingat data pada y1, y2, z1, dan z2. Penduga disebut penduga variabel instrumental. Jika kami pikir y2 adalah eksogen dan kami memilih z2 = y2, persamaan (15.25) adalah kondisi urutan pertama untuk estimator OLS; lihat persamaan (3.13) Kita masih membutuhkan variabel instrumental z2 untuk dikorelasikan dengan y2, tetapi pengertian di mana kedua variabel ini harus dikorelasikan menjadi rumit oleh kehadiran z1 dalam persamaan (15.22). Kita sekarang perlu menyatakan asumsi dalam hal korelasi parsial. Cara termudah untuk menyatakan kondisi ini adalah dengan menulis variabel penjelas endogen sebagai fungsi linier dari variabel eksogen dan istilah kesalahan:

di mana, dengan konstruksi, E(v2 )= 0, Cov( z1, v2 ) = 0, dan Cov(z2, v2 ) = 0, dan π j adalah parameter yang tidak diketahui. Kondisi identifikasi utama [bersama dengan (15.24)] adalah itu

Dengan kata lain, setelah dipisahkan z1, y2 dan z2 masih berkorelasi. Korelasi ini bisa positif atau negatif, tetapi tidak boleh nol. Pengujian (15.27) mudah: kami memperkirakan (15.26) oleh OLS dan menggunakan uji t (mungkin membuatnya kuat untuk heteroskedastisitas). Kita harus selalu menguji asumsi ini. Sayangnya, kami tidak dapat menguji bahwa z1 dan z2 tidak berkorelasi dengan u1; semoga, kita bisa membuat kasus berdasarkan alasan ekonomi atau introspeksi. Persamaan (15.26) adalah contoh persamaan bentuk tereduksi, yang berarti bahwa kita telah menulis variabel endogen dalam kaitan dengan variabel eksogen. Nama ini berasal dari model persamaan simultan — yang kita pelajari pada bab berikutnya — tetapi ini adalah konsep yang berguna setiap kali kita memiliki variabel penjelas endogen. Nama ini membantu membedakannya dari persamaan struktural (15.22). Menambahkan variabel penjelas yang lebih eksogen ke dalam model sangat mudah. model struktural ditulis sebagai

di mana y2 dianggap berkorelasi dengan u1. Biarkan zk menjadi variabel tidak dalam (15.28) yang juga eksogen. Karena itu, kami menganggap itu

Di bawah (15.29), z1, ...., zk-1 adalah variabel eksogen yang muncul di (15.28). Akibatnya, ini bertindak sebagai variabel instrumental mereka sendiri dalam memperkirakan βj dalam (15.28). Kasus khusus k = 2 diberikan dalam persamaan dalam (15.25); bersama dengan z2, z1 muncul dalam kondisi saat yang digunakan untuk mendapatkan estimasi IV. Lebih umum, z1, ...., zk-1 digunakan dalam kondisi momen bersama dengan variabel instrumental untuk y2, zk. Bentuk tereduksi untuk y2 adalah

dan kami membutuhkan korelasi parsial antara zk dan y2:

Di bawah (15.29) dan (15.31), zk adalah IV yang valid untuk y2. [Kami tidak peduli tentang sisa πj di (15.30); beberapa atau semuanya bisa nol.] Asumsi tambahan kecil adalah bahwa tidak ada hubungan linier yang sempurna di antara variabel eksogen; ini analog dengan asumsi tidak ada kolinearitas yang sempurna dalam konteks OLS. Untuk inferensi statistik standar, kita perlu mengasumsikan homoskedastisitas u1. Kami memberikan pernyataan yang cermat tentang asumsiasumsi ini dalam pengaturan yang lebih umum di Bagian 15-3. Contoh 15.4 Menggunakan Kedekatan Perguruan Tinggi sebagai IV untuk Pendidikan Card (1995) menggunakan data upah dan pendidikan untuk sampel laki-laki pada tahun 1976 untuk memperkirakan kembali ke pendidikan. Dia menggunakan variabel dummy untuk apakah seseorang tumbuh dekat perguruan tinggi (nearc4) sebagai variabel instrumental untuk pendidikan. Dalam persamaan log (wage), ia memasukkan kontrol standar lainnya: pengalaman, variabel dummy hitam, variabel

dummy untuk tinggal di SMSA dan tinggal di Selatan, dan set lengkap variabel dummy regional dan dummy SMSA untuk tempat pria itu hidup pada tahun 1966. Agar nearc4 menjadi instrumen yang valid, itu harus tidak berkorelasi dengan istilah kesalahan dalam persamaan upah - kami menganggap ini - dan itu harus sebagian dikorelasikan dengan pendidikan. Untuk memeriksa persyaratan yang terakhir, kami regresi educ pada nearc4 dan semua variabel eksogen yang muncul dalam persamaan. (Yaitu, kami memperkirakan bentuk berkurang untuk pendidikan.) Dengan menggunakan data dalam CARD, kami memperoleh, dalam bentuk ,

Kami tertarik pada koefisien dan statistik t pada nearc4. Koefisien menyiratkan bahwa pada tahun 1976, hal-hal lain sedang diperbaiki (pengalaman, ras, wilayah, dan sebagainya), orang-orang yang tinggal di dekat sebuah perguruan tinggi pada tahun 1966 memiliki, rata-rata, sekitar sepertiga dari setahun pendidikan lebih tinggi daripada mereka yang tidak tumbuh dekat perguruan tinggi. Statistik t pada nearc4 adalah 3.64, yang memberikan nilai-p yang nol di tiga desimal pertama. Oleh karena itu, jika nearc4 tidak berkorelasi dengan faktor yang tidak teramati dalam istilah kesalahan, kita dapat menggunakan nearc4 sebagai IV untuk pendidikan. Estimasi OLS dan IV diberikan pada Tabel 15.1. Seperti kesalahan standar OLS, kesalahan standar IV yang dilaporkan menggunakan penyesuaian derajat kebebasan dalam memperkirakan varian kesalahan. Menariknya, perkiraan IV untuk pendidikan hampir dua kali lebih besar dari perkiraan OLS, tetapi kesalahan standar dari perkiraan IV adalah lebih dari 18 kali lebih besar dari kesalahan standar OLS. Interval kepercayaan 95% untuk estimasi IV adalah antara 0,024 dan 0,239, yang merupakan rentang yang sangat luas. Kehadiran interval kepercayaan yang lebih besar adalah harga yang harus kita bayar untuk mendapatkan penaksir yang konsisten dari pengembalian pendidikan ketika kita berpikir bahwa pendidikan adalah endogen. Tabel 15.1 Variabel Dependen: log (upah)

Seperti dibahas sebelumnya, kita seharusnya tidak membuat apa pun dari R-kuadrat yang lebih kecil dalam estimasi IV: menurut definisi, OLS R-kuadrat akan selalu lebih besar karena OLS meminimalkan jumlah residu kuadrat.

Perlu dicatat, terutama untuk mempelajari efek intervensi kebijakan, bahwa persamaan bentuk tereduksi juga ada untuk y1. Dalam konteks persamaan (15.28) dengan zk adalah IV untuk y2, bentuk tereduksi untuk y1 selalu memiliki bentuk

Dimana

untuk

dan

seperti yang dapat diverifikasi dengan memasukkan (15.30) ke (15.28) dan mengatur ulang. Karena zj eksogen dalam (15.32), 𝛾𝑗 dapat secara konsisten diestimasi oleh OLS. Dengan kata lain, kami mundur y1 pada semua variabel eksogen, termasuk zk, IV untuk y2. Hanya jika kita ingin memperkirakan β1 dalam (15.28) kita perlu menerapkan IV. Ketika y2 adalah variabel nol-satu yang menunjukkan partisipasi dan zk adalah variabel nol-satu yang mewakili kelayakan untuk berpartisipasi dalam program — yang, semoga saja, diacak secara individu atau, paling banyak, fungsi variabel eksogen lainnya z1, …, zk-1 (seperti pendapatan) — koefisien 𝛾𝑘 memiliki interpretasi yang menarik. Daripada perkiraan dampak program itu sendiri, itu adalah perkiraan efek penawaran program. Tidak seperti β1 dalam (15.28) —yang mengukur dampak program itu sendiri — 𝛾𝑘 memperhitungkan kemungkinan bahwa beberapa unit yang

memenuhi syarat akan memilih untuk tidak berpartisipasi. Dalam literatur evaluasi program, 𝛾𝑘 adalah contoh parameter: 𝛾𝑘 mengukur efek yang dibuat memenuhi syarat dan bukan efek partisipasi aktual. Koefisien 𝛾𝑘 = 𝛽1 𝜋𝑘 tergantung pada efek partisipasi, β1, dan perubahan (biasanya, peningkatan) dalam kemungkinan berpartisipasi karena memenuhi syarat, πk. [Ketika y2 adalah biner, persamaan (15.30) adalah model probabilitas linier, dan oleh karena itu pk mengukur perubahan ceteris paribus dalam probabilitas bahwa y2 = 1 sebagai zk beralih dari nol ke satu.] 15-3 Dua Tahapan Kuadrat Terkecil Pada bagian sebelumnya, kami mengasumsikan bahwa kami memiliki satu variabel penjelas endogen tunggal (y2 ), bersama dengan satu variabel instrumental untuk y2. Sering terjadi bahwa kita memiliki lebih dari satu variabel eksogen yang dikeluarkan dari model struktural dan mungkin berkorelasi dengan y2, yang berarti mereka adalah IV yang valid untuk y2. Pada bagian ini, kita membahas bagaimana menggunakan beberapa variabel instrumental. 15-3a Variabel Penjelasan Endogen Tunggal Pertimbangkan lagi model struktural (15.22), yang memiliki satu variabel penjelas endogen dan satu eksogen. Misalkan sekarang kita memiliki dua variabel eksogen yang dikecualikan dari (15.22): z2 dan z3. Asumsi kami bahwa z2 dan z3 tidak muncul dalam (15.22) dan tidak berkorelasi dengan kesalahan u1 dikenal sebagai pembatasan pengecualian. Jika z2 dan z3 keduanya berkorelasi dengan y2, kita bisa menggunakan masing-masing sebagai IV, seperti pada bagian sebelumnya. Tetapi kemudian kita akan memiliki dua penduga IV, dan tak satu pun dari ini, secara umum, akan efisien. Karena masing-masing z1, z2, dan z3 tidak berkorelasi dengan u1, kombinasi linear apa pun juga tidak berkorelasi dengan u1, dan karenanya setiap kombinasi linear dari variabel eksogen adalah IV yang valid. Untuk menemukan IV terbaik, kami memilih kombinasi linear yang paling berkorelasi dengan y2. Ini ternyata diberikan oleh persamaan bentuk tereduksi untuk y2.

Dimana

Kemudian, IV terbaik untuk y2 (di bawah asumsi yang diberikan dalam lampiran bab) adalah kombinasi linear dari zj dalam (15.33), yang kita sebut𝑦2∗ :

Agar IV ini tidak berkorelasi sempurna dengan z1, kita perlu setidaknya satu dari π2 atau π3 berbeda dari nol:

Ini adalah asumsi identifikasi kunci, setelah kita menganggap zj semuanya eksogen. (Nilai π1 tidak relevan.) Persamaan struktural (15,22) tidak diidentifikasi jika π2 = 0 dan p3 = 0. Kita dapat menguji H0: π2 = 0 dan π3 = 0 terhadap (15,35) menggunakan statistik F Cara yang berguna untuk memikirkan (15.33) adalah bahwa y2 dipecah menjadi dua bagian. Yang pertama adalah yp 2; ini adalah bagian dari y2 yang tidak berkorelasi dengan istilah kesalahan, u1. Bagian kedua adalah v2, dan bagian ini mungkin berkorelasi dengan u1 — itulah sebabnya y2 mungkin endogen. Mengingat data pada zj, kita dapat menghitung 𝑦2∗ :untuk setiap pengamatan, asalkan kita tahu parameter populasi πj. Ini tidak pernah benar dalam praktiknya. Namun demikian, seperti yang kita lihat di bagian sebelumnya, kita selalu dapat memperkirakan formulir yang dikurangi dengan OLS.

Related Documents

Ekonomet Fix!.docx
December 2019 7
Lampiran Ekonomet Mklh
June 2020 10
Tugas Pkn Individu Fixdocx
October 2019 113

More Documents from "Ersi Ghaisani Masturah"

Ekonomet Fix!.docx
December 2019 7
Moesly And Chen.docx
December 2019 4
Tugas Eko Publik.docx
December 2019 7
Materi Kependudukan.docx
December 2019 14
Anemia Defisiensi Besi
November 2019 58