Evaluasi Critical Book Bab 12 & 13.docx

  • Uploaded by: bobby waldani
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Evaluasi Critical Book Bab 12 & 13.docx as PDF for free.

More details

  • Words: 7,558
  • Pages: 31
Critical Book Report

EDUCATIONAL MEASUREMENT AND TESTING

(William Wiersma and Stephen G. Jurs)

Oleh: PURNAMA SARI (8166121008)

PROGRAM STUDI TEKNOLOGI PENDIDIKAN PROGRAM PASCASARJANA UNIVERSITAS NEGERI MEDAN MEDAN 2017

KATA PENGANTAR Puji syukur kami ucapkan kehadirat Tuhan Yang Maha Esa atas rahmat dan hidayah-Nya, sehingga sebuah Critical Book Report yang berjudul β€œEducational Measurement And Testing” ini dapat diselesaikan tepat waktu. Melalui Critical Book Report ini diharapkan para pembaca dapat mengenal lebih jauh tentang evaluasi pendidikan dan pelatihan. Penulis juga tidak lupa mengucapkan terima kasih atas dorongan dan bimbingan dari dosen pengampu mata kuliah evaluasi pendidikan dan pelatihan di PPS UNIMED. Dengan kuliah yang beliau berikan penulis dapat memahami tentang evaluasi pendidikan dan pelatihan. Dengan bekal tersebut, penulis dapat menyusun Critical Book Report ini. Apabila Critical Book Report ini kurang sempurna, penulis mengharapkan kritik dan saran yang membangun dari para pembaca sekalian demi perbaikan di hari yang akan datang. Semoga Critical Book Report ini dapat memberikan manfaat bagi kita semua. Atas perhatiannya, penulis ucapkan terima kasih.

Medan,

April 2017

Penulis

i

DAFTAR ISI

KATA PENGANTAR ............................................................................................ i DAFTAR ISI.......................................................................................................... ii BAB I PENDAHULUAN A. Latar Belakang .................................................................................................. 1 B. Rumusan Masalah ............................................................................................. 1 C. Tujuan Penulisan ............................................................................................... 1 BAB II RANGKUMAN ISI BUKU A. Identitas Buku .................................................................................................. 2 B. Rangkuman Isi Buku ....................................................................................... 2 BAB III PEMBAHASAN A. Keunggulan Buku .......................................................................................... 26 B. Kelemahan Buku ............................................................................................ 26 BAB III PENUTUP A. Kesimpulan ................................................................................................... 27 B. Saran ............................................................................................................. 27 DAFTAR PUSTAKA .......................................................................................... 28

ii

BAB I PENDAHULUAN A. Latar Belakang Konsep dalam pengukuran proses pembelajaran yang berpusat pada pembelajar (learned-centered) adalah penilaian yang berpusat pada pembelajar (learner-centered assessment). Definisi learner-centered assessment merupakan test acuan patokan, sebagai element inti dari pembelajaran yang didesain secara sistematis. Tipe test ini penting untuk mengevaluasi perkembangan pebelajar dan kualitas pembelajaran. Hasil dari tes acuan patokan memberikan indikasi instuktur seberapa baik pebelajar mampu mencapai setiap tujuan pembelajaran, dan mengindikasikan komponen mana dari pembelajaran yang bisa berjalan dengan baik, dan komponen mana yang perlu direvisi. Selain itu juga, tes acuan patokan memungkinkan pembelajar untuk merefleksikan diri dengan mengaplikasikan kriteria untuk menilai hasil kerja mereka sendiri.

B. Rumusan Masalah Dari uraian latar belakang masalah di atas, maka dapat dirumuskan masalah yang akan dibahas antara lain: 1.

Apakah ada kelebihan dan kelamahan buku?

2.

Apakah buku yang cocok digunakan pada saat pembentukan kurikulum?

C. Tujuan Penulisan Tujuan dalam pembuatan critical book report ini adalah: 1. Untuk mengetahui keunggulan dan kelemahan suatu buku. 2. Untuk mengetahui bisa tidak buku tersebut digunakan dalam pembentukan kurikulum. 3. Menambah wawasan dalam evaluasi pendidikan dan pelatihan.

1

BAB II RANGKUMAN ISI BUKU

A. Identitas Buku

1. Judul buku

: Educational Measurement and Testing

2. Pengarang

: William Wiersma and Stephen G. Jurs

3. Penerbit

: Allyn and Bacon A Division of Simon & Schuster, Inc

4. Tahun terbit : 1990 5. Tebal Buku : 411 halaman Buku β€œEducational Measurement and Testing” yang dikarang oleh William Wiersma and Stephen G. Jurs terdiri dari 5 Bagian dan 17 pokok bahasan.

B. Rangkuman Isi Buku BAB 12 KEANDALAN TES ACUAN PATOKAN Dua istilah yang sangat penting dalam pengujian adalah reliabilitas dan validitas. Sayangnya hal ini sering disalahgunakan. Mereka tidak sinonim; mereka memiliki tepat, definisi teknis yang memberikan kita dengan kriteria yang kita dapat mengevaluasi kecukupan teknis tes. Kami akan membahas keandalan tes acuan patokan dalam bab ini, keandalan tes acuan norma dalam Bab 8, dan validitas tes acuan patokan dan norma dirujuk tes pada Bab 13 dan 9, masing-masing. Konsep reliabilitas dan berbagai metode memperkirakan berapa tes handal yang telah mapan jauh sebelum tes acuan patokan dikembangkan. Beberapa ide-ide tradisional tentang 2

kehandalan tes harus dipertimbangkan kembali sebelum mereka dapat digunakan dengan tes acuan patokan, dan beberapa konsep yang berguna dengan tes acuan norma yang ditemukan menjadi tidak pantas untuk tes acuan patokan. Namun, kebutuhan untuk metode memperkirakan keandalan tes acuan patokan disambut oleh sejumlah ahli teori pengukuran yang merancang berbagai macam indeks statistik yang menangani masalah tersebut. Banyak dari teknik ini sangat teoritis kompleks dan komputasi rumit bahwa mereka menarik terutama untuk pengembang tes skala besar dan teori pengukuran. Kami telah memilih untuk menyajikan beberapa perkiraan langsung dari patokan dirujuk keandalan tes yang mungkin berguna untuk guru kelas. Orang yang tertarik dalam indeks yang lebih canggih disebut Hambleton, Swaminathan, Algina, dan Coulson (1978), Linn (1979) Traub dan Rowley (1980), Berk (1984), dan Crocker dan Algina (1986).

JANGKA KEANDALAN Ukuran diandalkan jika memberikan informasi yang konsisten tentang mahasiswa. Jika Anda adalah untuk melangkah pada skala kamar mandi lima kali dalam waktu tiga menit dan mendapatkan bobot 120, 147, 116, 133, dan 118, Anda tidak akan percaya skala itu. Ini akan menjadi tidak dapat diandalkan karena memberikan langkah-langkah yang tidak konsisten tersebut. Karakteristik penting dari tes yang berguna adalah bahwa ia menyediakan konsisten informasi (terpercaya). Catatan keandalan yang diperlukan tetapi tidak cukup bukti bahwa tes ini melayani tujuan yang dirancang. Mungkin skala kamar mandi menghasilkan lima bobot 116, 116, 117, 116. pengukuran tersebut cukup dapat diandalkan tetapi jika Anda benar-benar berat 125, maka langkah-langkah, meskipun konsisten, tidak sah. Ketika kita berpikir tentang konsistensi kinerja tes sering dalam hal stabilitas nilai tes di dua kesempatan uji. Jika seorang mahasiswa diuji dua kali selama bahan yang sama dengan tidak ada instruksi antara kali, kita ingin skor menjadi sangat konsisten dari satu waktu ke yang berikutnya. Cara lain untuk mempertimbangkan keandalan adalah konsistensi kinerja di set barang serupa di tes. Sebuah tes yang handal akan menjadi salah satu di mana ada pola yang konsisten dari kinerja seluruh item. Kami biasanya mengungkapkan keandalan tes dalam hal numerik. Paling sering ini adalah nilai yang dapat berkisar antara 0 dan 1. 0 akan menunjukkan tidak adanya lengkap konsistensi dan 1 akan menunjukkan bahwa skor yang sangat konsisten. Ini akan menjadi jarang untuk menemukan keandalan dihitung itu persis sama dengan 0 atau 1. Kebanyakan reliabilitas yang di suatu tempat di antara. Tes prestasi panjang dan dirancang dengan baik 3

dapat mencapai nilai reliabilitas yang dekat 0,90. Sikap lebih sulit untuk mendefinisikan dan mengukur daripada prestasi kognitif, sehingga reliabilitas mereka mungkin lebih dekat ke 0,70 - rentang 0,80. Ketika keandalan dihitung dari tes adalah dekat atau di bawah 0,50 ada begitu banyak inkonsistensi dalam skor bahwa mereka pada dasarnya tidak berharga untuk membentuk keputusan dasar tentang individu siswa. Tidak ada satu nilai reliabilitas untuk tes yang berlaku untuk semua kelompok peserta ujian dan untuk semua kondisi pengujian. Nilai yang dihitung untuk keandalan sangat banyak fungsi dari kelompok tertentu dari peserta ujian dan spesifik dari kondisi pengujian. Selain itu, ada beberapa cara untuk mendefinisikan keandalan dan cara masing-masing memiliki metode sendiri menghitung nilai reliabilitas. Oleh karena itu, tidak mengherankan bahwa nilai-nilai dihitung dari formula yang berbeda akan menghasilkan perkiraan keandalan yang tidak sama. Jelas, dalam rangka untuk mengevaluasi nilai yang dilaporkan untuk keandalan tes ini kita perlu mengetahui rincian seperti apa rumus yang digunakan, yang terdiri sampel, dan apakah salah satu kondisi pengujian mungkin telah mempengaruhi skor. Seperti secara khusus menangani keandalan tes acuan patokan, kita perlu khawatir dengan: (1) keandalan keputusan kita tentang mengkategorikan mahasiswa sebagai telah menguasai atau tidak telah menguasai domain konten dan (2) keandalan dari perkiraan kami kinerja pada sebuah domain. Sebuah tes dapat diandalkan jika memberikan informasi yang konsisten tentang peserta ujian. Nilai yang dihitung untuk keandalan tergantung pada rumus yang digunakan, karakteristik sampel peserta ujian, dan kondisi pengujian. Kami akan menyajikan metode yang sesuai untuk masing-masing penggunaan ini dari skor tes acuan patokan.

KEANDALAN (KONSISTENSI) KEPUTUSAN PENGUASAAN Cara yang paling langsung untuk menentukan apakah keputusan menguasai / tidak menguasai konsisten adalah untuk menguji kelompok yang sama mahasiswa pada dua kesempatan dan melihat apa yang persentase siswa mencapai keputusan menguasai / tidak menguasai yang sama pada dua kesempatan. Jika persentase yang besar dari siswa mencapai penguasaan pada kedua kesempatan tes atau gagal untuk mencapai penguasaan pada kesempatan kedua, maka keputusan yang cukup konsisten dan tes dinilai dapat diandalkan.

4

Pendekatan ini mengasumsikan bahwa interval waktu antara dua kesempatan tes singkat, mungkin beberapa hari, sehingga faktor-faktor lain tidak akan mungkin untuk campur tangan. Harus ada instruksi atau umpan balik korektif kepada siswa sebelum tes kedua diberikan. Tujuannya adalah untuk mengambil dua ukuran kinerja yang sama, tidak mengubah kinerja dari satu waktu ke lain. Bisa jadi persis tes yang sama akan diberikan pada dua kesempatan. Prosedur ini membatasi pengambilan sampel dari domain yang mungkin item karena tes tunggal terdiri dari relatif sedikit item. Siswa juga mungkin ingat beberapa item dari kesempatan tes pertama dan mengubah jawaban mereka atau jumlah waktu yang dihabiskan untuk setiap pertanyaan. Hal ini bisa meningkatkan nilai dari beberapa siswa dari bawah batas penguasaan di atas batas. Budidaya skor sedemikian rupa akan menghasilkan konsistensi yang lebih rendah di dua kesempatan uji. Jika set yang berbeda dari item yang diberikan pada dua tes, maka pengambilan sampel dari domain akan lebih luas dan tidak akan ada mengingat item tertentu. Namun, akan diperlukan untuk memastikan bahwa dua tes yang paralel. Cara untuk membuat tes paralel untuk menghasilkan barang-barang dari bentuk item atau dari spesifikasi tes rinci dan tujuan. Sebagai item berasal dari sumber yang sama, tes akan sangat mirip penting, meskipun, untuk membuat tes yang sama panjang. Menghitung Keandalan Perkiraan Kehandalan menguasai / keputusan tidak menguasai hanyalah persentase peserta ujian untuk siapa keputusan penguasaan konsisten pada dua tes. Data contoh disediakan pada Tabel 12 1. Skor yang tercantum adalah jumlah jawaban yang benar pada tes 12-item untuk 25 siswa. Dengan asumsi nilai batas penguasaan dari 9 (75 persen) respon yang benar, jumlah orang yang menguasai setiap tes dapat dihitung. Dari 25 siswa, 6 mencapai penguasaan pada kedua tes dan 15 berada di bawah batas skor di kedua tes.

5

Tabel 12-1 Kinerja 25 Siswa Pada Tes Acuan Patokan Dengan Penguasaan Batas Skore. Mahasisw

Test 1

Test 2

A

12

12

B

12

11

C

11

12

D

11

9

E

10

7

F

10

8

G

10

9

H

9

9

Aku

9

6

J

7

10

K

7

8

L

7

8

M

6

7

N

6

6

O

5

6

P

5

6

Q

5

6

R

4

6

S

4

6

T

4

5

U

4

5

V

3

4

W

3

4

X

3

4

Y

3

3

a

Uji2

Mastery

1

6

Nonmastery

15

3

Nonmastery

Mastery

Test 1

Penguasaan memotong: setidaknya 9 benar 6

oleh karena itu, keandalan keputusan adalah sebagai berikut 𝜌0 =

6 + 15 = .84 20

Indeks diusulkan oleh Hambleton dan Novick (1973). Ini menyediakan metode yang sederhana dan praktis menilai konsistensi keputusan menguasai / tidak menguasai.

KEANDALAN DARI PERKIRAAN WILAYAH SKOR Tujuan dari beberapa tes acuan patokan adalah untuk melihat seberapa baik siswa yang dilakukan pada domain kriteria (yaitu, untuk memperkirakan persentase semua item mungkin bahwa siswa bisa menjawab dengan benar). Kita mengatakan perkiraan karena jumlah kemungkinan item biasanya begitu besar bahwa seorang siswa tidak akan pernah bisa diuji pada apa pun kecuali sebagian kecil dari total. Meski begitu, kita dapat menggunakan kinerja siswa pada satu set kecil item untuk memperkirakan statistik kinerja pada seluruh domain. Keandalan prosedur estimasi nilai domain mensyaratkan bahwa domain akan didefinisikan dengan baik tapi tentu saja yang diperlukan untuk setiap tes acuan patokan. Hal ini juga perlu bahwa item pada tes secara acak mewakili seluruh domain. Aturan item-pembangkit seperti bentuk barang akan menyebabkan ini terjadi. Dengan demikian, tes acuan patokan yang dirancang dengan baik adalah benar-benar semua yang kita butuhkan. Misalkan kita mengelola sebuah tes acuan patokan 20-item untuk mahasiswa untuk memperkirakan gelar kompetensi pada domain dan dia menjawab 8 item dengan benar: 𝜌=

8 = .40 20

Kami kemudian akan memperkirakan bahwa ia benar bisa menjawab 40 persen dari item dalam domain. Namun, karena dia hanya diberi 20 item, yang tapi sampel acak dari item dalam domain, kita akan mengharapkan bahwa pada pengujian kedua atau ketiga dengan item yang berbeda dari domain dia mungkin memiliki skor yang akan agak berbeda dari 40 persen bahwa dia dicapai pertama kalinya. Jika tes dapat diandalkan, skor akan sangat konsisten. Jika mereka tidak dapat diandalkan, skor mungkin berfluktuasi cukup sedikit. Standard error pengukuran yang digunakan untuk mengukur variasi ini antara skor dari individu di seluruh diulang, tes paralel. Dalam aplikasi tertentu, kesalahan standar pengukuran telah didefinisikan sebagai berikut (Berk, 1980):

7

𝑆𝑒 = √ Dimana

πœŒπ‘ž π‘›βˆ’1

n = jumlah item pada tes 𝜌 = persentase yang benar q=1βˆ’πœŒ

Jika jumlah kemungkinan item dalam domain terbatas, seperti dalam 100 fakta-fakta matematika dasar atau set awal suara konsonan, maka penyesuaian dibuat untuk formula. 𝑁 βˆ’π‘›

Se = √

𝑁

πœŒπ‘ž

(𝑛 βˆ’1)

Dimana N = jumlah item dalam domain. Karena sebagian besar domain dapat dianggap sangat besar, persamaan 12.1 akan digunakan dalam kebanyakan kasus. Kembali ke contoh di mana siswa menjawab 40 persen dari item dengan benar pada 20 - uji item, sekarang kita dapat menghitung bahwa kesalahan standar pengukuran 0,12: (0,40)0,60)

Se = √

20βˆ’1

= 0,12.

Hal ini memungkinkan kita untuk kualitas perkiraan kami gelar siswa kompetensi pada domain dengan mempertimbangkan tidak dapat diandalkan tes. Sebuah perkiraan yang lebih baik dapat ditemukan dengan membentuk interval dari satu kesalahan standar pengukuran di bawah persentase yang benar untuk satu kesalahan standar pengukuran di atas titik bahwa: Interval estimate = 𝜌 Β± 𝑆𝑒 (12.3) Sebagai contoh kita, ini adalah: 0,40 Β±. 12. Oleh karena itu estimasi selang kami adalah (0,28, 0,52). Ini berarti bahwa dengan 20 kami - tes item yang kami akan memperkirakan bahwa siswa benar dapat menjawab 28-52 persen dari item dalam domain. Perhatikan bagaimana estimasi interval yang menyajikan gambar yang lebih hati-hati. Estimasi titik 40 persen memberikan kesan akurasi, yang 20 - uji item tidak benar-benar memiliki. Penggunaan estimasi interval yang memberikan kita beberapa apresiasi ketidak telitian skor tes kami. Interval ini hanya perkiraan dari tingkat sebenarnya dari kompetensi. Selang waktu Β± satu kesalahan standar pengukuran akan mencakup tingkat yang benar kompetensi 68 kali dari 100, probabilitas 0,68. Selang waktu Β± dua kesalahan standar pengukuran akan mencakup tingkat yang benar dari kompetensi 95 kali keluar 100. Kami berpikir bahwa Β± error salah satu standart pengukuran baik mudah untuk menghitung dan cukup tepat untuk penggunaan di dalam kelas. 8

Hal ini terlihat dari persamaan 12,1 bahwa kita bisa menurunkan kesalahan standart pengukuran dengan memasukkan lebih banyak item dengan termasuk item lebih pada tes. Jika kita memiliki menggunakan tes 40-item, kesalahan standart pengukuran dalam contoh kita akan lebih kecil dari 0,12 kami temukan untuk tes 20-item. 𝑠𝑒 = √

(.4).(.6) 40βˆ’1

= .08

Harus kita menggunakan tes 60-item, kesalahan standart pengukuran akan lebih kecil namun: (.4).(6)

𝑠𝑒 = √ 60βˆ’1 = .60. Keandalan merupakan fungsi langsung dari jumlah item. Perhatikan bahwa dua kali lipat jumlah item tidak memotong kesalahan standart pengukuran dalam setengah. Perubahan tingkat kurang dari itu. Perbandingan estimasi interval p Β± Se selama 20, 40, dan 60 item lebih lanjut menggambarkan bagaimana tes lagi yang lebih akurat. Jika p = 40, interval untuk tes 20-item (0,28, 0,52) Untuk uji 40-item, itu adalah (0,32, 0,48) Untuk uji 60-item, itu adalah (0,34, 0,46) Sebuah kesimpulan yang jelas adalah kita harus mengetahui tes untuk memastikan scores.there tes dapat diandalkan adalah beberapa contraints praktis pada panjang dari pengujian kami, namun. ini termasuk waktu pengujian limitid, rentang perhatian siswa dan keterbatasan kemampuan sendiri untuk membuat sejumlah besar item yang masih sesuai dengan spesifikasi domain. Komentar tentang Se Standart eror pengukuran berbeda dari sebagian besar nilai-nilai numerik lain yang menunjukkan bagaimana keandalan tes.. Persentase keputusan penguasaan konsisten dan acuan norma koefisien reliabilitas tradisional memiliki nilai antara 0 dan 1. kecil nilai menunjukkan keandalan yang lebih rendah. Nilai dekat 1 berarti ukuran yang sangat handal. Standard eror pengukuran tidak bekerja dengan cara ini, namun. Nilai mendekati 0 untuk kesalahan standar pengukuran akan berarti bahwa ukuran yang sangat handal; ada sedikit kesalahan. Nilai yang lebih besar dari Se menunjukkan kurang kehandalan. Dan, nilai kemungkinan terbesar dari pengukuran standard error di tidak 1. Untuk kesalahan standar pengukuran yang kita telah digunakan untuk memperkirakan persentase domain item yang peserta ujian bisa menjawab dengan benar, maksimum Se akan menjadi sekitar 0,50. ini akan accur ketika diuji dengan jawaban benar dari dua item pada tes. 9

Standard error pengukuran dapat digunakan untuk membentuk perkiraan interval kinerja pada domain. Ukuran ini dari kesalahan standar pengukuran berbanding terbalik dengan jumlah item pada tes.

PENGGUNAAN ACUAN NORMA KOEFISIEN RELIABILITAS Kadang-kadang, metode koefisien reliabilitas komputasi untuk tes acuan norma yang diterapkan pada skor dari tes acuan patokan. Ada masalah dengan ini karena tes acuan norma yang dirancang untuk mengukur perbedaan antara individu, bukan kinerja pada Domin baiksfecified. Tujuan dari tes acuan norma adalah untuk menyebar skor. Ini adalah relevant dalam tes acuan patokan karena kinerja seseorang tidak dibandingkan dengan orang lain melainkan untuk berbagai kemungkinan skor. Dengan demikian, dua jenis tes melayani tujuan yang berbeda dan karena itu apa artinya menjadi handal juga akan berbeda. Meskipun demikian, Anda mungkin kadang-kadang menemukan koefisien keandalan untuk nilai tes acuan patokan yang dihitung metode acuan norma. Koefisien ini dijelaskan secara rinci dalam Bab 8 sehingga mereka tidak akan dikembangkan di sini. Satu koefisien yang kemungkinan besar akan perjumpaan adalah estimasi Kuder-Richardson konsistensi internal (KR-20). KR-20 koefisien reliabilitas dapat berkisar dari 0 sampai 1, dengan nilai-nilai nearen 1 menunjukkan performa yang konsisten di seluruh item pada tes. Item pada tes acuan patokan harus cukup homogen. Oleh karena itu, kita akan mengharapkan pola konsisten keberhasilan atau kurangnya keberhasilan pada item dari test. Acuan mungkin mengapa kita kadangkadang melihat KR-20 digunakan dengan cara ini. Rumus untuk menghitung KR-20 dan deskripsi sifat-sifatnya disajikan dalam Bab 8.

KOMENTAR UMUM TENTANG KEANDALAN Kami memiliki melihat bagaimana inkonsistensi atau tidak dapat diandalkan skor tes dapat mempengaruhi seberapa yakin kita menggunakan nilai sebagai dasar keputusan tunggal tentang kinerja siswa. Beberapa pengujian kami mungkin cukup handal dan lain-lain mungkin kurang dapat diandalkan. Kita tidak bisa hanya berasumsi bahwa pengujian kami secara teknis memadai. Kita harus regulary memantau reliabilitas dari tes kami. Perkiraan compued keandalan akan menjadi bukti lebih baik dari tayangan subjektif kita tentang kecukupan tes ini. 10

Apa yang menyebabkan nilai siswa tidak konsisten ketika diberikan bentuk paralel tes acuan patokan atau di item yang tampaknya serupa dalam tes yang sama? Untuk saat ini kita telah tersirat bahwa itu adalah duoto kurangnya item homogen atau karena ada terlalu beberapa item. Masalah-masalah ini jelas berkontribusi unreliablility, tapi ada faktor dari itu. Inkonsistensi mungkin disebabkan oleh faktor-faktor dalam item tes, pengaturan pengujian, dan siswa. Kata-kata dari item tes, ketidakjelasan, atau cacat dalam konstruksi mungkin mempromosikan beberapa respon dari mahasiswa, yang berbeda dari dana cara barang serupa di tes itu ditujukan. Beberapa masalah ini dapat terungkap setelah analisis item dilakukan. Situasi pengujian juga harus diperhatikan. Penyesuaian cahaya, ruang, dan tenang diperlukan untuk lingkungan pengujian yang baik. Interupsi atau pemeriksa asing mungkin juga menyebabkan siswa tidak konsisten. Guru biasanya memiliki tingkat besar kontrol atas pengaturan pengujian dan setiap upaya harus dilakukan untuk membatasi dampaknya terhadap keandalan nilai tes. Item tes dan pengaturan yang penting, tapi faktor utama dalam konsistensi skor tes siswa. Apakah siswa lelah, lapar, termotivasi, cemas, sakit, bosan, atau sibuk? Salah satu atau semua faktor ini dan tak terhitung tanggapan pribadi lainnya selama situasi tes dapat memberikan kontribusi untuk prestasi yang tidak konsisten dari siswa. Seperti susunan potensi mengkontaminasi sebuah mungkin tampak luar biasa tetapi tidak masalah besar bagi kebanyakan siswa ketika mereka mengambil tes yang mereka lihat sebagai penting. Namun, guru harus mencari tanda-tanda bahwa masalah tersebut mungkin mempengaruhi penampilan tes beberapa siswa. Pengakuan faktor-faktor ini yang mempengaruhi uji reliabilitas, terutama karakteristik manusia, harus menyebabkan kita untuk menyadari bahwa tidak mungkin untuk mengembangkan tes yang sempurna handal. Kita tidak harus mengharapkan bahwa kesalahan standar pengukuran akan sama dengan nol. Sebaliknya, kita akan melakukan segala upaya untuk mengendalikan sumber-sumber tidak dapat diandalkan sehingga kita menggunakan langkah-langkah yang paling dapat diandalkan bahwa kita mampu mengembangkan. Meningkatkan Uji Keandalan Ada beberapa faktor umum yang meningkatkan keandalan pengujian kami. Sebagian besar berada di bawah kontrol langsung dari guru kelas. Item homogen: ketika item tes acuan patokan berasal dari bentuk barang tertentu atau tujuan, item harus serupa di isi dan format. 11

Item diskriminatif: item yang telah mengalami analisis barang dan telah ditemukan untuk secara positif membedakan akan meningkatkan keandalan tes ini. Item cukup: keandalan secara langsung dipengaruhi oleh panjang tes. Tes yang dapat diandalkan Ketinggian kualitas menyalin dan Format: memastikan bahwa item yang terbaca dan tidak terlalu ramai pada halaman. Sebuah tes yang terlihat tajam akan mempromosikan reaksi sesuai dari siswa. Arah yang jelas kepada siswa: siswa perlu tahu bagaimana menanggapi pertanyaanpertanyaan. Setiap ambiguitas dapat memperkenalkan inkonsistensi. Pengaturan dikendalikan: guru harus memastikan pengaturan tes optimal yang menghilangkan faktor pembaur sebanyak mungkin. Pengenalan Memotivasi: siswa akan merespon konsisten dan lebih terlibat dalam tugas ketika dia tahu bahwa guru menganggap tes menjadi penting dan tahu bagaimana skor tes akan digunakan. Arah yang jelas untuk pencetak gol terbanyak: ketidaksesuaian dalam mencetak gol dari respon siswa akan menurunkan reliabilitas tes ini. Perhatian terhadap factor yang akan membantu mempromosikan nilai tes yang dapat diandalkan. Untuk sebagian besar, faktor-faktor ini ide daripada prosedur yang sangat berpengaruh pada pikiran. Namun, mereka penting dan mereka harus disimpan dalam pikiran setiap kali tes yang diberikan

Reliability ditentukan oleh kualitas item tes, tetapi juga dipengaruhi oleh karakteristik peserta ujian dan kondisi pengujian.

RINGKASAN Sebuah tes dapat diandalkan jika memberikan informasi yang konsisten tentang ujian. Hal ini dapat berarti bahwa tes acuan patokan menyediakan perkiraan konsisten kinerja pada domain atau bahwa tes menyediakan penempatan konsisten peserta ujian di penguasaan atau kategori nonmastery. Perbedaan jenis bukti kehandalan untuk masing-masing penggunaan ini tes acuan patokan. Apakah tes relatif konsisten untuk penguasaan keputusan ditunjukkan dengan memberikan tes pada dua kesempatan untuk kelompok yang sama peserta ujian dan 12

menemukan persentase peserta ujian yang menguasai / tidak mengusai klasifikasi berdua sama pada dua kesempatan uji. Prosedur ini juga bisa digunakan ketika bentuk paralel tes yang diberikan pada pengujian kedua. Sebuah tes yang dapat diandalkan akan memiliki persentase yang tinggi dari peserta ujian dengan klasifikasi menguasai / tidak menguasai yang sama pada dua tes. Ketika kinerja pada domain yang akan diperkirakan mondar-mandir nilai tes, standard error interval pengukuran dapat digunakan untuk dari perkiraan interval. Perkiraan Interval menunjukkan tingkat ketidaktepatan yang ada di nilai tes kami. Standard error dari pengukuran memberi kita gambaran tentang berapa banyak kita bisa mengharapkan nilai tes berfluktuasi di seluruh pencobaan diulang. Keandalan tes dapat ditingkatkan dengan perhatian terhadap item tes, pengaturan tes, dan ujian. Sebuah tes yang dapat diandalkan akan memiliki item yang homogen. Semakin sama item, yang lebih konsisten akan pendekatan siswa untuk barang-barang. Item harus bebas dari kekurangan atau ketidakjelasan kata-kata sehingga inkonsistensi berkurang. Dan, karena ada hubungan langsung antara panjang tes dan keandalan tes, harus ada jumlah yang cukup item. Inkonsistensi dalam kinerja siswa dapat dikurangi dengan memastikan bahwa kondisi pengujian sesuai. Harus ada yang memadai dan tenang sehingga siswa dapat berkonsentrasi pada tugas. Gangguan harus dihilangkan dan item tes dan arah tentang bagaimana untuk menjawab mereka harus jelas. Skor diandalkan tergantung pada siswa menjadi termotivasi untuk menerapkan diri mereka untuk tugas itu. Hal ini dipromosikan bagaimana guru mendorong siswa untuk melakukannya dengan baik dan menjelaskan bagaimana nilai tes akan digunakan. Guru juga harus waspada untuk masalah individu siswa seperti kelelahan atau kecemasan yang mungkin mempengaruhi keandalan nilai tes. Adalah penting bahwa kita memperhatikan keandalan pengujian kami. Dengan barang-barang berkualitas tinggi tes, pengaturan tes terkendali dengan baik, dan sangat memotivasi siswa, tingkat yang sangat baik dari kehandalan dapat diperoleh. Namun, ini bukan sesuatu yang bisa diserahkan kepada kesempatan; membutuhkan usaha teliti.

13

BAB 13 VALIDITAS TES ACUAN PATOKAN Tes handal adalah salah satu yang menghasilkan skor yang konsisten untuk siswa. mereka memadai untuk tujuan yang tes dirancang, adalah soal lain. Validitas adalah istilah yang mengacu pada apakah tes mengukur apa yang dirancang untuk mengukur. Validitas selalu dibahas dalam hal tujuan tes ini; itu adalah masalah derajat, bukan karakteristik yang baik ada atau tidak ada. Karena tes digunakan untuk beberapa tujuan yang sangat berbeda, bukti yang diperlukan untuk menunjukkan bahwa tes ini berlaku juga akan bervariasi. Bukti yang disajikan untuk menunjukkan validitas tes adalah kombinasi dari pendapat ahli dan hasilnya statistik. Proses ini memungkinkan kita untuk mendapatkan un pemahaman tentang apa skor tes berarti dan jenis keputusan yang dapat didasarkan pada skor. Ada banyak istilah yang telah digunakan untuk uji validitas, termasuk validitas isi, validitas kurikulum, validitas wajah, validitas redictive, antara lain. Kami akan menggunakan validitas isi, validitas kriteria, dan validitas konstruk karena istilah ini telah didukung oleh komite bersama dari American Educational Research Association, American Psychological Association, dan Dewan Natonal pada Pengukuran dalam Pendidikan dalam standar teknis mereka untuk penerbit test (AERA / APA / Joint Committee NCME, 1985) Isi, kriteria, dan validitas konstruk adalah istilah yang pertama kali digunakan untuk tes acuan norma. (Aplikasi acuan norma yang dijelaskan secara rinci dalam chapter 9). Penggunaan istilah ini dengan tes acuan patokan hadir tidak ada masalah. Istilah berarti hal yang sama untuk kedua acuan patokan dan tes acuan norma. Namun, yang jelas tentang validitas norma dan tes acuan patokan akan sedikit berbeda, refleksi tujuan yang berbeda bahwa tes ini berfungsi. Validitas berkaitan dengan sejauh mana mengukur tes apa itu dimaksudkan untuk mengukur dan berguna untuk tujuan yang dirancang.

ISI KEABSAHAN Konten validitas tes acuan patokan mengacu pada sejauh mana item pada tes mencerminkan domain yang dituju. Dalam banyak kasus ini ditentukan oleh seberapa dekat barang-barang sesuai dengan tujuan. Validasi konten tidak dilakukan oleh analisis statistik melainkan oleh inspeksi item. Hal ini berbeda dari reability dan membentuk bentuk lain dari validitas mana bukti adalah dalam hal nilai tes dan sifat statistik mereka. 14

Proses pembentukan validitas isi untuk tes acuan patokan pada dasarnya adalah beberapa proses yang digunakan dengan tes acuan norma. Ada penjelasan paralel validitas isi untuk tes acuan norma dalam pasal 9. Yang termasuk contoh rinci. Membangun validitas isi untuk tes acuan patokan harus agak sederhana dari itu akan untuk tes acuan norma. Hal ini karena spesifikasi yang tepat dari sebuah domain akan membuat tugas melihat apakah item cocok dengan domain sederhana daripada itu akan dengan domain longgar didefinisikan, seperti yang ditemukan dengan sebagian besar tes acuan norma. Konten validasi kadang-kadang dilakukan dengan memiliki sebuah panel ahli meninjau item pada tes dan menilai mereka dalam hal seberapa dekat mereka cocok dengan tujuan atau domain spesifikasi. Panel tidak perlu besar tetapi anggota harus berpengetahuan tentang area konten dan target audiens. Ahli tersebut dapat terdiri dari guru melayani dalam peran ini dengan sangat baik. Ketika ahli diminta untuk menilai item, yang terbaik adalah menggunakan beberapa bentuk terstruktur sehingga peringkat mereka dapat dibandingkan, rata-rata, atau selisih. Bentuk juga jelas mendefinisikan tugas rating dan memastikan bahwa semuanya akan diberikan perhatian yang memadai. Suatu bentuk kumpulan tayangan subjektif tentang item tes. Contoh dari bentuk sederhana yang dapat digunakan untuk menilai validitas isi item dari tes acuan patokan disediakan pada gambar 13-1.

GAMBAR 13 - Formulir 1 Ratting untuk Menilai Konten Validitas Tujuan: Silakan menilai items yang ditulis untuk tujuan di atas dalam hal seberapa baik item sesuai tujuan. Item #

Buruk

Sempurna

1

1

2

3

4

5

2

1

2

3

4

5

3

1

2

3

4

5

4

1

2

3

4

5

5

1

2

3

4

5

6

1

2

3

4

5

7

1

2

3

4

5

8

1

2

3

4

5

Komentar tentang item atau saran untuk item tambahan: 15

penilai tersebut akan diberikan salinan tes dan bentuk rating, yang akan berisi tujuan. Penilai kemudian akan dievaluasi dari setiap item dengan tujuan merekam tanggapan mereka di formulir. Data membentuk beberapa penilai dapat summerized pada bentuk lain, seperti yang pada gambar 13-2, untuk memudahkan analisis perbandingan. Angka-angka dalam gambar 13-2 adalah peringkat yang mungkin telah diperoleh dari enam penilai. Notr bagaimana item 2 telah dinilai lebih rendah dari itemsd lain dan mungkin perlu direvisi. Tetapi perhatikan juga bagaimana bentuk seperti itu memungkinkan untuk memeriksa kesepakatan di antara penilai. No 3 tampaknya cukup berbeda dari rating lain dan peringkat nya mungkin perlu dipertimbangkan dengan beberapa skeptisisme. Seorang guru kelas mungkin tidak memiliki akses ke panel ahli yang diakui secara nasional, tapi dia atau dia dapat meminta rekan-rekan untuk memberikan review kesesuaian item dan macth antara item dan tujuan. Permintaan seperti itu bukanlah pemaksaan besar. Sebaliknya, itu membangun semangat berbagi dan kerja sama antara guru dengan di kekusutan kesadaran apa yang terjadi di ruang kelas masing-masing. GAMBAR 13-2 Peringkat Validitas Isi Formulir Musim Panas Dengan Item Untuk Semua Penilai Rater 1 2 3 4 5 6 Rata-rata Produk

1 5 5 4 4 4 5 4,67

2 3 3 5 2 3 3

3 5 4 3 4 5 5

3,16 4,33

4 5 5 5 5 5 5

Produk 5 4 5 5 4 5 5

5,00

4,50

6 5 5 4 5 5 5

7 4 5 3 4 5 5

8 5 5 5 5 4 5

4,83

4,33

4,83

Rater rata-rata 4,50 4,63 4,25 4,13 4,50 4,50

Ketika meninjau validitas isi dilakukan secara informal dengan rekan adalah mungkin lebih mudah untuk tidak menggunakan bentuk rating tapi hanya untuk duduk bersama-sama sementara item ditinjau dan mengambil catatan tentang komentar resensi mengenai item. Jelas, lebih spesifik spesifikasi domain atau tujuan, semakin besar kemungkinan bahwa akan ada kesepakatan tentang apakah barang yang cocok. Jika pengulas memiliki beberapa meragukan validitas isi tes. Maka akan ada kebutuhan untuk merevisi item tes, tujuan, atau keduanya.

Validitas isi berkaitan dengan perbandingan antara item dan wilayah 16

KRITERIA KEABSAHAN Berikut ini adalah situasi di mana dua istilah, acuan patokan dan kriteria validitas, tampaknya serupa tetapi, tentu saja, mereka sangat berbeda. Kami sebelumnya didefinisikan tes acuan patokan menjadi tes yang skor dibandingkan dengan domain yang defened dari kriteria sikap bukannya dibandingkan dengan puluhan peserta ujian lainnya. Validitas kriteria adalah prediktor yang berguna dari kinerja pada beberapa ukuran kriteria lainnya. Ukuran lain ini mungkin menjadi tes yang berbeda, pola perilaku masa depan, atau hampir semua variabel lain yang menarik. Mungkin contoh yang paling biasa validitas kriteria adalah situasi dua tujuan yang tampaknya terkait dan kami ingin menentukan apakah kinerja siswa pada tujuan pertama adalah prediksi nya kinerja pada tujuan kedua. Mungkin tujuan pertama berkaitan dengan keterampilan atau pengetahuan yang dianggap prasyarat untuk kinerja yang sukses pada tujuan kedua, seperti kebutuhan untuk menjadi lancar dengan pengurangan sebelum mencoba divition panjang, atau kebutuhan untuk mengetahui valensi kimia sebelum membentuk senyawa. Validitas kriteria akan ditampilkan sejauh mana kinerja pada tujuan kedua adalah ditebak jika kita mengetahui tingkat kinerja pada tujuan pertama. Kami akan menghubungkan skor dari tes acuan patokan dari masing-masing tujuan. Sebuah koefisien korelasi digunakan dalam kasus ini. (koefisien korelasi sebagai statistik deskriptif dibahas dalam bab 7.) mengingat bahwa koefisien korelasi dapat mengambil nilai-nilai dari -1,00 ke 1,00 inklusif. Semakin besar nilai absolut dari koefisien korelasi, semakin kuat hubungan antara variabel yang berkorelasi. Masukan dari koefisien korelasinya menunjukkan arah hubungan; tanda negatif menunjukkan hubungan terbalik, tanda positif hubungan langsung. Korelasi Domain Skor Meskipun kita menyadari bahwa statistik umumnya tidak stabil ketika mereka didasarkan pada ukuran sampel yang kecil, kita akan menggambarkan proses menghubungkan skor domain dengan sampel 10 orang hanya untuk membuat perhitungan sederhana. Misalkan 10 siswa diuji pada tujuan 1 dengan 10-item tes acuan patokan yang cocok dalam domain yang spesifik. Siswa diperbolehkan untuk bekerja pada tujuan 2, mungkin sebelum penguasaan dicapai pada tujuan 1. Ini akan memungkinkan kita untuk melihat apakah beberapa siswa akan melakukannya dengan baik pada tujuan 2 meskipun mereka memiliki skor rendah pada tes untuk tujuan 1. Berikutnya, tes acuan patokan untuk tujuan 2 diberikan. Tabel 13-1 berisi

17

seperangkat nilai yang diperoleh. Skor adalah jumlah item benar menjawab pada setiap tes, memperkirakan kinerja pada domain. Rumus untuk koefisien korelasi pada Tabel 13-1, serta nomor yang digunakan dalam formula. Data pada Tabel 13-1 menghasilkan korelasi 0,80, yang substansial. Kebanyakan koefisien validitas diterbitkan biasanya di kisaran 0,50 atau lebih rendah. Sebuah sebar dari pasangan skor diberikan dalam Gambar 13-3, yang menampilkan menutup sebuah Assotiation dari nilai pada tujuan 1 dan 2. 0,80 koefisien korelasi dan pola titik di sebar kedua menunjukkan tingkat tinggi kriteria validitas ketika skor pada tujuan 1 digunakan untuk memprediksi skor pada tujuan 2. Tabel 13-1. Korelasi antara Pasangan Skor pada Tes Acuan Patokan untuk Dua Tujuan Tujuan 1

Tujuan 2

Al

8

6

Barb

10

10

Chris

5

5

Don

3

5

Ed

8

9

Franco

10

8

Gina

9

10

Heather

6

8

Iise

7

8

juan

10

10

Ξ£X = 76

Ξ£Y = 79

βˆ‘π‘‹ 2 = 628

βˆ‘π‘Œ 2 = 659

r= r=

Ξ£XY = 634

𝑁 βˆ‘π‘‹π‘Œβˆ’ βˆ‘π‘‹βˆ‘π‘Œ √(𝑁 βˆ‘ 𝑋 2 βˆ’(βˆ‘π‘‹)2 ) (𝑁 βˆ‘ π‘Œ 2 βˆ’(βˆ‘π‘Œ)2 ) 10 Γ— 634βˆ’76 Γ—79 √(10 Γ—628 βˆ’ 762 )(10 Γ—659 βˆ’792 )

= .80

pola seperti itu akan menunjukkan bahwa keterampilan dan pengetahuan obyektif 1 dapat prasyarat untuk tujuan 2. setidaknya kita tahu bahwa siswa yang memiliki skor rendah pada tujuan pertama juga cenderung memiliki skor rendah pada tujuan kedua.

18

Prediksi Penguasaan jika kita prihatin dengan prediksi kinerja penguasaan pada tujuan, kami akan melanjutkan dengan cara yang berbeda. Misalkan skor batasan untuk penguasaan pada dua tes acuan patokan setidaknya delapan item yang benar. Kami kemudian bisa menentukan siswa yang dinilai telah menguasai atau tidak telah menguasai tujuan. Hal ini telah dilakukan untuk skor pada tabel 13-1 dan ditampilkan dalam tabel 13-2. Skor untuk tujuan adalah 1 jika menguasai, 0 jika tidak menguasai. Kita bisa menghitung koefisien korelasi pada data dalam tabel 13-2. Hal ini akan menghasilkan koefisien korelasi 0,36, yang jauh lebih rendah dari koefisien korelasi adalah karena kita telah mengabaikan perbedaan individu dan mencetak semua penguasaan jalan sama dan semua yang tidak menguasai cara yang sama

TABEL 13-2 Perbandingan Keputusan Penguasaan atas Dua Tujuan

Al Barb Chris Don Ed Franco Gina Heather Ilse Juan

Tujuan 1 Penguasaan 1 1 0 0 1 1 1 0 0 1

Tujuan 2 Penguasaan 0 1 0 0 1 1 1 1 1 1 19

Mastery Nonmastery

2 5 Objective 2 2 1 Nonmastery Mastery Tujuan 1 Selain itu, korelasi yang didasarkan pada dua variabel yang berbeda oleh presentase dari orang dalam distribusi marginal. Dalam contoh ini, persentase marginal adalah persentase dari menguasai dan tidak menguasai pada tujuan yang terpisah. Ketika persentase ini tidak sama pada dua variabel, ukuran korelasi berkurang. Kita tidak perlu heran bahwa hubungan berdasarkan scoring dikotomis jauh lebih rendah dari salah satu 0,80 yang kami temukan menggunakan skor mentah. Mungkin akan lebih jelas mengungkapkan validitas kriteria sebagai persentase siswa yang keputusan menguasai / tidak menguasai sama pada tujuan 1 dan 2. Kami lihat dari bawah meja 13-2 bahwa 5 orang mencapai penguasaan pada kedua tujuan dan 2 orang tidak berhasil di kedua tes. Oleh karena itu 7 dari 10 siswa, 0,70, memiliki penampilan yang konsisten pada dua tujuan. 0,70 menunjukkan tingkat substansial validitas kriteria. Penguasaan pada tujuan kedua dikaitkan dengan penguasaan pada tujuan pertama. Komentar pada Kriteria Validitas Prosedur yang digunakan dalam contoh kita dapat diterapkan lebih pengaturan dari korelasi kinerja pada dua tujuan. Skor tes acuan patokan juga dapat digunakan untuk memprediksi kinerja pada tes prestasi lainnya, peringkat guru potensi akademik, skor dari penilaian sikap, atau kriteria lain yang menarik. Bukti validitas kriteria berbicara dengan kecukupan tes untuk melayani tujuan-yang khusus prediksi kinerja pada beberapa variabel lain. Ukuran koefisien korelasi atau persentase keputusan konsisten tentang penguasaan akan tergantung banyak pada kecukupan kriteria ukuran sebagai kecukupan prediktor test. ditentukan atau tidak dapat diandalkan ukuran kriteria tidak dapat diprediksi dengan akurasi yang jauh. Koefisien validitas kriteria tergantung pada jumlah dan karakteristik sampel yang koefisien didasarkan. Sampel kecil akan menghasilkan statistik yang tidak stabil. Perubahan hanya dalam beberapa skor nyata dapat mempengaruhi korelasi ketika total sampel kecil. Sebuah tes mungkin memiliki validitas kriteria yang memadai bila digunakan dengan kedua anak kelas tapi mungkin tidak memadai bila digunakan dengan 5 anak di kelas. Sebuah tes yang merupakan prediksi yang baik dari prestasi akademik kemudian untuk siswa SMU

20

mungkin jauh kurang valid ketika hanya siswa SMA berbakat dianggap. Ketika karakteristik examininees berbeda, kita tidak perlu heran bahwa validitas kriteria juga mungkin berbeda. Validitas kriteria berkaitan dengan seberapa baik nilai tes memprediksi kinerja pada beberapa variabel lain, tes, atau tujuan. Validitas konstruk Penentuan validitas konstruk pada dasarnya adalah mencari bukti yang akan membantu kita undertand apa tes ini benar-benar mengukur dan bagaimana tes bekerja di berbagai pengaturan dan kondisi. Sebuah membangun adalah sifat, atribut, atau kualitas, sesuatu yang tidak dapat diamati secara langsung tetapi disimpulkan dari teori psikologi. Ketegasan, bakat skolastik, dan konsep diri adalah contoh konstruksi seperti yang tidak secara langsung diamati. Tes tidak mengukur konstruk langsung, melainkan, mereka mengukur kinerja atau perilaku yang mencerminkan konstruksi. Kami menyimpulkan dari pola teori diharapkan dari skor dari langkah-langkah dari konstruksi ini (yaitu, bagaimana mereka harus berhubungan dengan skor dari langkah-langkah lain). Sebagai contoh, kita akan berharap bahwa skor dari ukuran kebahagiaan akan berkorelasi positif dengan skor dari tes konsep diri dan bahwa skor konsep diri rata-rata anak laki-laki kelas tiga dan perempuan kelas tiga akan kira-kira sama. Ketika skor mengikuti harapan ini, kita memiliki bukti bahwa tes ini mengukur apa yang dimaksudkan untuk mengukur. Membangun panggilan validasi untuk kampanye studi daripada analisis tunggal, dan bukti-bukti validitas konstruk adalah informasi yang dikumpulkan dari seluruh set studi. Kedua analisis logis dari konten pengujian dan analisis statistik dari nilai tes yang digunakan, sehingga akan ada beberapa tumpang tindih dengan ide-ide obout konten dan validitas kriteria. Sebuah Contoh Membangun Validitas Misalkan kita mengembangkan tes acuan patokan cardio-paru resusitasi (CPR). Kita perlu melakukan beberapa studi validasi sebelum kita bisa meyakinkan orang lain bahwa kami memiliki tes yang valid. Analisis yang mengikuti akan memberikan informasi validitas konstruk penting. Analisis logis Item pada tes CPR harus mewakili domain yang ditentukan. Sebuah panel dokter berpengetahuan, instruktur CPR bersertifikat, dan pendidik kesehatan bisa reviw tes. Mereka akan menilai sejauh mana item sesuai domain te, apakah keterampilan atau ide-ide penting 21

tidak dimasukkan, dan apakah item memiliki format dan konstruksi yang tepat. Jika ini terdengar seperti prosedur validitas isi, harus karena itu adalah sama. Analisis Statistik-Korelasi Kami akan berharap bahwa kinerja pada tes CPR akan berkorelasi dengan ukuran lain dari keterampilan smilar. Bukti ini akan diperoleh dengan memberikan tes CPR dan langkahlangkah lain keterampilan smilar ke beberapa orang kelompok op dan kemudian menemukan koefisien korelasi. Kami akan berharap untuk menemukan korelasi positif yang kuat antara tes uji CPR dan CPR kami yang diterbitkan oleh Palang Merah. Positif, tapi agak lebih rendah, korelasi harus ditemukan antara nilai tes CPR dan skor pada langkah-langkah teknik pertolongan pertama lainnya seperti menghentikan perdarahan atau manuver Heimlich. Kami mungkin menemukan korelasi positif antara tes CPR dan tes pengetahuan anatomi sistem pernapasan. Nilai tes bahkan mungkin memprediksi tanggapan lter dengan situasi darurat. Langkah-langkah dari hal yang sama harus sangat berkorelasi, langkah-langkah dari variabel yang berbeda tetapi terkait harus memiliki lemah untuk korelasi moderat, dan langkah-langkah dari variabel yang tidak berhubungan seperti skor CPR nd nomor loker harus memiliki korelasi yang mendekati nol. Sebuah inpection dari pola korelasi nilai tes dengan varables lain membantu kita memahami bagaimana eduquate tes ini melayani tujuan yang dirancang. Ketika kita mulai memahami bahwa skor pada tes berkorelasi dengan informasi lain tentang examinies, kita lebih mampu menafsirkan implikasi apa yang dapat dilampirkan ke berbagai tingkat kinerja pada tes (misalnya, apa nilai tes bisa berarti). Perbedaan Analisis Kelompok Statistik Dalam contoh tes CPR kita mungkin dapat memprediksi bahwa kelompok-kelompok yang berbeda orang op akan memiliki kinerja tingkat rata-rata yang berbeda secara signifikan pada tes. Mereka yang bersertifikat dalam teknik CPR harus melakukan lebih baik pada tes CPR kami dari orang-orang yang tidak bersertifikat, dan CPR instruktur harus memiliki nilai ratarata yang lebih tinggi daripada siswa di kelas pelatihan CPR. Kami akan mengelola pengujian kami untuk kelompok-kelompok ini, membandingkan nilai rata-rata, dan melihat apakah harapan kami dikonfirmasi oleh data. Jika kami menemukan bahwa skor tes mengikuti harapan kami teoritis, maka kita memiliki bukti tambahan bahwa tes ini mengukur apa yang dimaksudkan untuk mengukur. Kami memiliki ide yang lebih baik tentang apa yang nilai tes berarti dan tujuan yang tes dapat digunakan. Ini akan menjadi penting untuk melihat apakah keputusan penguasaan berdasarkan nilai tes kriteria-referenced berada dalam perjanjian dengan keputusan penguasaan bagi para 22

siswa pada domain atau tujuan yang sama ketika penguasaan ditentukan dengan cara lain. Cara lain bisa peringkat guru pada skor dari tes yang berbeda. Jika semua keputusan mengenai status penguasaan berada dalam perjanjian, kita memiliki bukti bahwa nilai tes kriteria-referenced yang mengukur contucts dimaksudkan. Distraktor Analisis lanjut wawasan ke dalam karakteristik tes dapat diperoleh dengan melihat pola tanggapan terhadap pertanyaan-pertanyaan. Ini berarti melihat berapa banyak siswa yang dipilih masingmasing distraktor pada tes pilihan ganda atau akuntansi kesalahan yang dibuat pendekjawaban dan tanggapan esai. Selain melihat persentase siswa yang dipilih masing-masing pilihan yang salah pada item pilihan ganda. Hal ini penting untuk menemukan apakah pola pilihan yang salah adalah serupa untuk berbagai kelompok mahasiswa. Akan menarik untuk melihat apakah tanggapan pola op pada item yang sama bagi siswa yang mencapai penguasaan total tes dan mereka yang melakukan permen. Contoh analisis distrutor disediakan pada gambar 13-4. Hal ini tidak mengherankan, mereka yang mencapai penguasaan juga cenderung untuk memilih opsi yang (pilihan yang benar). Hal ini mengejutkan bahwa banyak dari mereka yang tidak mencapai penguasaan ditarik ke pilihan d. Jika perbedaan tersebut terulang di beberapa item nonmasters, kita akan memiliki gambaran yang lebih jelas tentang apa yang sebenarnya menyebabkan diskriminasi antara penguasaan dan tidak menguasai. Analisis tambahan mungkin kontras pola respon siswa dari kelompok ras atau etnis berbeda atau mereka dari tingkat sosial ekonomi yang berbeda. Analisis ini akan berguna dalam menghindari bias item-item yang tidak dirasakan sama oleh kelompok ini peserta ujian dan dengan demikian menciptakan berbagai buatan di nilai tes. Komentar Membangun Validitas Hal ini jelas dari berbagai jenis bukti validitas yang diperlukan untuk membangun kemampuan bahwa ini adalah yang paling kompleks dari validitas tes yang kita telah dijelaskan GAMBAR 13-4 Analisis Pola Respon pada Butir b

c

d

15

5

2

0

Mastery

8

5

4

10

Nonmastery

* respon yang benar

23

validitas yang telah kami jelaskan. Membangun validitas tidak terbentuk dalam belajar tunggal; Banyak penelitian diperlukan dengan peserta ujian dengan berbagai karakteristik dan Pengaturan. Selisih informasi dari studi ini membantu kita memahami Kekuatan, keterbatasan, dan makna dari nilai ujian. Menetapkan validitas konstruk dari tes acuan patokan adalah proses yang kompleks yang membutuhkan analisis isi serta analisis statistik.

RINGKASAN Tes yang cukup sesuai dengan tujuan penggunaannya digunakan untuk menjadi sebuah tes yang valid. Validitas selalu didefinisikan dalam hal tujuan dimana nilai tesnya akan digunakan. Validitas adalah masalah tingkatan. Satu tes mungkin lebih valid dari yang lain tapi tes biasanya tidak sepenuhnya valid dan tidak valid. Karena tes acuan patokan digunakan untuk beberapa tujuan berbeda, termasuk memperkirakan kinerja pada domain dan menentukan apakah siswa telah mencapai penguasaan, tidak mengherankan bahwa berbagai jenis logika dan bukti statistik harus disajikan untuk mendukung klaim validitas. Tiga jenis uji validitas yang diperkenalkan adalah validitas isi, validitas kriteria, dan validitas konstruk. Validitas isi adalah penentuan sejauh mana item di uji sesuai spesifikasi atau tujuan domain validitas yang ditetapkan dengan memiliki kualifikasi orang, panel ahli, meninjau ulang item uji untuk kesesuaian dan kesesuaian dengan domain. Validitas kriteria yang berkaitan dengan apakah tes akan memadai prediktor kinerja pada beberapa variabel lainnya. Bukti validitas ditetapkan oleh menemukan koefisien korelasi yang menghubungkan tes dengan kriteria yang diprediksi akan terjadi. Pilihan antara dua tes yang bersaing akan didasarkan pada uji mana yang telah dilakukan korelasi yang lebih tinggi dengan kriteria. Saat kita kaitan tentang penguasaan keputusan atas dua ukuran, tingkat validitas ditunjukkan oleh persentase orang-orang dalam penguasaan/tidak dalam keputusan yang konsisten. Validitas konstruk ditunjukkan dengan membuat prediksi tentang nilai ujian dan kemudian melakukan analisis untuk melihat apakah prediksi tersebut dikonfirmasi. Beberapa dari prediksi yang masuk akal adalah : (1) nilai tes harus berkorelasi positif dengan ukuran lain dari hal yang sama, (2) kelompok yang diketahui berbeda pada domain harus memiliki nilai tes yang berbeda secara signifikan, dan (3) tidak seharusnya kita temukan pola 24

respons yang berbeda di antara petugas yang berbeda untuk orang-orang dari berbagai ras, nilai, atau karakteristik lainnya. Kita tidak bisa hanya menganggap bahwa tes kita akan valid. Kita perlu berhati-hati dalam analisis untuk menunjukkan bahwa tes kita memiliki Isi, kriteria atau validitas konstruk yang cukup sehingga kita bisa membenarkan penggunaan tes tersebut.

25

BAB III PEMBAHASAN

A. Keunggulan Buku Adapun kelebihan-kelebihan dari buku ini yaitu: Pertama, cover buku ini didesign terlihat menarik untuk dipelajari dengan menggunakan warna-warna yang sesuai. Kedua, pembahasan mengenai yang jelas mengenai tes acuan patokan, sehingga dengan pembahasan tersebut sangat bagus bagi pembaca karena pembaca dapat memahami kriteria yang bagaimana yang tepat dalam memecahkan masalah kurikulum. Keempat, dibuku ini juga diberikan contoh – contoh yang sangat mudah untuk dipahami karena dengan contoh tersebut disertakan tabel yang dapat dipahami dengan mudah dan tidak membuat bingung bagi pembaca. Kelima, dalam setiap pembahasan dibuku tersebut diberi rangkuman sehingga dalam rangkumn tersebut dicantuk pokok-pokok pembahasan yang harus dipahami.

B. Kelemahan Buku Kelemahan-kelemahan buku ini yakni Pertama, dalam pembahasan yang lain ada juga penjelasan yang tidak secara rinci dijelaskan. Kedua, pembahasan mengenai tes acuan patokan diberikan contoh dalam bidang kedokteran dan tidak dalam bidang tes hasil belajar. Ketiga, dalam buku ini dipaparkan mengenai evaluasi pendidikan dan pelatihan dalam dunia kedokteran sehingga untuk evaluasi pendidikan dan pelatihan dalam pelajaran kurang dijelaskan pada bab ini tetapi bagi pembaca khususnya guru juga tepat jika menggunakan buku tersebut.

26

BAB IV PENUTUP A. Kesimpulan Berdasarkan pembahasan kelebihan dan kelemahan isi buku yang berjudul organisasi dan kepemimpinan modern maka dapat ditarik beberapa kesimpulan: Jika kita ingin mempelajari tentang evaluasi pendidikan dan pelatihan untuk perusahaan atau bagi pendidik maka kita bisa membaca Educational Measurement And Testing karena dalam buku ini dijelaskan secara rinci evaluasi pendidikan dan pelatihan untuk perusahaan atau pun untuk tes hasil belajar.

B. Saran Dalam pembuatan critical book report hal mendasar yang harus diketahui adalah isi buku tersebut, dan mengetahui kelebihan dan kelemahan buku tersebut. Dan diharapkan dalam pembuatan critical book report ini berguna bagi kita semua dan dapat mengaplikasikannya.

27

DAFTAR PUSTAKA

Wiersma, William and Stephen G.Jurs. 1990. Educational Measurement and Testing. Boston: a division of simon & schuter, inc

28

Related Documents


More Documents from "Fajar Handoko"