Jumat, 18 September 2015

VALIDITAS DAN RELIABILITAS

VALIDITAS DAN RELIABILITAS
A. Validitas
1. Pengertian Validitas
Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. 
Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan pengukuran.
Terkandung di sini pengertian bahwa ketepatan validitas pada suatu alat ukur tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur variabel A akan tetapi menghasilkan data mengenai variabel A’ atau bahkan B, dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel A dan tinggi validitasnya untuk mengukur variabel A’ atau B (Azwar 1986).
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut.
Cermat berarti bahwa pengukuran itu dapat memberikan gambran mengenai perbedaan yang sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain. Sebagai contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui berat sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas agar hasil penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang badan memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang berat cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak akan terlihat pada alat ukur berat badan.
Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu akan tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai angka yang sebenarnya atau angka yang mendekati keadaan yang sebenarnya (Azwar 1986).
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam “alat ukur ini valid” adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi kelompok subjek yang mana? (Azwar 1986)
Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah dikembangkan.
Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan dengan kemampuan instrument itu untuk mengukur atu mengungkap karakteristik dari variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk mengukur sikap konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan skor sikap yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi, jangan sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen terhadap iklan itu. 
Validitas suatu instrumen banyak dijelaskan dalam konteks penelitian sosial yang variabelnya tidak dapat diamati secara langsung, seperti sikap, minat, persepsi, motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian sulit, untuk mengembangkan instrumen yang memiliki validitas yang tinggi karena karakteristik yang akan diukur dari variabel yang demikian tidak dapat diobservasi secara langsung, tetapi hanya melalui indikator (petunjuk tak langsung) tertentu. (Aritonang R. 2007)
Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk mengukur panjang, karena memang meteran mengukur panjang. Tetapi timbangan bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur panjang.
Sekiranya penelliti menggunakan kuesioner di dalam pengumpulan data penelitian, maka kuesioner yang disusunnya harus mengukur apa yang ingin diukurnya. Setelah kuesioner tersebut tersusun dan teruji validitasnya, dalam praktek belum tentu data yang dikumpulkan adalah data yang valid. Banyak hal-hal lain yang akan mengurangi validitas data; misalnya apakah si pewawancara yang mengumpulkan data betul-betul mengikuti petunjuk yang telah ditetapkan dalam kuesioner. (Masri Singarimbun)
Menurut Suharsimi Arikunto, validitas adalah keadaan yang menggambarkan tingkat instrumen bersangkutan yang mampu mengukur apa yang akan diukur.
Menurut Soetarlinah Sukadji, validitas adalah derajat yang menyatakan suatu tes mengukur apa yang seharusnya diukur. Validitas suatu tes tidak begitu saja melekat pada tes itu sendiri, tapi tergantung penggunaan dan subyeknya. 

2. Jenis-jenis Validitas
Ebel (dalam Nazirz 1988) membagi validitas menjadi :
• Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja. 
• Construct Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk tertentu dapat menyebabkan kinerja yang baik dalam pengukuran.
• Face Validity adalah validitas yang berhuubungan apa yang nampak dalam mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur.
• Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan faktor-faktor yang bersamaan dalam suatu kelompok atau ukuran-ukuran perilaku lainnya, di mana validitas ini diperoleh dengan menggunakan teknik analisis faktor.
• Empirical Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.
• Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bhwa suatu alat ukur benar-benar mengukur apa yang seharusny diukur.
• Predictive Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat ukur dengan kinerj seorang di msa mendatang.
• Content Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari suatu populasi.
• Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi dari pengukuran dan menilai seberapa jauh pungukuran tersebut merupakan alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional.
Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu:
• Content validity (Validitas isi) adalah validitas yang diperhitungkan melalui pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari jawabannya dalam validitas ini adalah “sejauh mana item-item dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur yang bersangkutan?” atau berhubungan dengan representasi dari keseluruhan kawasan.
Validitas isi suatu instrumen berkaitan dengan kesesuaian antara karakteristik dari variaabel yang dirumuskan pada definisi konseptual dan operasionalnya. Apabila semua karakteristik variabel yang dirumuskan pada definisi konseptualnya dapat diungkap melalui butir-butir suatu instrument, maka instrument itu dinyatakan memiliki validitas isi yang baik. Sayangnya, hal itu mungkin tidak akan pernah tercapai karena sulitnya untuk mendefinisikan keseluruhan karakteristik itu. Selain itu, dari seluruh karakteristik yang dirumuskan pada definisi konseptual suatu variabel seringkali sulit untuk mengembangkan butir-butir yang valid untuk mengungkap atau mengukurnya.
Validitas isi dapat dianalisis dengan cara memperhatikan penampakan luar dari instrument dan dengan menganalisis kesesuaian butir-butirnya dengan karakteristik yang dirumuskan pada definisi konseptual variabel yang diukur. Validitas yang dianalisis dengan memperhatikan penampilan luar instrument itu disebut validitas tampang (face validity). Validitas tampang dievaluasi dengan membaca dan menyelidiki butir-butir instrument serta sekaligus membandingkannya dengan definisi konseptual mengenai variabel yang akan diukur. Validitas yang dianalisis dengan memperhatikan kerepresentativan butir-butir instrument disebut validitas penyampelan (sampling validity) atau kuikulum (curriculum validity). Validitas tampang maupun penyampelan disebut juga sebagai validitas teoritis karena penganalisisannya lazim dilakukan tanpa didasarkan pada data empiris. Alat yang digunakan untuk menganalisis validitas itu adalah logika dari orang yang menganalisisnya. 
Menurut Saifuddin Azwar, validitas isi merupakan validitas yang diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Pertanyaan yang dicari jawabannya dalam validitas ini adalah ”sejauh mana item-item dalam tes mencakup keseluruhan kawasan ini (dengan catatan tidak keluar dari batasan tujuan ukur) objek yang hendak diukur” atau ”sejauh mana isi tes mencerminkan ciri atribut yang hendak diukur”. 

Selanjutnya, validitas isi terbagi lagi menjadi dua tipe (Saifuddin Azwar), yaitu:
1. Face Validity (Validitas Muka) adalah tipe validitas yang paling rendah signifikansinya karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan maka validitas muka telah terpenuhi.
2. Logical Validity (Validitas Logis) disebut juga sebagai Validitas Sampling (Sampling Validity) adalah validitas yang menunjuk pada sejauh mana isi alat ukur merupakan representasi dari aspek yang hendak diukur. 
Validitas logis sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atu table spesifikasi. 
• Construct validity (Validitas konstruk) adalah tipe validitas yang menunjukkan sejauh mana alat ukur mengungkap suatu trait atau konstruk teoritis yang hendak diukurnya. (Allen & Yen, dalam Azwar 1986).
Pengujian validitas konstruk merupakan prosesyang terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur.
Menurut Saifuddin Azwar, validitas konstruk adalah seberapa besar derajat tes mengukur hipotesis yang dikehendaki untuk diukur. Konstruk adalah perangai yang tidak dapat diamati, yang menjelaskan perilaku. Menguji validitas konstruk mencakup uji hipotesis yang dideduksi dari suatu teori yang mengajukan konstruk tersebut. 
• Criterion-related validity (Validitas berdasar kriteria). Validitas ini menghendaki tersedianya criteria eksternal yang dapat dijadikan dasar pengujian skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan diprediksi oleh skor alat ukur. 

Dilihat dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi berdasar kriteria menghasilkan dua macam validitas (Saifuddinn Azwar), yaitu:
1. Validitas Prediktif. Validitas Prediktif sangat penting artinya bila alat ukur dimaksudkan untuk berfungsi sebagai predictor bagi kinerja di masa yang akan datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini antara lain adalah dalam bimbingan karir; seleksi mahasiswa baru, penempatan karyawan, dan semacamnya.
Menurut Saifuddin Azwar, validitas prediktif adalah seberapa besar derajat tes berhasil memprediksi kesuksesan seseorang pada situasi yang akan datang. Validitas prediktif ditentukan dengan mengungkapkan hubungan antara skor tes dengan hasil tes atau ukuran lain kesuksesan dalam satu situasi sasaran. 
2. Validitas Konkuren. Apabila skor alat ukur dan skor kriterianya dapat diperoleh dalam waktu yang sama, maka korelasi antara kedua skor termaksud merupakan koefisien validitas konkuren.
Menurut Saifuddin Azwar, validitas ini menunjukkan seberapa besar derajat skor tes berkorelasi dengan skor yang diperoleh dari tes lain yang sudah mantap, bila disajikan pada saat yang sama, atau dibandingkan dengan criteria lain yang valid yang diperoleh pada saat yang sama. 
Asosiasi Psikologi Amerika (APA) (1974; dalam Anastasia, 1982) membedakan tiga tipe validitas, yaitu validitas isi, yang dikaitkan dengan criteria, dan konnstrak. Ketiga tipe validitas tersebut dapat diuji dengan dan atau tanpa menggunakan instrument yang telah teruji validitas maupun reabilitasnya.

B. Reliabilitas
1. Pengertian Reliabilitas
Walizer (1987) menyebutkan pengertian Reliability (Reliabilitas) adalah keajegan pengukuran.
Menurut John M. Echols dan Hasan Shadily (2003: 475) reliabilitas adalah hal yang dapat dipercaya. Popham (1995: 21) menyatakan bahwa reliabilitas adalah "...the degree of which test score are free from error measurement"
Menurut Masri Singarimbun, realibilitas adalah indeks yang menunjukkan sejauh mana suatu alat ukur dapat dipercaya atau dapat diandalkan. Bila suatu alat pengukur dipakai dua kali – untuk mengukur gejala yang sama dan hasil pengukuran yang diperoleh relative konsisten, maka alat pengukur tersebut reliable. Dengan kata lain, realibitas menunjukkan konsistensi suatu alat pengukur di dalam pengukur gejala yang sama.
Menurut Brennan (2001: 295) reliabilitas merupakan karakteristik skor, bukan tentang tes ataupun bentuk tes.
Menurut Sumadi Suryabrata (2004: 28) reliabilitas menunjukkan sejauhmana hasil pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus reliabel dalam artian harus memiliki tingkat konsistensi dan kemantapan.
Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan reliabel jika skor yang diperoleh oleh peserta relatif sama meskipun dilakukan pengukuran berulang-ulang.
Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989: 105)
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian pengukuran atau serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama (tes dengan tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang seharusnya diukur.
Dalam penelitian, reliabilitas adalah sejauh mana pengukuran dari suatu tes tetap konsisten setelah dilakukan berulang-ulang terhadap subjek dan dalam kondisi yang sama. Penelitian dianggap dapat diandalkan bila memberikan hasil yang konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila pengukuran yang berulang itu memberikan hasil yang berbeda-beda.
Pengukuran reliabilitas dapat dilakukan dengan menggunakan berbagai alat statistik (Feldt & Brennan, 1989: 105)
Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas (Feldt & Brennan: 105). Kedua statistik di atas memiliki keterbatasannya masing-masing. Kesalahan pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala skor sedangkan koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan merangkum konsistensi (atau inkonsistensi) diantara beberapa kesalahan pengukuran.
Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki reliabilitas yang tinggi apabila skor tampak tes tersebut berkorelasi tinggi dengan skor murninya sendiri. Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada dua tes yang pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub (1994: 38) yang disimbolkan oleh dapat didefinisikan sebagai rasio antara varian skor murni dan varian skor tampak . Secara matematis teori di atas dapat ditulis :
Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat diperkirakan. Dalam mengestimasi reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu (1) pendekatan tes ulang, (2) pendekatan dengan tes pararel dan (3) pendekatan satu kali pengukuran.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan koefisien stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat dilakukan dengan menghitung koefisien korelasi linear antara distribusi skor subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes kedua. Pendekatan tes ulang sangat sesuai untuk mengukur ketrampilan terutama ketrampilan fisik. 
Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:
Koefisien reliabilitas test di atas dapat dihitung dengan menggunakan formula korelasi produk momen dari Pearson sebagai berikut:
Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas tes cukup tinggi.
Salah satu kelemahan mendasar dari teknik test-retest adalah carry-over effect. Masalah ini disebabkan oleh adanya kemungkinan pada test yang kedua dipengaruhi oleh test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal dan bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan korelasi serta overestimasi terhadap PXX’. Ross E. Traub (1994: 38)

2. Jenis-jenis Reliabilitas
Walizer (1987) menyebutkan bahwa ada dua cara umum untuk mengukur reliabilitas, yaitu:
1. Relibilitas stabilitas. Menyangkut usaha memperoleh nilai yang sama atau serupa untuk setiap orang atau setiap unit yang diukur setiap saat anda mengukurnya. Reliabilitas ini menyangkut penggunaan indicator yang sama, definisi operasional, dan prosedur pengumpulan data setiap saat, dan mengukurnya pada waktu yang berbeda. Untuk dapat memperoleh reliabilitas stabilitas setiap kali unit diukur skornya haruslah sama atau hampir sama.
2. Reliabilitas ekivalen. Menyangkut usaha memperoleh nilai relatif yang sama dengan jenis ukuran yang berbeda pada waktu yang sama. Definisi konseptual yang dipakai sama tetapi dengan satu atau lebih indicator yang berbeda, batasan-batasan operasional, paeralatan pengumpulan data, dan / atau pengamat-pengamat. 
Menguji reliabilitas dengan menggunakan ukuran ekivalen pada waktu yang sama bias menempuh beberapa bentuk. Bentuk yang paling umum disebut teknik belah-tengah. Cara ini seringkali dipakai dalam survai.Apabila satu rangkaian pertanyaan yang mengukur satu variable dimasukkan dalam kuesioner, maka pertanyaan-pertanyaan tersebut dibagi dua bagian persis lewat cara tertentu. (Pengacakan atau pengubahan sering digunakan untuk teknik belah tengah ini.) Hasil masing-masing bagian pertanyaan diringkas ke dalam skor, lalu skor masing-masing bagian tersebiut dibandingkan. Apabila dalam skor kemudian skor masing-masing bagian tersebut dibandingkan. Apabila kedua skor itu relatif sama, dicapailah reliabilitas belah tengah.
Reliabilitas ekivalen dapat juga diukur dengan menggunakan teknik pengukuan yang berbeda. Kecemasan misalnya, telah diukur dengan laporan pulsa. Skor-skor relatif dari satu indikator macam ini haruslah sesuai dengan skor yang lain. Jadi bila seorang subyek nampak cemas pada ”ukuran gelisah” orang tersebut haruslah menunjukkan tingkatan kecermatan relatif yang sama bila tekanan darahnya yang diukur.


3. Metode pengujian reliabilitas
Tiga tehnik pengujian realibilitas instrument antara lain :
a. Teknik Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut juga tenik ”double test double trial”. Sejak awal peneliti harus sudah menyusun dua perangkat instrument yang parallel (ekuivalen), yaitu dua buah instrument yang disusun berdasarkan satu buah kisi-kisi. Setiap butir soal dari instrument yang satu selalu harus dapat dicarikan pasangannya dari instrumen kedua. Kedua instrumen tersebut diujicobakan semua. Sesudah kedua uji coba terlaksana, maka hasil instrumen tersebut dihitung korelasinya dengan menggunakan rumus product moment (korelasi Pearson).
b. Teknik Ulang (Test Re-test)
Disebut juga teknik ”single test double trial”. Menggunakan sebuah instrument, namun dites dua kali. Hasil atau skor pertama dan kedua kemudian dikorelasikan untuk mengetahui besarnya indeks reliabilitas.Teknik perhitungan yang digunakan sama dengan yang digunakan pada teknik pertama yaitu rumus korelasi Pearson. 
Menurut Saifuddin Azwar, realibilitas tes-retest adalah seberapa besat derajat skor tes konsisten dari waktu ke waktu. Realibilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang berbeda. 
Metode pengujian reliabilitas stabilitas yang paling umum dipakai adalah metode pengujian tes-kembali (test-retest). Metode test-retest menggunakan ukuran atau “test” yang sama untuk variable tertentu pada satu saat pengukuran yang diulang lagi pada saat yang lain. Cara lain untuk menunjukkan reliabilitas stabilitas, bila kita menggunakan survai, adalah memasukkan pertanyaan yang sama di dua bagian yang berbeda dari kuesioner atau wawancara. Misalnya the Minnesota Multiphasic Personality Inventory (MPPI) mengecek reliabilitas test-retest dalam satu kuesionernya dengan mengulang pertanyaan tertentu di bagian-bagian yang berbeda dari kuesioner yang panjang.
Kesulitan terbesar untuk menunjukkan reliabilitas stabilitas adalah membuat asumsi bahwa sifat/ variable yang akan diukur memang benar-benar bersifat stabil sepanjang waktu. Karena kemungkinan besar tidak ada ukuran yang andal dan sahih yang tersedia. Satu-satunya faktor yang dapat membuat asumsi-asumsi ini adalah pengalaman, teori dan/atau putusdan terbaik. Dalam setiap kejadian, asumsi ini selalu ditantang dan sulit rasanya mempertahankan asumsi tersebut atas dasar pijakan yang obyektif.
c. Teknik Belah Dua (Split Halve Method)
Disebut juga tenik “single test single trial”. Peneliti boleh hanya memiliki seperangkat instrument saja dan hanya diujicobakan satu kali, kemudian hasilnya dianalisis, yaitu dengan cara membelah seluruh instrument menjadi dua sama besar. Cara yang diambil untuk membelah soal bisa dengan membelah atas dasar nomor ganjil-genap, atas dasar nomor awal-akhir, dan dengan cara undian. 
Menurut Saifuddin Azwar, realibilitas ini diukur dengan menentukan hubungan antara skor dua paruh yang ekuivalen suatu tes, yang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mengoreksi koefisien yang didapat. 
Apa penyebab ketidakandalan? 
Ada beberapa sumber ketidakandalan (unreliability), beberapa di antaranya telah dituangkan. Satu sumber ketidakandalan yang terbesar adalah ketidaksahihan (invalidity). Berikut ini adalah daftar periksa (check list) sumber-sumber yang menyebabkannya (Walizer ,1987) :
1. Orang atau unit yang diukur mungkin telah berubah sejak pengukuran pertama dan kedua. (Tentu saja perubahan dalam skor, haruslah ditafsirkan bukan sebagai ketidakandalan.)
2. Selama wawancara unit yang sedang diukur berubah, karena:
a. Pewawancara memperoleh pengalaman
b. Kelelahan pewawancara
c. Subyek mengalami hal-hal yang menyebabkan penafsiran mereka terhadap pertanyaan-pertanyaan berubah (sebagai kebalikan dari perubahan seharusnya dari apa yang sedang diukur).
d. Kesalahan-kesalahan diperbuat.
3. Aspek situasi tempat pengukuran berlangsung mungkin berubah sejak pengukuran pertama dan yang kedua. Hal-hal seperti waktu (pagi, siang, sore), tempat berlangsungnya pengukuran, orang-orang yang berada dekat di sekitar yang mungkin mempengaruhi respon mereka dan sebagainya mungkin berbeda.
4. Pertanyaan-pertanyaan mungkin mendua artinya, sehingga ditafsirkan secara berbeda pada saat pengisian kuesioner yang berbeda.
5. Pengkode dan/atau pengamat mungkin membuat penafsiran sendiri-sendiri.
6. Apa yang nampak sebagai satu teknik ekivalen sebenarnya tidaklah demikian karena pemilihan pembandingan yang kurang baik.
7. Terjadi kekeliruan dalam mencatat hasil pengamatan atau memberi kode-kodenya.
8. Atau mungkin kombinasi penyebab-penyebab terdahulu.
Reliabel : Haruskah Ajeg? (Feldt & Brennan, 1989: 105)
Sering kita dengar baik dalam kuliah atau dalam ruang ujian, jawaban mahasiswa terhadap pertanyaan "Apa yang dimaksud reliabilitas?" seperti ini : "Taraf Kepercayaan, yaitu seberapa besar tes dapat dipercaya. Tes yang reliabel akan menghasilkan skor yang relatif sama jika diteskan beberapa kali pada subjek yang sama . Dengan kata lain seberapa ajeg sebuah tes jika diteskan beberapa kali pada subjek yang sama di waktu yang berbeda."
Jika demikian adanya, maka secara logis, satu-satunya cara untuk mengestimasi reliabilitas adalah dengan melakukan pengetesan paling tidak dua kali pada sekelompok subjek yang sama. Tapi benarkah begitu?
Pada prakteknya kita mengenal paling tidak ada 3 pendekatan terhadap estimasi reliabilitas. Dan orang yang memberikan jawaban seperti di atas juga memilih metode estimasi reliabilitas yang hanya melakukan 1 kali administrasi tes. Jadi mana tingkat keajegannya?
Baiklah, mungkin beberapa orang tidak terlalu peduli dengan hal ini. Yang penting ada angka reliabilitasnya, habis perkara. Tapi ijinkan kami mencoba berbagi pemikiran mengenai hal ini.
Kita mulai dari konsep reliabilitas dulu. Reliabilitas seperti yang sering diucapkan atau ditulis di buku, memiliki arti tingkat kepercayaan. Kita coba pilah kata ini menjadi Rely dan Ability atau dapat dipercaya. Tapi apa maksud dari dapat dipercaya ini? Yang dimaksud dapat dipercaya disini adalah seberapa besar kita bisa mempercayai hasil tes yang kita dapatkan, atau juga seberapa besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu tes. Semakin besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu tes, hasil yang diperoleh dari tes tersebut makin tidak dapat dipercaya, makin tidak reliabel.
Misalnya: seseorang dites (tes apa saja, karena reliabilitas tidak terlalu peduli dengan isu materi yang diteskan) kemudian memperoleh hasil sebesar 100. Nah jika tes tersebut reliabel, maka kita bisa yakin bahwa kapasitas orang tersebut memang 100. Atau dengan kata lain, angka 100 itu diperoleh bukan karena faktor lain selain kapasitas orang tersebut. Jika angka 100 ini diperoleh lebih banyak karena faktor lain (faktor lain ini yang disebut error), maka kita akan berkata bahwa tes tersebut tidak reliabel.
Konsep reliabilitas didasarkan pada asumsi bahwa dalam tiap pengetesan selalu ada
§ X, skor yang kita peroleh dari hasil pengetesan (skor Tampak)
§ T, skor yang menggambarkan kapasitas seseorang yang sesungguhnya (skor Murni)
§ e, faktor lain selain kapasitas yang juga menyumbang terhadap perolehan X yang disebut juga error.
Dan ketiganya terkait satu sama lain dalam persamaan seperti ini :
X = T + e
Ini dapat dibaca seperti berikut : dalam setiap pengetesan, hasil tes yang kita peroleh merupakan fungsi penjumlahan dari skor Murni dan error. Tes dapat dikatakan reliabel jika Tes menghasilkan error yang kecil, sehingga hasil tes makin mencerminkan kapasitas yang sebenarnya (atau X = T ).

Lalu dari mana ide "keajegan" muncul?
Diasumsikan bahwa nilai T memiliki sifat ajeg dalam beberapa kali pengukuran pada subjek yang sama. Tapi keajegan ini hanya ada dalam abstraksi teoretik saja, karena keajegan yang dimaksud di sini adalah keajegan T jika memenuhi syarat tertentu :
§ Tiap pengetesan bersifat saling independen, pengukuran pertama tidak mempengaruhi pengukuran berikutnya. Jadi anggaplah seseorang dites lalu dihipnotis untuk membuatnya lupa dengan jawaban dan soal yang telah diberikan.
§ Kapasitas orang itu sendiri belum berubah. Jadi keajegan ini hanya mungkin jika setelah dites, orang ini dimasukkan dalam mesin waktu dan dikembalikan ke keadaannya saat dites pertama kali.
Mustahil? Ya jelas! maka dari itu ide mengenai keajegan ini hanya ada dalam abstraksi teoretik.

Namun demikian tentu saja kita tetap dapat mengestimasi reliabilitas dengan cara melakukan tes berulang lalu mengkorelasikan hasil tes pertama dengan tes kedua. Dengan mempertimbangkan beberapa kelemahan dan persyaratannya.
Pendekatan-Pendekatan Estimasi Reliabilitas (Feldt & Brennan, 1989: 105)
Dari beberapa asumsi yang mendasari pemikiran mengenai reliabilitas, kemudian diturunkanlah beberapa pendekatan untuk mengestimasi reliabilitas.
§ Pendekatan Tes-Retes. Pendekatan ini mengestimasi reliabilitas tes dengan melakukan tes ulang, kemudian mengkorelasikan hasil tes pertama dengan hasil tes kedua. Hasil korelasi ini yang merupakan estimasi reliabilitasnya, sering juga disebut sebagai koefisien stabilitas atau keajegan. Jadi definisi reliabilitas =keajegan hanya berlaku untuk pendekatan ini. Tapi tentu saja karena tidak mungkin memenuhi persyaratan di atas, pendekatan ini memiliki beberapa kelemahan
o Hanya dapat diterapkan pada tes yang mengukur konstruk yang bersifat cenderung ajeg, misalnya kepribadian. 
o Estimasi reliabilitas akan dipengaruhi oleh adanya carry over effect. Maksudnya, jika jarak pengetesan pertama dan kedua sangat dekat, maka subyek akan cenderung mengingat jawaban yang diberikan pada pengetesan pertama. Ini membuat makin besarnya kemungkinan subyek akan memberikan jawaban pada pengetesan kedua yang cenderung sama dengan jawaban yang diberikan pada pengetesan pertama.Hal ini akan menyebabkan overestimasi reliabilitas, tes terkesan/ terlihat lebih reliabel daripada yang sebenarnya.
o Estimasi reliabilitas juga dipengaruhi adanya practice effect. Ini terjadi ketika subyek, dalam rentang waktu antara tes pertama dan kedua, belajar atau berlatih untuk meningkatkan kapasitasnya, ini terjadi khususnya dalam estimasi reliabilitas tes performansi maksimal seperti tes prestasi. Practice effect akan menyebabkan underestimasi reliabilitas, tes terkesan tidak ajeg karena adanya pembelajaran, sehingga hasil tes kedua akan cenderung lebih baik dari hasil tes pertama.
§ Pendekatan Tes Paralel, pendekatan ini mengestimasi reliabilitas dengan menggunakan dua tes paralel, dua tes yang mengukur hal /konstruk yang sama, kemudian mengkorelasikan hasil pengetesan dari tes pertama dengan hasil tes paralelnya. Koefisien korelasi yang didapatkan disebut juga koefisien ekuivalensi. Namun demikian pendekatan ini sangat jarang (kalaupun ada) dilakukan karena sulitnya menghasilkan dua tes yang benar-benar paralel. 
§ Pendekatan Konsistensi Internal, pendekatan ini mengestimasi reliabilitas dengan membelah tes menjadi beberapa bagian, lalu "mengkorelasikan" bagian-bagian tersebut. "Korelasi" di sini sebenarnya tidak benar-benar mengkorelasikan bagian-bagian secara harafiah, tapi menggunakan formula-formula yang dikembangkan untuk mengestimasi reliabilitasnya. Koefisien yang diperoleh dinamai juga koefisien konsistensi internal. Pendekatan inilah yang paling sering digunakan selama ini karena lebih praktis dan ekonomis. Meskipun demikian pendekatan ini tidak dapat mengestimasi error yang diakibatkan oleh keadaan temporer karena hanya dilakukan satu kali. Jadi pendekatan ini memang bukan "jawaban terhadap segala masalah" dalam hal mengestimasi reliabilitas.
Kesimpulan

Jadi, reliabilitas apakah sama dengan keajegan?
Jika kita melihat permasalahan ini dari kacamata asumsi yang mendasari pemikiran reliabilitas di atas, maka reliabel = ajeg. tentu saja dengan persyaratan yang mustahil untuk dipenuhi tadi.
Tapi jika dilihat dalam konteks aplikasinya, reliabilitas tidak selalu sama dengan keajegan, tergantung dari pendekatan mana yang digunakan untuk mengestimasinya.
Mungkin akan lebih aman jika kita menyebut reliabilitas sebagai "tingkat kepercayaan, seberapa jauh error yang dihasilkan dari tes, dan seberapa jauh hasil tes dapat dipercaya". (Feldt & Brennan, 1989: 105)

PROSEDUR PENGEMBANGAN EVALUASI PEMBELAJARAN

BAB I

PENDAHULUAN
A. Latar Belakang
Suatu kegiatan evaluasi dikatakan berhasil jika sang evaluator mengikuti prosedur dalam melaksanakan evaluasi. Prosedur disini dimaksudkan sebagai langkah-langkah pokok yang harus ditempuh dalam melakukan evaluasi. Tentu tidak dapat dipungkiri bahwa banyak pandangan berkaitan dengan prosedur kegiatan evaluasi ini, namun dalam hal ini penulis akan memaparkan prosedur evaluasi yang dikembangkan oleh Drs. Zaenal Arifin, M.Pd dalam bukunya “Evaluasi Pembelajaran”. Dalam buku tersebut, prosedur yang harus diikuti evaluator meliputi perencanaan evaluasi, monitoring pelaksanaan evaluasi, pengolahan data dan analisis, pelaporan hasil evaluasi, dan pemanfaatan hasil evaluasi.[1]
Dalam kaitannya dengan evaluasi, guru merupakan salah satu sosok evaluator yang sangat bertanggung jawab terhadap kegiatan evaluasi itu sendiri. Sebab guru merupakan orang yang melaksanakan proses pembelajaran. karena itu baik-buruknya evaluasi diantaranya juga tergantung pada sang evaluator.  
Dengan demikian, sudah selayaknya evaluator ini mengikuti prosedur-prosedur yang telah digariskan. Mengikuti prosedur yang telah ditetapkan bisa dikatakan sebagai bentuk tanggung jawab seorang evaluator. Dengan mengikuti prosedur evaluasi yang baik, kegiatan evaluasi dapat dipertanggung jawabkan dan memiliki arti bagi semua pihak.
B. Identifikasi Masalah
1.      Banyak evaluator yang melakukan kegiatan evaluasi tanpa sebuah perencanaan yang matang.
2.      Jarang ada tindak lanjut terhadap evaluasi yang telah dilakukan.
3.      Belum diikutinya prosedur dalam pengembangan evaluasi
B. Pembatasan Masalah
Dalam makalah sederhana ini penulis akan membatasi masalah pada prosedur pengembangan evaluasi yang dikembangkan oleh Drs. Zaenal Arifin, M.Pd dalam bukunya “Evaluasi Pembelajaran”. Diantara prosedur tersebut adalah: perencanaan evaluasi, pelaksanaan evaluasi dan monitoring, pengolahan data dan analisis, pelaporan hasil evaluasi, dan pemanfaatan hasil evaluasi.
C. Rumusan Masalah
Bagaimana tahapan prosedur evaluasi pembelajaran?
D. Tujuan Penelitian
Penelitian ini bertujuan untuk mengetahui tahapan prosedur pengembangan evaluasi pembelajaran.
BAB II
KAJIAN TEORI

A. Prosedur
Prosedur dalam Wikipedia disebutkan sebagai serangkaian aksi yang spesifik atau tindakan atau operasi yang harus dijalankan atau dieksekusi dengan cara yang sama agar selalu memperoleh hasil yang sama dari keadaan yang sama[2]. Lebih jauh prosedur diindikasikan sebagai rangkaian aktivitas, tugas-tugas, langkah-langkah, keputusan-keputusan, perhitungan-perhitungan danproses-proses, yang dijalankan melalui serangkaian pekerjaan yang menghasilkan suatu tujuan yang diinginkan, suatu produk atau sebuah akibat. Sebuah prosedur biasanya mengakibatkan sebuah perubahan.
Kamaruddin menyebut prosedur sebagai suatu susunan yang teratur dari kegiatan yang berhubungan satu sama lainnya dan prosedur-prosedur yang berkaitan melaksanakan dan memudahkan kegiatan utama dari suatu organisasi.[3]
Berdasarkan pendapat di atas maka dapat disimpulkan yang dimaksud dengan prosedur adalah suatu tata cara kerja atau kegiatan untuk menyelesaikan pekerjaan dengan tujuan tertentu dan memiliki pola kerja yang sistematis
B. Pengembangan
Pengembangan berasal dari kata dasar ‘kembang’ yang bisa diartikan tumbuh. Sementara pengembangan dalam sebuah kamus online disebut sebagai pembangunan secara bertahap dan teratur yg menjurus ke sasaran yg dikehendaki[4]
C. Evaluasi Pembelajaran
Evaluasi adalah kata Indonesia yang diterjemahkan dari bahasa Inggris evaluation yang diterjemahkan menjadi penilaian.[5] Evaluasi menurut Ramayulis mengandung dua makna, yaitu; measurenment dan evaluation itu sendiri. Measurenment (pengukuran) merupakan proses untuk memperoleh gambaran beberapa angka dan tingkatan ciri yang dimiliki individu. Sedang evaluation (penilaian) merupakan proses mengumpulkan, menganalisis dan mengintepretasikan informasi guna menetapkan keluasaan pencapaian tujuan oleh individu.
Sementara pembelajaran merupakan kata yang berasal dari kata dasar belajar yang berarti sebuah proses perubahan di dalam kepribadian manusia dan perubahan tersebut ditampakkan dalam bentuk peningkatan kualitas dan kuantitas tingkah laku seperti peningkatan kecakapan, pengetahuan, sikap, kebiasaan, pemahaman, ketrampilan, daya pikir, dan kemampuan-kemampuanyang lain.[6] Dengan demikian pembelajaran sendiri merupakan proses dalam melakukan perubahan yang dilakukan oleh perubah dan yang akan dirubah. Dengan kata lain pembelajaran adalah proses belajar mengajar yang dilakukan oleh guru dan peserta didik. Tujuan pembelajaran menggambarkan kemampuan atau tingkat penguasaan yang diharapkan dicapai oleh siswa setelah mereka mengikuti suatu proses pembelajaran.[7]
Dengan demikian evaluasi pembelajaran adalah penilaian terhadap kompetensi yang sudah dicapai oleh peserta didik setelah melakukan proses belajar mengajar.[8] Evaluasi pembelajaran sebagai tolak ukur keberhasilan proses belajar mengajar.
Dalam buku ‘Strategi Belajar Mengajar’, Taufik menyebut indikator keberhasilan belajar mengajar adalah:
1.   Daya serap terhadap materi yang diajarkan mencapai prestasi tinggi, baik secara individu maupun kelompok.
2.   Perilaku yang digariskan oleh SK dan KD telah dicapai oleh peserta didik baik individu maupun klasikal.[9]
BAB III
METODE PENELITIAN

A. Jenis Penelitian
Penelitian ini termasuk jenis penelitian kualitatif, yang model penelitiannya bersifat analitis dan deskriptis. Penelitian kualitatif sendiri merupakan penelitian yang ditujukan untuk mendeskripsikan dan menganalisa fenomena, peristiwa, aktifitas sosial, sikap, kepercayaan, persepsi, pemikiran orang secara individu ataupun kelompok.
B. Pendekatan Penelitian
Penelitian ini bersifat library research atau study kepustakaan dengan pendekatan deskriptif analitis, yaitu suatu pendekatan yang hanya bersifat menganalisa dan menggambarkan saja tanpa mengadakan perhitungan data yang kuantitatif.
C. Sumber Data
Sumber data yang digunakan dalam penelitian ini merupakan literature yang berkaitan dengan teori data primer.
Sesuai dengan konsepsi awal bahwa variabel adalah yang menjadi titik perhatian dalam sebuah penelitian. Jadi yang menjadi titik perhatian dalam penelitian ini adalah Prosedur Pengembangan Evaluasi Pembelajaran  
D. Metode Pengumpulan Data
Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumenter, yakni pengumpulan data melalui catatan, transkrip, buku, surat kabar, majalah, prasasti, leger, agenda dan lain-lain.
E. Teknik Analisis Data
Setelah data terkumpul maka dilakukan analisa. Karena penelitian ini bersifat kualitatif, maka ada beberapa metode yang bisa digunakan untuk menganalisa data-data tersebut, yaitu:
1.      Metode deduktif; cara berpikir dengan menggunakan analisa yang berpijak pada pengertian atau fakta-fakta yang bersifat umum yang kemudian diteliti dan hasilnya dapat memecahkan persoalan khusus.
2.      Metode Induktif; cara berpikir dengan menggunakan analisa yang berpijak pada pengertian atau fakta-fakta yang bersifat khusus yang kemudian diteliti dan hasilnya dapat memecahkan persoalan umum.   

BAB IV
PEMBAHASAN

A. Prosedur Pengembangan Evaluasi Pembelajaran
Sebagaimana yang diutarakan dalam pendahuluan diatas, bahwa seorang evaluator dalam melakukan kegiatan evaluasi harus mengikuti prosedur-prosedur yang digariskan. Tujuannya adalah agar evaluasi yang diberikan sesuai dengan kebutuhan, sistematis, efisien dan dapat dipertanggung jawabkan. Diantara prosedur tersebut adalah; perencanaan evaluasi, monitoring pelaksanaan evaluasi, pengolahan data dan analisis, pelaporan hasil evaluasi, dan pemanfaatan hasil evaluasi.[10]

1. Perencanaan Evaluasi.
Perencanaan evaluasi dimaksudkan agar hasil yang diperoleh dari evaluasi dapat lebih maksimal. Perencanaan ini penting bahkan mempengaruhi prosedur evaluasi secara menyeluruh. Perencanaan evaluasi dilakukan untuk memfasilitasi pengumpulan data, sehingga memungkinkan membuat pernyataan yang valid tentang pengaruh sebuah efek atau yang muncul di luar program, praktik, atau kebijakan yang di teliti. Kegunaan dari perencanaan evaluasi adalah : (1) perencanaan evaluasi membantu untuk mengetahui apakah standar dalam menyatakan sikap atau perilaku  telah mencapai sasaran atau tidak, jika demikian sasaran akan dinyatakan ambigu dan akan kesulitan merancang tes untuk mengukur prestasi siswa; (2) perencanaan evaluasi adalah proses awal yang dipersiapkan untuk mengumpulkan informasi  yang  tersedia; (3) rencana evaluasi menyediakan waktu yang cukup untuk mendesain tes.
Untuk merancang sebuah tes yang baik memerlukan persiapan yang cermat dan kualitas tes biasanya lebih baik jika dirancang dengan cara tidak tergesa-gesa; Implikasinya adalah perencanaan evaluasi harus dirumuskan secara jelas dan spesifik, terurai dan komprehensif sehingga perencanaan tersebut bermakna dalam menentukan langkah-langkah selanjutnya dalam menetapkan tujuan-tujuan tingkah laku (behavioral objective) atau indikator yang akan dicapai, dapat mempersiapkan pengumpulan data dan informasi yang dibutuhkan serta dapat menggunakan waktu yang tepat.
Dalam melakukan perencanaan evaluasi, hal-hal yang patut diperhatikan adalah sebagai berikut:
1)       Analisis Kebutuhan.
Adalah suatu proses yang dilakukan oleh seseorang untuk mengidentifikasi kebutuhan dan menentukan skala prioritas pemecahannya. Analisis kebutuhan merupakan bagian integral dari sistem pembelajaran secara keseluruhan, yang dapat digunakan untuk menyelesaiakan masalah-masalah pembelajaran. langkah-langkah yang dilakukan adalah mengindentifikasi dan mengklarifikasi masalah, mengajukan hipotesis, mengumpulkan data, analisa data dan kesimpulan.
2)       Menentukan Tujuan Penilaian.
Tujuan penilaian merupakan dasar untuk menentukan arah, ruang lingkup materi, jenis/model dan karakter alat penilaian. Ada empat kemungkinan tujuan penilain : (1) penilaian formatif, yaitu untuk memperbaiki kinerja atau proses pembelajaran; (2) penialian sumatif, yaitu untuk menentukan keberhasilan peserta didik; (3) penialian diagnostik, yaitu untuk mengidentifikasi kesulitan belajar peserta didik dalam proses pembelajaran; (4) penilaian penempatan, yaitu untuk menempatkan posisi peserta didik sesuai dengan kemampuannya.
3)       Mengidentifikasi Kompetensi dan Hasil Belajar.
Bertujuan untuk mengidentifikasi kompetensi yang akan diuji sesuai dengan standar kompetensi, kompetensi dasar, hasil belajar dan indikator yang terbagi dalam tiga domain (1) domain kognitif meliputi: pengetahuan, pemahaman, aplikasi, analisis, sisnteis dan evaluasi; (2) domain afektif meliputi: penerimaan, respons, penilaian, organisasi, kakaterisasi; (3) domaian psikomotor meliputi: persepsi, kesiapan melakukan pekerjaan, respon terbimbing, kemahiran, adaptasi dan orijinasi
4)       Menyusun Kisi-Kisi.
Kisi-kisi adalah format pemetaan soal yang menggambarkan distribusi item untuk berbagai topik atau pokok bahasan berdasarkan jenjang kemampuan tertentu yang berfungsi sebagai pedoman untuk menulis soal atau merakit soal menjadi perangkat tes. Kisi-kisi yang baik akan memperoleh perangkat soal yang relatif sama sekalipun penulis soalnya berbeda. Kisi-kisi penting dalam perencanaan penilaian hasil belajar karena di dalamnya terdapat sejumlah indikator sebagai acuan dalam mengembangkan instrumen (soal) dengan persyaratan (1) representatif, yaitu harus betul-betul mewakili isi kurikulum sebagai sampel perilaku yang akan di nilai; (2) komponen-komponennya harus terurai/terperinci, jelas, dan mudah dipahami; (3) soalnya dapat dibuat sesuai dengan indikator dan bentuk soal yang diterapkan. Manfaat dari indikator dalam kisi-kisi adalah (1) dapat memilih materi, metode, media dan sumber belajar yang tepat, sesuai dengan kompetensi yang telah di tetapkan; (2) sebagai pedoman dan pegangan untuk menyusun soal atau isntrumen penilaian lain yang tepat, sesuai dengan standar kompetensi dan kompetensi dasar yang telah di tetapkan. Dalam menyusun kisi-kisi harus memperhatikan domain hasil belajar yang akan diukur dengan sistematika : (1) aspek recall, yang berkenaan dengan aspek-aspek pengetahuan tentang istilah-istilah, definisi, fakta, konsep, metode dan prinsip-prinsip; (2) aspek komprehensif, yaitu berkenaan dengan kemampuan-kemampuan antara lain: menjelaskan, menyimpulkan suatu informasi, menafsirkan fakta (grafik, diagram, tabel, dan lain-lain), mentransfer pernyataan dari suatu bentuk ke dalam bentuk lain (pernyataan verbal ke non-verbal atau dari verbal ke dalam bentuk rumus), memprakirakan akibat atau konsekuensi logis dari suatu situasi; (3) aspek aplikasi yang meliputi kemampuan-kemampuan antara lain: menerapkan hukum/prinsip/teori dalam suasana sesungguhnya, memecahkan masalah, membuat (grafik, diagram dan lain-lain), mendemonstrasikan penggunaan suatu metode, prosedur dan lain-lain.
5)          Mengembangkan Draft.
Draft instrumen merupakan penjabaran indikator menjadi pertanyaan-pertanyaan yang karakteristiknya sesuai dengan pedoman kisi-kisi. Setiap pertanyaan harus jelas dan terfokus serta menggunakan bahasa yang efektif, baik bentuk pertanyaan maupun bentuk jawabannya. Kualitas butir soal akan menentukan kualitas tes secara keseluruhan. Dengan prosedur soal yang disusun ditelaah oleh tim ahli yang terdiri dari ahli bahasa, ahli bidang studi, ahli kurikulum dan ahli evaluasi. Untuk draft dalam bentuk non-tes dapat dibuat dalam bentuk angket, pedoman observasi, pedoman wawancara, studi dokumentasi, skala sikap, penilaian bakat, minat dan sebagainya.
6)       Uji Coba dan Analisis Soal.
 Bertujuan untuk mengetahui soal-soal mana yang perlu diubah, diperbaiki, bahkan dibuang sama sekali, serta soal mana yang baik untuk diperguankan selanjutnya. Soal yang baik adalah soal yang sudah mengalami beberapa kali uji coba dan revisi yang didasarkan atas: (1) analisis empiris, yang dimaksudkan untuk mengetahui kelemahan-kelemahan setiap soal yang digunakan. Informasi empiris pada umumnya menyangkut segala hal yang dapat memengaruhi validitas soal meliputi: aspek-aspek keterbacaan soal, tingkat kesukaran soal, bentuk jawaban, daya pembeda soal, pengaruh kultur, dan sebagainya; (2) analisis rasional, yang dimaksudkan untuk memperbaiki kelemahan-kelemahan setiap soal. Kedua analisis tersebut dilakukan pula terhadap instrumen evaluasi dalam bentuk nontes.
7)       Revisi dan Merakit Soal (Instrumen Baru).
Soal yang sudah di uji coba dan di analisis, direvisi kembali sesuai dengan proporsi tingkat kesukaran soal dan daya pembeda. Dengan demikian, ada soal yang masih dapat diperbaiki dari segi bahasa, atau direvisi total, baik menyangkut pokok soal (stem) maupun alternatif jawaban (option) yang kemudian dilakukan perakitan soal menjadi suatu instrumen yang terpadu dengan memperhatikan validitas skor tes, nomor urut soal, pengelompokkan bentuk soal, penataan soal dan sebagainya.
2. Pelaksanaan Evaluasi.
Pelaksanaan evaluasi artinya bagaimana cara melaksanakan suatu evaluasi sesuai dengan perencanaan evaluasi. Dengan kata lain tujuan evaluasi, model dan jenis evaluasi, objek evaluasi, instrumen evaluasi, sumber data, semuanya sudah dipersiapkan pada tahap perencanaan evaluasi yang pelaksanaannya bergantung pada jenis evaluasi yang digunakan. Jenis evaluasi yang digunakan akan mempengaruhi seorang evaluator dalam menentukan prosedur, metode, instrumen, waktu pelaksanaan, sumber data dan sebagainya, yang pelaksanaannya dapat dilakukan dengan :
a)      Non-tes yang dimaksudkan untuk mengetahui perubahan sikap dan tingkah laku peserta didik setelah mengikuti proses pembelajaran, pendapat terhadap kegiatan pembelajaran, kesulitan belajar, minat belajar, motivasi belajar dan mengajar dan sebagainya. Instrumen yang digunakan (1) angket; (2) pedoman observasi; (3) pedoman wawancara; (4) skala sikap; (5) skala minat; (6) daftar chek; (7) rating scale; (8) anecdotal records; (9) sosiometri; (10) home visit
b)      Untuk mengetahui tingkat penguasaan kompetensi menggunakan bentuk tes pensil dan kertas (paper and pencil test) dan bentuk penilaian kinerja (performance), memberikan tugas atau proyek dan menganalisis hasil kerja dalam bentuk portofolio.
Tujuannya adalah untuk mengumpulkan data dan informasi mengenai keseluruhan aspek kepribadian dan prestasi belajar peserta didik yang meliputi (1) data pribadi (personal) yang meliputi nama, tempat dan tanggal lahir, jenis kelamin, golongan darah, alamat dan lain-lain; (2) data tentang kesehatan yang meliputi pengelihatan, pendengaran, penyakit yang sering diderita dan kondisi fisik; (3) data tentang prestasi belajar (achievement) di sekolah; (4) data tentang sikap (attitude) meliputi sikap terhadap teman sebaya, sikap terhadap kegiatan pembelajaran, sikap terhadap pendidik dan lembaga pendidikan dan sikap terhadap lingkungan sosial; (5) data tentang bakat (aptitude) yang meliputi data tentang bakat di bidang olahraga, keterampilan mekanis, keterampilan manajemen, kesenian dan keguruan; (6) persoalan penyesuaian (adjustment)meliputi kegiatan dalam organisasi di sekolah, forum ilmiah, olahraga dan kepanduan; (7) data tentang minat (interest); (8) data tentang rencana masa depan yang dibantu oleh pendidik, orang tua sesuai dengan kesanggupan peserta didik; (9) data tentang latar belakang yang meliputi latar belakang keluarga, pekerjaan orang tua, penghasilan tiap bulan, kondisi lingkungan, serta hubungan dengan orang tua dan saudara-saudaranya.
Sedangkan kecenderungan evaluasi yang tidak memuaskan dapat ditinjau dari beberapa segi (1) proses dan hasil evaluasi kurang memberi keuntungan bagi peserta didik, baik secara langsung maupun tidak langsung; (2) penggunaan teknik dan prosedur evaluasi kurang tepat berdasarkan apa yang sudah dipelajari peserta didik; (3) prinsip-prinsip umum evaluasi kurang dipertimbangkan dan pemberian skor cenderung tidak adil; (4) cakupan evaluasi kurang memperhatikan aspek-aspek penting dari pembelajaran.
3. Monitoring Pelaksanaan Evaluasi.
Monitoring dilakukan untuk melihat apakah pelaksanaan evaluasi pembelajaran telah sesuai dengan perencanaan evaluasi yang telah ditetapkan atau belum, dengan tujuan untuk mencegah hal-hal negatif dan meningkatkan efisiensi pelaksanaan evaluasi. Monitoring mempunyai dua fungsi pokok (1) melihat relevansi pelaksanaan evaluasi dengan perencaan evaluasi; (2) melihat hal-hal apa yang terjadi selama pelaksanaan evaluasi dengan mencatat, melaporkan dan menganalisis faktor-faktor penyebabnya. Dalam pelaksanaannya dapat digunakan teknik (1) observasi partisipatif; (2) wawancara bebas atau terstruktur; (3) studi dekumentasi. Hasil dari monitoring dapat dijadikan landasan dan acuan untuk memperbaiki pelaksanaan evaluasi selanjutnya.
4. Pengolahan Data.
Mengolah data berarti mengubah wujud data yang sudah dikumpulkan menjadi sebuah sajian data yang menarik dan bermakna. Data hasil evaluasi yang berbentuk kualitatif diolah dan dianalisis secara kualitatif, sedangkan data hasil evaluasi yang berbentuk kuantitatif diolah dan dianalisis dengan bantuan statistika deskriptif maupun statistika inferensial. Ada empat langkah pokok dalam mengolah hasil penelitian :
1)       Menskor, yaitu memberikan skor pada hasil evaluasi yang dapat dicapai oleh perserta didik. Untuk menskor atau memberikan angka diperlukan tiga jenis alat bantu yaitu kunci jawaban, kunci skoring dan pedoman konversi
2)       Mengubah skor mentah menjadi skor standar dengan norma tertentu
3)       Mengkonversikan skor standar ke dalam nilai, baik berupa huruf atau angka
4)       Melakukan analisis soal (jika diperlukan) untuk mengatahui derajat validitas dan reliabilitas soal, tingkat kesukaran sola (difficulty index)  dan daya pembeda
Mengolah data dengan sendirinya akan menafsirkan hasil pengolahan itu. Memberikan interpretasi maksudnya adalah memberikan pernyataan(statement) mengenai hasil pengolahan data. Interpretasi terhadap suatu hasil evaluasi didasarkan atas kriteria tertentu yang ditetapkan terlebih dahulu secara rasional dan sistematis sebelum kegiatan evaluasi dilaksanakan, tetapi dapat pula dibuat berdasarkan hasil-hasil yang diperoleh dalam melaksanakan evaluasi. Sebaliknya jika penafsiran data tidak berdasarkan kriteria atau norma tertentu, maka ini termasuk kesalahan besar dan ada dua jenis penafsiran data :
1)       Penafsiran kelompok,
      yaitu penafsiran yang dilakukan untuk mengetahui karakteristik kelompok berdasarkan data hasil evaluasi yang meliputi prestasi kelompok, rata-rata kelompok, sikap kelompok terhadap pendidik dan materi yang diberikan, dan distribusi nilai kelompok. Tujuannya adalah sebagai persiapan untuk melakukan penafsiran kelompok, untuk mengetahui sifat-sifat tertentu pada suatu kelompok dan untuk menggandakan perbandingan  antarkelompok.
2)       Penafsiran individual,
      yaitu penafsiran yang hanya dilakukan secara perseorangan diantaranya bimbingan dan penyluhan atau situasi klinis lainnya. Tujuannya adalah untuk melihat tingkat kesiapan peserta didik (readiness), pertumbuhan fisik, kemajuan belajar dan kesulitan-kesulitan yang dihadapinya.
            Dengan penafsiran ini dapat diputuskan bahwa peserta didik mencapai taraf  kesiapan yang memadai atau tidak, ada kemajuan yang berarti atau tidak, ada kesulitan atau tidak.
 5. Pelaporan Hasil Evaluasi.
Laporan kemajuan belajar peserta didik merupakan sarana komunikasi antara sekolah, peserta didik dan orang tua dalam upaya mengembangkan dan menjaga hubungan kerja sama yang harmonis, oleh karena itu ada beberapa hal yang perlu diperhatikan (1) konsisten dengan pelaksanaan nilai di sekolah; (2) memuat perincian hasil belajar peserta didik beradasarkan kriteria yang telah ditentukan dan dikaitkan dengan penilaian yang bermanfaat bagi perkembangan peserta didik; (3) menjamin orang tua akan informasi permasalahan peserta didik dalam belajar; (4) mengandung berbagai cara dan strategi berkomunikasi; (5) memberikan informasi yang benar, jelas, komprehensif dan akurat. Laporan kemajuan dapat dikategorikan menjadi dua jenis (1) laporan prestasi mata pelajaran, yang berisi informasi tentang pencapaian komptensi dasar yang telah ditetapkan dalam kurikulum. Prestasi peserta didik dilaporkan dalam bentuk angka yang menunjukkan penguasaan komptensi dan tingkat penguasaannya; (2) laporan pencapaian, yang menggambarkan kualitas pribadi peserta didik sebagai internalisasi dan kristalisasi setelah peserta didik belajar melalui berbagai kegiatan, baik intra, ekstra dan ko kurikuler.
6. Penggunaan Hasil Evaluasi.
Salah satu pengguanan hasil evaluasi adalah laporan. Laporan yang dimaksudkan untuk memberikan feedback kepada semua pihak yang terlibat dalam pembelajaran, baik secara langsung maupun tidak langsung. Secara umum terdapat lima penggunaan hasil evaluasi untuk keperluan berikut
1)       Laporan Pertanggungjawaban, dengan asumsi banyak pihak yang berkepentingan terhadap hasil evaluasi, oleh karena itu laporan ke berbagai pihak sebagai bentuk akuntabilitas publik
2)       Seleksi, dengan asumsi setiap awal dan akhir tahun terdapat peserta didik yang masuk sekolah dan menamatkan sekolah pada jenjang pendidikan tertentu dimana hasil evaluasi dapat digunakan untuk menyeleksi baik ketika masuk sekolah/jenjang atau jenis pendidikan tertentu, selama mengikuti program pendidikan, pada saat mau menyelesaikan jenjang pendidikan, maupun ketika masuk dunia kerja
3)       Promosi, dengan asumsi prestasi yang diperoleh akan diberikan ijazah atau sertifikat sebagai bukti fisik setelah dilakukan kegiatan evaluasi dengan kriteria tertentu baik aspek ketercapaian komptensi dasar, perilaku dan kinerja peserta didik.
4)       Diagnosis, dengan asumsi hasil evaluasi menunjukkan ada peserta didik yang kurang mampu menguasai kompetensi sesuai dengan kriteria yang yang telah ditetapkan maka perlu dilakukan diagnosis untuk mencari faktor-faktor penyebab bagi peserta didik yang kurang mampu dalam menguasai komptensi tertentu sehingga diberikan bimbingan atau pembelajaran remedial. Bagi yang telah menguasai kompetensi lebih cepat dari peserta didik yang lain, mereka juga berhak mendapatkan pelayanan tindak lanjut untuk mengoptimalkan laju perkembangan mereka.
5)       Memprediksi Masa Depan Peserta Didik, tujuannya adalah untuk mengetahui sikap, bakat, minat dan aspek-aspek kepribadian lainnya dari peserta didik, serta dalam hal apa peserta didik diangap paling menonjol sesuai dengan indikator keunggulan, agar dapat dianalisis dan dijadikan dasar untuk pengembangan peserta didik dalam memilih jenjang pendidikan atau karier pada masa yang akan datang

BAB V
PENUTUP

A. Kesimpulan
Prosedur pengembangan evaluasi pembelajaran merupakan langkah-langkah yang harus diikuti oleh seorang evaluator atau tim evaluator dalam melakukan kegiatan evaluasi. Prosedur-prosedur tersebut adalah; perencanaan evaluasi, monitoring pelaksanaan evaluasi, pengolahan data dan analisis, pelaporan hasil evaluasi, dan pemanfaatan hasil evaluasi.
B. Saran
            Dengan mengetahui tentang langkah-langkah yang harus dilakukan dalam melakukan kegiatan evaluasi, diharapkan para guru atau yang menjadi evaluator untuk senantiasa mengikuti prosedur pengembangan evaluasi pembelajaran. Dengan prosedur yang sudah ditetapkan akan melahirkan kualitas evaluasi yang dapat mendorong mutu pendidikan kita.

DAFTAR PUSTAKA
Arifin, Zainal. Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya. 2011.
http://alisadikinwear.wordpress.com/2011/10/20/prosedur-pengembangan-evaluasi-pembelajaran/
http://belajar.ws/pengertian-belajar-dan-definisi-belajar.html
http://fandyjayanto.blogspot.com/2012/11/pengembangan-evaluasi-pembelajaran.html
http://id.wikipedia.org/wiki/Prosedur
http://www.artikata.com/arti-367883-pengembangan.html
http://www.sarjanaku.com/2012/11/pengertian-pembelajaran-menurut-para.html
Kamaruddin. Organisasi dan Kepemimpinan. Jakarta: Mutiara Hati. 1992.
Ramayulis. Metodologi Pendidikan Agama Islam. Jakarta: Kalam Mulia. 2008.
Taufik. Strategi Belajar Mengajar. Jakarta: Inti Prima. 2010.


[1] Zainal Arifin, Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya. 2011. hal. 88
[2] http://id.wikipedia.org/wiki/Prosedur
[3] Kamaruddin. Organisasi dan Kepemimpinan. Jakarta: Mutiara Hati. 1992. hal. 32
[4] http://www.artikata.com/arti-367883-pengembangan.html
[5] Ramayulis. Metodologi Pendidikan Agama Islam. Jakarta: Kalam Mulia. 2008. hal. 400
[6] http://belajar.ws/pengertian-belajar-dan-definisi-belajar.html
[7] http://www.sarjanaku.com/2012/11/pengertian-pembelajaran-menurut-para.html
[8] Ramayulis. Metodologi Pendidikan Agama Islam. hal. 400
[9] Taufik. Strategi Belajar Mengajar. Jakarta: Inti Prima. 2010. hal. 91
[10] Zainal Arifin, Evaluasi Pembelajaran. Bandung. hal. 88