Jurnal Skripsi Acc.docx

  • Uploaded by: Mono net
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Jurnal Skripsi Acc.docx as PDF for free.

More details

  • Words: 5,122
  • Pages: 19
PROCESSOR -VOL. xx No. xx, Bulan Tahun Laman web jurnal: http://ejournal.stikom-db.ac.id/index.php/processor

Processor: Jurnal Ilmiah Sistem Informasi, Teknologi Informasi dan Sistem Komputer P-ISSN: 1907-6738 | E-ISSN: 2538-0082

Penerapan Clustering Data Mining Untuk Rekomendasi Penentuan Jurusan Perguruan Tinggi Pada Siswa Sma Negeri 2 Kota Jambi Menggunakan Metode K-Means Fadhel Muhammad Irfan1, Pareza Alam Jusia2, Kurniabudi 3 1

[email protected], Teknik Informatika, STIKOM Dinamika Bangsa, Jambi dan 36138, Indonesia [email protected], Teknik Informatika, STIKOM Dinamika Bangsa, Jambi dan 36138, Indonesia 3 [email protected], Teknik Informatika, STIKOM Dinamika Bangsa, Jambi dan 36138, Indonesia 2

Abstract The students of SMA Negeri 2 city of Jambi tend to choose majors based on interest, and desire because of parents. Some of them already take into account the existing potential in them, then commitment to learning in the field of it won't go smoothly, even though the Department he chooses it doesn't match his ability. Therefore, the author does analysis of data mining using value data class XII students from one to four semesters and kuisoner the authors share. In doing the analysis the author using tools tools WEKA and RapidMiner. The method used is the method of k-means clustering with 24 attributes and 5 clusters. The number of clusters on a manual calculation is, there are 62 C1, C2 data there are 28 data, data, there are 30 C3 C4 C5 there are 30 data, there are 60 data. The number of clusters in the calculation of RapidMiner is there are 35, C1, C2 data there are 55 data, there are 58 C3 data, there are 35 C4 C5, there are data 27 data. The number of clusters on a calculation of the WEKA is a, C1, C2 data there are 30 there are 49 data, there are 41 data, the C3 C4 C5 32 there are data, there are 58 data. Keywords: Data Mining, K-Means Clustering, WEKA, RapidMiner Abstrak Siswa-siswi SMA Negeri 2 Kota Jambi cenderung memilih jurusan berdasarkan karena minat, dan keinginan orang tua. Beberapa di antaranya sudah memperhitungkan potensi yang ada pada diri mereka, maka komitmen untuk belajar dibidang itu tidak akan berjalan lancar, padahal jurusan yang dia pilih itu tidak sesuai kemampuannya. Oleh karena itu, penulis melakukan analisis data mining menggunakan data nilai siswa kelas XII dari semester satu sampai empat dan kuisoner yang penulis bagikan. Dalam melakukan analisis penulis menggunakan alat bantu tools WEKA dan RapidMiner. Metode yang digunakan adalah metode k-means clustering dengan 24 atribut dan 5 cluster. Jumlah cluster pada perhitungan manual adalah, C1 terdapat 62 data, C2 terdapat 28 data, C3 terdapat 30 data, C4 terdapat 30 data, C5 terdapat 60 data. Jumlah cluster pada perhitungan RapidMiner adalah, C1 terdapat 35 data, C2 terdapat 55 data, C3 terdapat 58 data, C4 terdapat 35 data, C5 terdapat 27 data. Jumlah cluster pada perhitungan WEKA adalah, C1 terdapat 30 data, C2 terdapat 49 data, C3 terdapat 41 data, C4 terdapat 32 data, C5 terdapat 58 data. Kata Kunci: Data Mining, K-Means Clustering, WEKA, RapidMiner

© 2018 Jurnal PROCESSOR.

1

1. Pendahuluan Penentuan jurusan akan berdampak terhadap kegiatan akademik selanjutnya dan mempengaruhi pemilihan bidang ilmu atau studi bagi siswa-siswi yang ingin melanjutkan ke perguruan tinggi nantinya. Penentuan jurusan yang dilakukan selama ini mempunyai banyak kelemahan, antara lain berdasarkan keinginan siswa tanpa melihat latar belakang nilai akademisnya. Sehingga jurusan yang dipilih terkadang menjadi masalah bagi siswa di kemudian hari, sebagai contoh nilai akademik yang tidak maksimal, pemilihan program studi saat melanjutkan ke jenjang perguruan tinggi yang terkendala akibat jurusan SMA yang tidak sesuai, dan lain-lain. Berdasarkan hasil wawancara dengan wakil kesiswaan Dwi Wahyuningsih, M.Pd.,kons mengatakan, siswa-siswi SMA Negeri 2 Kota Jambi cenderung memilih jurusan berdasarkan karena minat, dan keinginan orang tua. Beberapa di antaranya sudah memperhitungkan potensi yang ada pada diri mereka, maka komitmen untuk belajar dibidang itu tidak akan berjalan lancar, padahal jurusan yang dia pilih itu tidak sesuai kemampuannya. Harapannya pihak sekolah bisa melihat persentase keakuratannya untuk penentuan jurusan Perguruan Tinggi Negeri pada siswa-siswi SMA Negeri 2 Kota Jambi, jika metode ini berhasil dan persentasenya tinggi, pihak sekolah akan menggunakan kembali metode ini untuk merekomendasikan jurusan Perguruan Tinggi Negeri untuk siswa-siswi selanjutnya. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. tujuan utama data mining adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki [1]. Teknologi clustering data merupakan suatu teknik yang menunjukan persamaan karakteristik dalam suatu kelompok sehingga akan menghasilkan informasi yang bermaanfaat. Algoritma clustering data sudah banyak dipergunakan diberbagai bidang misalnya untuk proses pengolahan citra, data mining proses pengambilan keputusan, pengenalan pola, maupun dalam bidang bioinformatika . Ada beberapa algoritma yang untuk dapat melakukan proses clustering pada suatu dataset dalam jumlah yang banyak. Pada penelitian ini, peneliti akan menggunakan metode algoritma K-Means dalam menentukan jumlah cluster terbaik. K-Means merupakan algoritma yang sangat banyak dipergunakan karena effektif dan effisien. Ini dikarenakan K-means sangat mudah dipelajari dan dari segi waktu proses komputasinya relatif singkat [2]. Untuk itu penulis menggunakan metode k-means clustering bagaimana erekomendasi penentuan memilih jurusan di perguruan tinggi setelah lulus SMA dengan atribut yang digunakan diantaranya yaitu hobi, minat, bakat, sifat, dan nilai rata-rata dari mata pelajaran siswa-siswi, yaitu : Pendidikan Agama dan Budi Pekerti, Pendidikan Pancasila dan Kewarganegaraan, Bahasa Indonesia, Matematika, Sejarah Indonesia, Bahasa Ingris, Seni Budaya, Pendidikan Jasmani Olahraga dan Kesehatan, Prakarya dan Kewirausahaan, Fisika IPA, Matematika Peminatan IPA, Kimia IPA, Biologi IPA, Ekonomi IPA, Bahasa Inggris IPA, Ekonomi IPS, Sosiologi IPS, Sejarah IPS Geografi IPS, Bahasa Inggris IPS 2. Landasan Teori Pada tahap ini penulis melakukan pencarian terhadap landasan-landasan teori yang diperoleh dari berbagai sumber seperti buku, jurnal ilmiah dan juga referensi lainnya untuk melengkapi penelitian baik mengenai konsep dan teori sehingga memiliki acuan yang baik dan relevan: 2.1. Konsep Data Mining Data mining adalah proses yang mempekerjakan suatu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis [4]. Data Mining merupakan proses pengekstraksian informasi dari sekumpulan data yang sangat besar melalui penggunaan algoritma dan teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem manajemen basis data [5]. Berdasarkan beberapa definisi di atas maka dapat disimpulkan bahwa data mining adalah suatu proses menganalisis dan mengekstraksi informasi dari sekumpulan data yang sangat besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting secara otomatis. Analisis klaster atau clustering merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok yang kesamaan datanya dalam suatu kelompok lebih besar dari pada kesamaan data tersebut dengan data dalam kelompok lain [6]. Analisis cluster dapat dibagi menjadi teknik pengelompokan hierarchical (hirarki) dan teknik pengelompokan non-hierarchical (nonhirarki). Contoh © 2018 Jurnal PROCESSOR.

teknik hirarki adalah single linkage, complete linkage, average linkage, median dan Ward. Sedangkan teknik non-hirarkis yaitu k-means, adaptif k-means, k-medoids, dan fuzzy clustering. Untuk menentukan algoritma yang baik adalah dilihat dari jenis data yang tersedia dan tujuan tertentu dari analisis [7]. Dari beberapa definisi di atas maka dapat disimpulkan bahwa clustering adalah merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok berdasarkan kesamaan-kesamaan yang telah ditentukan sebelumnya. Analisis cluster dapat dibagi menjadi teknik pengelompokan hierarchical (hirarki) dan teknik pengelompokan non-hierarchical (nonhirarki). Teknik clustering memiliki penggunaan yang luas dan saat ini memiliki kecenderungan yang semakin meningkat seiring dengan jumlah data yang terus berkembang. K-means adalah teknik sederhana untuk analisis klastering. Tujuannya adalah untuk menemukan divisi terbaik entitas n ke dalam kelompok k (disebut cluster), sehingga total jarak antara anggota kelompok dan entroid sesuai, terlepas dari kelompok diminimalkan. Setiap entitas milik cluster dengan mean terdekat [8]. K-Means merupakan salah satu metode pengelompokan dan nonhierarki (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data berkarakteristik sama di masukan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda di kelompokan ke dalam kelompok yang lain [9]. Dari beberapa definisi di atas maka dapat disimpulkan bahwa k-means adalah salah satu algoritma dalam data mining yang berfungsi untuk menemukan divisi terbaik entitas n ke dalam kelompok k (disebut cluster), sehingga total jarak antara anggota kelompok dan entroid sesuai, terlepas dari kelompok diminimalkan. Setiap entitas milik cluster dengan mean terdekat. 2.2 RapidMiner RapidMiner adalah sebuah lingkungan machine learning data mining, text mining dan predictive analytics [10]. RapidMiner adalah salah satu software untuk pengolahan data mining. Pekerjaan yang dilakukan oleh RapidMiner text mining adalah berkisar dengan analisis teks, mengekstrak pola-pola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi bermutu tertinggi dari teks yang diolah. RapidMiner menyediakan prosedur data mining dan machine learning, di dalamnya termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI. Penyajiannya dituliskan dalam bahasa pemrograman Java. 2.3 WEKA Waikato Environment for Knowledge Analysis (WEKA) merupakan perangkat lunak pembelajaran mesin yang populer yang ditulis dalam bahasa pemrograman java. WEKA dikembangkan di Universitas Waikato, Selandia Baru. WEKA berisikan kumpulan algoritma beserta visualisasinya untuk analisis data dan pemodelan prediktif. Algoritma-algoritma pembelajaran mesin pada WEKA dapat dimanfaatkan untuk pemecahan masalah dibidang data mining. WEKA versi asli awalnya dirancang untuk menganalisis data dari domain pertanian, tetapi WEKA versi lengkap berbasis java (versi 3), yang mulai dibangun pada tahun 1997, yang sekarang dapat digunakan untuk menganalisis data dari berbagai domain, khususnya untuk pendidikan dan penelitian. WEKA memiliki implementasi semua teknik pembelajaran untuk klasifikasi dan regresi , yaitu decision trees, rules set, pengklasifikasian teorema bayes, Support Vector Machines (SVM), logistik dan linier, multi layers perceptrons dan metode nearest neighbor [11]. 2.4 Penjurusan Anda harus mempunyai kehendak pribadi, jurusan apakah yang disukai dan perguruan tinggi manakah yang Anda pilih. Dengan kata lain, Anda sudah mempunyai tolak ukur sendiri, belum terpengaruh temanteman, guru, pacar, rasa minder maupun paksaan/tekanan dan orangtua Anda. Setelah itu barulah Anda berkonsultasi dengan orangtua dan guru, serta teman-teman yang sudah kuliah terutama di jurusan dan kampus pilihan Anda. Ingat, dengarkan semua argumen yang mereka berikan, kemudian analisalah apakah pendapat mereka sesuai atau tidak. Langkah penting yang harus Anda ketahui yaitu, Anda harus tahu grade/tingkatan di Jurusan PTN yang Anda pilih. Anda juga harus memperkirakan passing grade dari latihan try out. Setelah Anda tahu jurusan dan PTN yang seharusnya Anda pilih, lakukanlah hal tersebut © 2018 Jurnal PROCESSOR.

dengan realistis. Jangan memaksa dan ketahuilah kemampuan sendiri dengan merenungkan nasihat orang-orang di sekeliling Anda [12]. 3. Metodologi Kerangka kerja penelitian merupakan tahapan-tahapan yang dilakukan selama mengerjakan penelitian. Kerangka kerja penelitian dibuat agar mempermudah pencapaian hasil penelitian, dapat menyelesaikan penelitian tepat waktu dan penelitian dapat berjalan sesuai dengan yang diharapkan. Adapun kerangka kerja penelitian yang digunakan dapat dilihat pada gambar 1.

Identifikasi Masalah

Studi Literatur Pengumpulan Data Pre-processing

Data Selection

Transformation

Teknik Clustering K-Means

Evaluasi & Analisis Hasil Pembuatan Laporan Gambar 1. Kerangka Kerja Penelitian Berdasarkan kerangka kerja yang telah digambarkan diatas, maka dapat diuraikan pembahasan dari masing-masing tahapan penelitian yaitu: 1.

Identifikasi Masalah Pada tahap ini, penulis melakukan identifikasi dan merumuskan permasalahan pada penelitian, hal ini bertujuan untuk mengetahui masalah yang dialami para siswa-siswi dalam menentukan jurusan apa yang nantinya yang diambil untuk melanjutkan pendidikan ke perguruan tinggi. sehingga penulis dapat menentukan rencana kerja serta menentukan data apa saja yang akan dibutuhkan dalam penelitian ini.

2.

Studi Literatur Pada tahap ini penulis melakukan pencarian terhadap landasan-landasan teori yang diperoleh dari berbagai sumber seperti buku, jurnal ilmiah dan juga referensi lainnya untuk melengkapi penelitian baik mengenai konsep dan teori sehingga memiliki acuan yang baik dan relevan

3.

Pengumpulan Data Pada tahap pengumpulan data, penulis melakukan pengamatan langsung kelapangan, menyebarkan kuesioner, dan melakukan interview dengan wakil kesiswaan SMA Negeri 2 Kota Jambi: a. Pengamatan (Observasi) Pengamatan Langsung (Observation) yang dimaksud dalam penelitian ini adalah melakukan penelitian secara langsung dengan tujuan untuk lebih memahami dan mengetahui langkahlangkah apa saja yang harus diambil dalam menyelesaikan permasalahan yang ditemukan.

© 2018 Jurnal PROCESSOR.

Permasalahan yang di amati adalah bagaimana siswa-siswi kelas XII di SMA Negeri 2 Kota Jambi dalam memilih jurusan Perguruan Tinggi, yang terlibat dalam permasalahan ini adalah siswa-siswi kelas XII dan wakil kesiswaan SMA Negeri 2 Kota Jambi ibu Dwi Wahyuningsih, M.Pd, Kom sebagai nara sumber. b. Kuesioner Penulis melakukan pengumpulan data dengan menyebarkan kuesioner. Jenis kuesioner yang penulis terapkan adalah kuesioner tertutup yang dibagikan kepada siswa-siswi kelas XII, berdasarkan hasil wawancara dengan wakil kesiswaan SMA Negeri 2 Kota Jambi ibu Dwi Wahyuningsih, M.Pd, Kom mengatakan, jumlah seluruh siswa-siswi kelas XII berjumlah 395 siswa yang terbagi dari 11, 6 kelas IPA dan 5 kelas IPS. Dikarenakan setiap kelas XII ada yang berjumlah 19 sampai 30 lebih orang siswa, maka penulis mengambil sampel 19 orang siswa untuk 10 kelas 20 orang siswa untuk 1 kelas, sehingga jumlah keseluruhan siswa dari 11 kelas yaitu 210 siswa. Penulis menyebarkan kuesioner dengan maksud untuk mendapatkan data tambahan (data sekunder) untuk melengkapi data nilai (data primer) yang kemudian akan di olah, sehingga penulis mendapatkan informasi apakah siswa tersebut memilih jurusan sesuai minat, bakat, kemampuan dasar berdasarkan nilai, sifat, bidang (jurusan di SMA), dan hobi dari masing-masing siswa agar lebih akurat untuk melengkapi penelitian yang sedang berlangsung. c. Wawancara Penulis melakukan tanya jawab langsung dengan wakil kesiswaan SMA Negeri 2 Kota Jambi ibu Dwi Wahyuningsih, M.Pd, Kom mengenai bagaimana siswa-siswi SMA Negeri 2 Kota Jambi dalam menentukan jurusan setelah lulus nanti, apakah sesuai dengan kemampuan mereka atau siswa-siswi tersebut memilih jurusan sesuai kemauan mereka. 4.

Data Selection Pada tahapan ini penulis menyeleksi sekumpulan data operasional berupa data nilai semester 1-4 siswa-siswi SMA Negeri 2 Kota Jambi, serta mengumpulkan hasil kuesioner yang telah di sebar sebanyak 210 kuesioner ke seluruh kelas yang berjumlah 11 kelas. Data hasil seleksi yang digunakan tersebut disimpan dalam suatu berkas, terpisah dari basis data operasional.

5.

Pre-processing Pada tahap ini penulis melakukan proses cleaning pada data operasional, antara lain menyeleksi data siswa, dikarenakan tidak seluruh siswa yang berjumlah 395 yang di ambil sampelnya, hanya 210 siswa yang di ambil datanya sesuai jumlah kuesioner yang disebar.

6.

Transformation Pada tahapan ini penulis melakukan tranformasi data yaitu proses pengubahan data ke dalam format yang sesuai untuk diproses dalam data mining. Data dirubah dengan format CSV atau arff sebelum bisa diaplikasikan ke Weka 3.9. Data tersebut berupa data struk penjualan yang telah di cleaning pada tahap sebelumnya yang ditransformasikan yaitu mengubah format yang awalnya dari data excel (XLS) ke CSV atau arff.

7.

Teknik Clustering K-Means K-Means merupakan algoritma clustering sederhana yang bersifat tanpa arahan (unsupervised). Misalkan D adalah sebuah dataset dari n objek, dan k adalah jumlah cluster yang akan dibentuk, algoritma partisi mengatur objek-objek tersebut ke dalam partisi k (k ≤ n), di mana setiap partisi menggambarkan sebuah cluster. Setiap cluster dibentuk untuk mengoptimalkan kriteria partisi, seperti fungsi perbedaan berdasarkan jarak, sehingga objek-objek di dalam sebuah cluster adalah mirip, sedangkan objek-objek pada cluster yang berbeda adalah tidak mirip dalam hal atribut dataset. Persamaan untuk menghitung jarak antar data pada K-Means menggunakan rumus Euclidiance Distance (D) yang ditunjukkan pada Persamaan. 𝑝

𝐷(𝑥2 , 𝑥1 ) = √∑𝑗=1(𝑥2𝑗 − 𝑥1 )2 ............................................................................ (1) Keterangan: p = Dimensi data x1 = Posisi titik 1 x2 = Posisi titik 2 © 2018 Jurnal PROCESSOR.

BCV (Between Cluster Variation) = WCV (Within Cluster Variation) = M = Mean (rata-rata) D = Data DM = Data Mean Algoritma standar dari K-Means adalah sebagai berikut : a.

Langkah 1 : Tentukan jumlah clustering yang diinginkan (misalkan : k3).

b.

Langkah 2 : Pilih centroid awal secara acak. Pada langkah ini secara acak akan dipilih 3 buah data sebagai centroid.

c.

Langkah 3 : Hitung jarak dengan centroid. Pada langkah ini setiap data akan ditentukan centroid terdekatnya, dan data tersebut akan ditetapkan sebagai anggota kelompok yang terdekat dengan centroid. Untuk menghitung jarak ke centroid masing-masing cluster Misalkan data (x,y), centroid M1 : (a1,b1), centroid M2 : (a2,b2), centroid M3 : (a3,b3). DM1 = √(𝑥 − 𝑎1)2 + (𝑦 − 𝑏1)2 = ? .................................................................. (2) DM2 = √(𝑥 − 𝑎2)2 + (𝑦 − 𝑏2)2 =? ................................................................... (3) DM3 = √(𝑥 − 𝑎3)2 + (𝑦 − 𝑏3)2 =? ................................................................... (4) Buat tabel hasil perhitungan jarak selengkapnya antara masing-masing data dengan centroid, maka di dapatkan keanggotaan dari masing-masing cluster Pada langkah ini dihitung pula rasio antara BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : Karena centroid M1 = (a1,b1), M2 = (a2,b2), M3 = (a3,b3). d(m1,m2) = √(𝑎1 − 𝑎2)2 + (𝑏1 − 𝑏2)2 =? ........................................................ (5) d(m1,m3) = √(𝑎1 − 𝑎3)2 + (𝑏1 − 𝑏3)2 =? ........................................................ (6) d(m2,m3) = √(𝑎2 − 𝑎3)2 + (𝑏2 − 𝑏3)2 =? ........................................................ (7) BCV = d(m1,m2) + d(m1,m3) + d(m2,m3) = ? Dalam hal ini d(mi,mj) menyatakan jarak euclidean dari m ke mj Menghitung WCV yaitu dengan memilih jarak terkecil yang terdapat pada tabel keanggotaan. WCV = c12+c22+c32+ N = ? Sehingga besar rasio = BCV/WCV = ? Karena langkah ini merupakan iterasi 1 maka lanjukan ke langkah berikutnya.

d.

Langkah 4 : pembaruan centroid dengan menghitung rata-rata nilai pada masing-masing cluster.

© 2018 Jurnal PROCESSOR.

Setelah menghitung rata-rata nilai pada masing-masing cluster didapatkan centroid baru yaitu : M1 = (a1,b1), M2 = (a2,b2), M3 = (a3,b3). e.

Langkah 5 : (iterasi ke 2) kembali kelangkah ke 3, jika masih ada data yang berpindah cluster atau jika nilai centroid diatas ambang, atau jika pada fungsi obyektif yang digunakan masih diatas ambang. Jika tidak maka iterasi dihentikan.

8.

Evaluasi dan Analisis Data Pada tahap ini penulis menganalisis hasil dari perhitungan metode k-means clustering, hasil analisis perhitungan penulis dengan hasil perhitungan menggunakan tools WEKA dan RapidMiner.

9.

Penulisan Laporan Pada tahap pembuatan laporan akhir penelitian, dilakukan berdasarkan kerangka yang telah dirancang yang terdiri dari Pendahuluan, Landasan Teori, Metodologi penelitian, analisis, Implementasi dan Pengujian Sistem, dan penutup serta lampiran bukti hasil penelitian.

4.

Analisis dan Hasil

4.1 Representasi Data Berdasarkan hasil dari wawancara dan pembagian kuesioner yang sudah dilakukan serta data nilai semester 1 sampai 4 yang dirata-ratakan, penulis memperoleh data-data siswa SMA Negeri 2 Kota Jambi. Jumlah seluruh siswa di SMA Negeri 2 Kota Jambi ada 395 siswa yang terdiri 11 kelas, 6 kelas IPA dan 5 kelas IPS. Dikarenakan setiap kelas XII ada yang berjumlah 19 sampai 30 siswa, maka penulis mengambil sampel 19 siswa untuk 10 kelas, dan 20 siswa untuk 1 kelas, sehingga jumlah keseluruhan siswa dari 11 kelas yaitu 210 siswa. Atribut yang digunakan pada seluruh data siswa SMA Negeri 2 Kota Jambi berjumlah 24, yaitu Hobi, Minat, Bakat, Sifat, nilai rata-rata mata pelajaran untuk jurusan IPA, dan nilai rata-rata mata pelajaran untuk jurusan IPS. Atribut tersebut dipilih penulis karena penentuan jurusan dicari berdasarkan nilai semester 1 sampai 4, dan hasil kuesioner siswa, setellah itu data terserbut diolah manual menggunakan clustering k-means. Tabel 1. Data Siswa/Siswi SMA Negeri 2 Kota Jambi Angkatan 2016

© 2018 Jurnal PROCESSOR.

Dari data tersebut selanjutnya dilakukan Cleaning data untuk menghilangkan data yang mengalami noise, misalnya redudansi data dan inkonsisten. Setelah dilakukan proses cleaning data di peroleh sebanyak 210 data yang tidak mengalami noise.: 4.2 Transformasi Data Agar data di atas dapat diolah dengan menggunakan metode k-means clustering, maka data yang berjenis data nominal seperti hobi, minat, bakat, sifat harus diinisialisasikan terlebih dahulu dalam bentuk angka. Berikut inisialisasi tiap atribut: Tabel 2. Inisialisasi Hobi

4.3 Perhitungan Manual K-Means Clustering Penulis melakukan perhitungan dengan menggunakan Persamaan untuk menghitung jarak antar data pada K-Means menggunakan rumus Euclidiance Distance (D) yang ditunjukkan pada persamaan rumus (2.2). Berikut langkah-langkah clustering menggunakan algoritma k-means yaitu : 1. Langkah 1 : Tentukan jumlah cluster yang diinginkan (cluster = 5). © 2018 Jurnal PROCESSOR.

2. 3.

Langkah 2 : Pilih centoid awal secara acak. Pada langkah ini secara acak akan dipilih 5 buah data sebagai centroid, data {40,80,120,160,200}. Langkah 3 : Hitung jarak dengan centroid (iterasi 1) Pada langkah ini setiap data akan ditentukan centroid terdekatnya, dan data tersebut akan diterapkan sebagai anggota kelompok yang terdekat dengan centroid. Untuk menghitung jarak ke centroid masing-masing cluster pada siswa/siswi No. 1 sebagai berikut : Data : (3,8,3,10,84,85,86,81,90,78,86,81,79,84,77,87,83,81,0,0,0,0,0,0), centroid M1 : (2,3,10,10,78,80,79,82,84,79,88,88,80,76,76,83,84,81,0,0,0,0,0,0), centroid M2 : (10,9,4,1,80,77,81,77,87,78,81,81,85,79,76,75,79,0,78,0,0,0,0,0), centroid M3 : (10,4,1,7,77,79,78,80,81,76,79,77,73,79,78,79,80,0,75,0,0,0,0,0), centroid M4 :

(1,9,4,1,76,83,78,75,81,72,83,80,80,0,0,0,0,0,0,74,83,81,73,80),

centroid M5 : (4,2,5,6,73,78,76,73,75,68,79,77,77,0,0,0,0,0,0,72,78,75,69,73) (3 − 2)2 + (8 − 3)2 + (3 − 10)2 + (10 − 10)2 + (84 − 78)2 + (85 − 80)2 + (86 − 79)2 + (81 − 82)2 + (90 − 84)2 + (78 − 79)2 + (86 − 88)2 + (81 − 88)2 + DM1= ...................................... (8) (79 − 80)2 + (84 − 76)2 + (77 − 76)2 + (87 − 83)2 + (83 − 84)2 + (81 − 81)2 + (0 − 0)2 + (0 − 0)2 + 2 2 2 2 √(0 − 0) + (0 − 0) + (0 − 0) + (0 − 0) = 19,01973 Tabel 3. hasil perhitungan jarak antara masing-masing data dengan centroid (iterasi 1)

© 2018 Jurnal PROCESSOR.

Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : Centroid M1 : (2,3,10,10,78,80,79,82,84,79,88,88,80,76,76,83,84,81,0,0,0,0,0,0), Centroid M2 : (10,9,4,1,80,77,81,77,87,78,81,81,85,79,76,75,79,0,78,0,0,0,0,0), Centroid M3 : (10,4,1,7,77,79,78,80,81,76,79,77,73,79,78,79,80,0,75,0,0,0,0,0), Centroid M4 : (1,9,4,1,76,83,78,75,81,72,83,80,80,0,0,0,0,0,0,74,83,81,73,80), © 2018 Jurnal PROCESSOR.

CentroidM5

: (4,2,5,6,73,78,76,73,75,68,79,77,77,0,0,0,0,0,0,72,78,75,69,73)

Cara menghitung BCV (Between Cluster Variation) (2 − 10)2 + (3 − 9)2 + (10 − 4)2 + (10 − 1)2 + (78 − 80)2 + (80 − 77)2 + (79 − 81)2 + (82 − 77)2 + (84 − 87)2 + (79 − 78)2 + (88 − 81)2 + (88 − 81)2 + d(m1,m2)= ................................... (9) (80 − 85)2 + (76 − 79)2 + (76 − 76)2 + (83 − 75)2 + (84 − 79)2 + (81 − 0)2 + (0 − 78)2 + (0 − 0)2 + 2 2 2 2 √(0 − 0) + (0 − 0) + (0 − 0) + (0 − 0) = 114,5723025 BCV= d(m1,m2)+ d(m1,m3)+ d(m1,m4)+ d(m1,m5)+ d(m2,m3)+ d(m2,m4)+ d(m2,m5)+ d(m3,m4)+ d(m3,m5)+ d(m4,m5) = 1320,37976. Dalam hal ini d(mi,mj) menyatakan jarak Euclidean dari m ke mj. Menghitung WCV dengan memilih jarak terkecil antara data dengan centroid pada masing-masing cluster Tabel 4. Jarak Terdekat (iterasi 1)

WCV=19,01972662 + 34,023888672 + 20,873128662 + 23,571699132 + .... +02 + 17,624556732 + 13,679364022 + .... + 02 + 15,368392892 + 14,66927062 + .... + 02 + 12,308228212 + 13,611141082 + .... + 02 + 13,645400442 + 13,680349492 + .... + 02 + 9,8704531872 + 11,800055292 + 13,815490412 = 72992,43 Sehingga besar rasio = BCV/WCV = 1320,37976/72992,43 = 0,0180892689. Karena langkah ini merupakan iterasi 1 maka lanjutkan ke langkah berikutnya. 4.

Langkah 4 : Pembaharuan centroid dengan menghitung rata-rata nilai pada masing-masing cluster. Tabel 5. Nilai Centroid pada iterasi 2

© 2018 Jurnal PROCESSOR.

Dengan langkah pengolahan data yang sama menggunakan nilai centroid baru pada Iterasi ke-2 maka di dapat hasil jarak centroid yang tertera pada tabel berikut : Tabel 6. hasil perhitungan jarak antara masing-masing data dengan centroid (iterasi 2)

© 2018 Jurnal PROCESSOR.

Dari tabel 9 didapatkan keanggotaan siswa/siswi SMA Negeri 2 Kota Jambi (iterasi 2), terjadi perubahan pada No. 68, 83,95,105,107,109,119, yang pada awalnya berada di cluster 2 berpindah pada cluster 3. Terjadi perubahan pada No. 122, 159,161, 181, yang pada awalnya berada di cluster 4 berpindah ke cluster 5. Selanjutnya, dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) pada iterasi ke-2 dengan cara pengolahan yang sama pada proses awal dengan demikian tercatat nilai BCV, WCV dan RATIO pada proses awal dan iterasi 1 seperti pada tabel dibawah ini : Tabel 7. Perbandingan BCV WCV dan Ratio iterasi ke 1 dan 2

Melihat tabel perbandingan diatas didapat informasi karena ada data yang berpidah cluster, serta nilai ratio pada iterasi ke 2 lebih besar dari ratio pada iterasi pertama, maka iterasi harus dilanjutkan ke iterasi selanjutnya : Tabel 8. Perbandingan BCV WCV dan Ratio iterasi ke 1,2,3,4,5, dan 6

© 2018 Jurnal PROCESSOR.

Melihat pada tabel 10 perbandingan diatas didapat informasi karena ada data yang berpidah cluster, serta nilai ratio pada iterasi ke 6 lebih besar dari ratio pada iterasi 5, maka iterasi harus dilanjutkan ke iterasi ke 7: Dengan langkah yang sama seperti pada iterasi sebelumnya, maka hasil pengolahan data pada iterasi ke 7 adalah sebagai berikut : Tabel 9. Nilai Centroid pada iterasi ke 7

Dengan langkah pengolahan data yang sama menggunakan nilai centroid baru pada Iterasi ke-7 maka di dapat hasil jarak centroid yang tertera pada tabel berikut : Tabel 10. hasil perhitungan jarak antara masing-masing data dengan centroid (iterasi 7)

© 2018 Jurnal PROCESSOR.

Dari tabel 4.15 didapatkan keanggotaan siswa/siswi SMA Negeri 2 Kota Jambi (iterasi 7). Terjadi perubahan pada No. 181 yang pada awalnya berada di cluster 5 berpindah ke cluster 4. Tabel 11. Perbandingan BCV WCV dan Ratio iterasi ke 1,2,3,4,5,6, dan 7

Melihat tabel perbandingan diatas didapat informasi karena ada data yang berpidah cluster, serta nilai ratio pada iterasi ke 7 lebih besar dari ratio pada iterasi 6, maka iterasi harus dilanjutkan ke iterasi ke 8:

© 2018 Jurnal PROCESSOR.

Dengan langkah yang sama seperti pada iterasi ke 7, maka hasil pengolahan data pada iterasi ke 8 adalah sebagai berikut : Tabel 12. Nilai Centroid pada iterasi ke 8

Dengan langkah pengolahan data yang sama menggunakan nilai centroid baru pada Iterasi ke-8 maka di dapat hasil jarak centroid yang tertera pada tabel berikut : Tabel 13. hasil perhitungan jarak antara masing-masing data dengan centroid (iterasi 8)

© 2018 Jurnal PROCESSOR.

Dari tabel 10 didapatkan keanggotaan siswa/siswi SMA Negeri 2 Kota Jambi (iterasi 8). Tidak terjadi perubahan lagi pada setiap cluster dan nilai rasio sekarang (0,033508978) sudah tidak lagi lebih besar dari rasio sebelumnya (0,033508978) oleh karena itu algoritma akan dihentikan. Kesimpulan perhitungan penentuan jurusan ke perguruan tinggi untuk siswa/siswi SMA Negeri 2 Kota Jambi dengan cara manual dan hasil rekomendasi jurusannya dikelompokan menjadi 5 cluster diantaranya :

Diagram Hasil clustering 80

62

60

60 40

28

30

30

20 0 Gambar 2. grafik hasil clustering © 2018 Jurnal PROCESSOR.

1.

2. 3. 4. 5.

Cluster 1 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Kesehatan/kedokteran dalam perhitungan di atas, ada 62 siswa/siswi yang masuk dalam cluster 1. Cluster 2 siswa/siswi siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Agama dalam perhitungan di atas, 28 siswa/siswi yang masuk dalam cluster 2. Cluster 3 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Teknik dalam perhitungan di atas, ada 30 siswa/siswi yang masuk dalam cluster 3. Cluster 4 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Pendidikan dan Bidang Seni dalam perhitungan di atas, ada 25 siswa/siswi yang masuk cluster 4. Cluster 5 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Olahraga dalam perhitungan di atas, ada 55 siswa/siswi yang masuk cluster 5.

5. Kesimpulan dan Saran Kesimpulan yang dapat di ambil dari hasil yang penelitian yang telah dilakukan pada bab-bab sebelumnya yaitu: 5.1 Simpulan Berdasarkan hasil dari pengamatan dan penelitian yang telah dilakukan pada SMA Negeri 2 Kota Jambi, maka kesimpulan yang dapat di ambil dari hasil yang penelitian yang telah dilakukan pada bab-bab sebelumnya dan hasil dari perhitungan menggunakan tools WEKA dan RapidMiner Tabel 5.1 Perbandingan Hasil

1.

2.

3.

4.

Penelitian ini menggunakan data siswa-siswi yang diambil di SMA Negeri 2 Kota Jambi dengan jumlah data yang digunakan 210 dan mempunyai 24 atribut yaitu : Hobi, Minat, Bakat, Sifat, nilai rata-rata semester 1 sampai 4 mata pelajaran untuk jurusan IPA, dan nilai rata-rata semester 1 sampai 4 mata pelajaran untuk jurusan IPS. Metode yang digunakan dalam penelitian ini adalah K-Means Clustering dari perhitungan manual yang telah dilakukan, maka direkomendasikan penulis 5 cluster, yang mana untuk cluster 1 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Kesehatan/kedokteran, cluster 2 siswa/siswi siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Agama, cluster 3 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Teknik, cluster 4 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Pendidikan dan Bidang Seni, cluster 5 siswa/siswi SMA Negeri 2 Kota Jambi direkomendasikan masuk Bidang Olahraga. Pada perhitungan manual terdapat jumlah iterasi sebanyak 8 kali iterasi. Jumlah cluster pada perhitungan manual adalah, C1 terdapat 62 data, C2 terdapat 28 data, C3 terdapat 30 data, C4 terdapat 35 data, C5 terdapat 55 data, jumlah Centroid pada perhitungan manual adalah 5, Jumlah nilai rasio pada perhitungan manual adalah, C1 terdapat 30%, C2 terdapat 13%, C3 terdapat 14%, C4 terdapat 17%, C5 terdapat 26%. Pada perhitungan RapidMiner tidak dtampilkan berapa jumlah iterasi. Jumlah cluster pada perhitungan RapidMiner adalah, C1 terdapat 35 data, C2 terdapat 55 data, C3 terdapat 58 data, C4 terdapat 35 data, C5 terdapat 27 data, jumlah centroid pada perhitungan RapidMiner adalah 5, jumlah nilai rasio pada perhitungan RapidMiner adalah, C1 terdapat 16,67%, C2 terdapat 26,19%, C3 terdapat 27,62%, C4 terdapat 16,67%, C5 terdapat 12,86%.

© 2018 Jurnal PROCESSOR.

5.

Pada perhitungan WEKA terdapat jumlah iterasi sebanyak 10 kali. Jumlah cluster pada perhitungan WEKA adalah, C1 terdapat 30 data, C2 terdapat 49 data, C3 terdapat 41 data, C4 terdapat 32 data, C5 terdapat 58 data, dan jumlah centroid pada perhitungan WEKA adalah 5, jumlah nilai rasio pada perhitungan WEKA adalah, C1 terdapat 14%, C2 terdapat 23%, C3 terdapat 20%, C4 terdapat 15%, C5 terdapat 28%.

5.2 Saran Analisa perhitungan rekomendasi penentuan jurusan bagi siswa-siswi SMA Negeri 2 Kota Jambi ini masih jauh dari sempurna sehingga perlu dilakukan perbaikan dan pengembangan, maka ada beberapa saran yang dapat diberikan untuk pengembangan lebih lanjut, yaitu : 1. 2.

Diharapkan dalam penelitian selanjutnya peneliti dapat menggunakan metode yang lain dalam menganalisa data. Diharapkan untuk analisa selanjutnya peneliti mengunakan beberapa metode yang lain dan melakukan perbandingan antara metode yang satunya dengan yang lainnya.

6. Daftar Rujukan [1] Yuda Septian, N. 2009. Data Mining Menggunakan Algoritma Naïve Bayes Untuk Klasifikasi Kelulusan Mahasiswa Universitas Dian Nuswantoro. Jurnal Semantik 2013, 1–11. https://doi.org/10.13140/RG.2.1.4204.3923. [2] Ni Putu Eka Merliana, Ernawati, Alb. Joko Santoso. 2015. ANALISA PENENTUAN JUMLAH CLUSTER TERBAIK PADA METODE K-MEANS CLUSTERING. PROSIDING SEMINAR NASIONALMULTI DISIPLIN ILMU&CALL FOR PAPERS UNISBANK (SENDI_U). ISBN: 978-979-3649-81-8. [3] Fajar Astuti Hermawati. 2013. Data Mining. Yogyakarta : CV ANDI OFFSET.. [4] Alfa Saleh. 2016. Penerapan Data Mining Dengan Metode Klasifikasi Naïve Bayes Untuk Memprediksi Kelulusan Mahasiswa Dalam Mengikuti English Proficiency Test (Studi Kasus : Universitas Potensi Utama). Konferensi Nasional Sistem Informasi, At Universitas Klabat,Manado,Indonesia, Volume: 2015. 1-6. [5] Kusrini dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. Yogyakarta : CV ANDI OFFSET. [6] Febrizal Alfarasy Syam. 2017. Implementasi Metode Klastering K-Means Untuk Mengelompokan Hasil Evaluasi Mahasiswa. Jurnal Ilmu Komputer dan Bisnis, Volume 8, Nomor 1, 1857–1864. [7] Asroni, Ronald Adrian. 2015. Penerapan Metode K-Means Untuk Clustering Mahasiswa Berdasarkan Nilai Akademik Dengan Weka Interface Studi Kasus Pada Jurusan Teknik Informatika UMM Magelang. Jurnal Ilmiah Semesta Teknika. Vol. 18, No. 1, 76–82. [8] Eko Prasetyo. 2012. Data Mining Konsep dan Aplikasi menggunakan Matlab. Yogyakarta : CV ANDI OFFSET. [9] Rima Dias Ramadhani. 2014. Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan Strategi Promosi Universitas Dian Nuswantoro, http://eprints.dinus.ac.id/id/eprint/13001. 1–9. [10] Vinny Alvionita, Kurniabudi, Errissya Rasywir. 2018. Klasifikasi Prediksi Lama Masa Studi Mahasiswa Teknik Informatika Pada STIKOM DB Menggunakan Metode Naïve Bayes. 1-14. [11] Dewi Rossalia, dkk. 2015. BIG BOOK SBMPTN SOSHUM 2016. Cmedia. Jakarta.

© 2018 Jurnal PROCESSOR.

Related Documents


More Documents from ""