Sistem Pendeteksi Kemiripan Dokumen Skripsi Mahasiswa Teknik Informatika STT PLN Menggunakan Metode Cosine Similarity dan Jaccard Similarity Dyah Puspitasari Nilam Utami, Dr.Dra. Dwina Kuswardani, M.Kom, Pritasari Palupiningsih, S.Kom.,M.Kom Program Studi Sarjana Teknik Informatika, Sekolah Tinggi Teknik PLN Jakarta Jalan Lingkar Luar Barat Menara PLN Cengkareng Jakarta Barat e-mail:
[email protected]
ABSTRAK Pada Sekolah Tinggi Teknik PLN (STT-PLN) proses pengecekan dokumen skripsi masih dilakukan secara manual. Penelitian ini mengenai perhitungan kemiripan dokumen skripsi Bab I (Pendahuluan). Penelitian ini bertujuan untuk menampilkan hasil presentase kemiripan antar dokumen sehingga meminimalisir adanya plagiarisme. Metode yang di terapkan untuk membangun sistem ini adalah text mining, cosine similarity dan jaccard similarity. Text mining untuk melakukan preprocessing teks, yang meliputi tokenizing, filtering, dan stemming. Sedangkan Cosine Similarity dan Jaccard Similarity untuk melakukan perhitungan kemiripan yang selanjutnya akan dilakukan perbandingan dari dua metode tersebut. Berdasarkan hasil pengujian pada 25 dokumen skripsi yang dilakukan, metode cosine similarity memiliki tingkat akurasi sebesar 51,785% dan metode jaccard similarity memiliki tingkat akurasi sebesar 15,765%. Kata Kunci: Kemiripan dokumen, Text Mining, Preprocessing, Cosine Similarity, Jaccard Similarity ABSTRACT In Sekolah Tinggi Teknik PLN (STT-PLN), thesis checking process is still done manually. This research is about the calculation of the similarity of thesis document Chapter I (Introduction). This study aims to display the percentage of similarity between documents to minimize plagiarism. The methods to build this system are text mining, cosine similarity and jaccard similarity. Text mining for preprocessing text, which includes tokenizing, filtering, and stemming. While Cosine Similarity and Jaccard Similarity to do the calculation of similarity which will be do comparison of the two methods. Based on the test results on 25 thesis documents performed, cosine similarity method has an accuracy of 76.66% and jaccard similarity method has an accuracy of 23.34%. Keyword: Documents Similarity, Text Mining, Preprocessing, Cosine Similarity, Jaccard Similarity
I. PENDAHULUAN
(baik universitas negeri maupun universitas swasta) didapat data sebanyak 55 persen mahasiswa
A. Latar Belakang Kejadian plagiarisme dalam dunia pendidikan masih cukup banyak terjadi, khususnya di tingkat perguruan tinggi. Plagiarisme sering ditemukan pada tugas kuliah mahasiswa dan skripsi mahasiswa. Plagiarisme adalah tindakan menjiplak karya orang lain. Menurut hasil survei Pew Research Center, salah satu lembaga survei Amerika Serikat yang juga bekerja sama dengan The Chronicle of Higher Education, dari survei terhadap 1055 mahasiswa
melakukan plagiat skripsi sepanjang sepuluh tahun terakhir. 89 persen dari pelaku plagiat tersebut mengatakan bahwa komputer dan internet sangat berperan dalam tindak plagiarisme yang mereka lakukan (Ajie & Bangsa, 2017). Kebanyakan dari mereka sering kali menyalin kalimat secara langsung dari internet dalam rangka pengerjaan tugas maupun skripsi karena kebanyakan dari mereka malas untuk membaca buku dan menganggap jika mencari informasi dari internet itu
lebih mudah, cepat dan instan tanpa mereka perlu
Similarity
membuka-buka dan membacanya satu per satu untuk
Mendeteksi
mendapatkan suatu informasi. Banyak bagian dalam
Mahasiswa
skripsi yang sering di copy-paste antara lain di
dalam penelitian ini data diperoleh dari Jurusan
bagian
Teknik Informatika STT-PLN dimana perhitungan
latar
belakang,
mengkutipan
teori,
pembuatan abstrak dan sebagainya.
dan
Jaccard
Kemiripan Teknik
Similarity Dokumen
Informatika
untuk Skripsi
STT-PLN”
kemiripan menggunakan metode Cosine Similarity
Seperti halnya pada perguruan tinggi STT PLN
dan
metode
Jaccard
Similarity.
Selanjutnya,
khususnya pada jurusan teknik informatika, pernah
dilakukan perbandingan di antara dua metode
ditemukannya kasus skripsi yang sama antara
tersebut, sehingga dapat diketahui metode manakah
mahasiswa dengan dokumen skripsi pada tahun
yang lebih tepat dan akurat digunakan untuk
sebelumnya. Salah satu kasus pada jurusan teknik
mendeteksi kemiripan dokumen skripsi mahasiswa.
informatika diantaranya metode yang digunakan
Aplikasi ini diharapkan dapat digunakan oleh
sama namun objek/studi kasus berbeda dan sulitnya
mahasiswa untuk mendeteksi kemiripan proposal
mengetahui tingkat kemiripan dokumen tersebut.
skripsi dengan database skripsi yang ada pada STT
Proses pengecekan kemiripan dokumen skripsi pada
PLN.
STT PLN ini masih dilakukan secara manual dan belum adanya basis data yang menampung data
B. Tujuan dan Manfaat
skripsi dari tahun 1998 sampai sekarang, sehingga
Tujuan yang ingin dicapai dari penelitian ini
membutuhkan waktu lama dan kurang efektif.
adalah untuk menghasilkan suatu aplikasi pendeteksi
Proses deteksi kemungkinan plagiarisme lebih
kemiripan dokumen skripsi mahasiswa yang dapat
efektif dilakukan dengan melakukan penghitungan
membandingkan performa dari metode Cosine
kemiripan antar dokumen. Ada beberapa metode
Similarity dan Jaccard Similarity.
penghitungan kemiripan antar dokumen yakni metode cosine similarity dan jaccard similarity. Cosine
Similarity
berfungsi
untuk
mengukur
Manfaat dari penelitian ini adalah:
1. Tersedianya aplikasi berbasis web yang dapat
kemiripan teks berdasarkan kemunculan kata,
digunakan
sedangkan Jaccard Similarity berfungsi untuk
dokumen skripsi mahasiswa STT-PLN.
menghitung tingkat kesamaan (similarity) antar dua buah objek(Triana, 2014). Pemilihan metode cosine similarity dan jaccard similarity dikarenakan metode ini adalah metode sintaktik (pencocokan berdasarkan
kata)
bukan
semantik(melihat
untuk
mendeteksi
kemiripan
2. Mengetahui perbandingan metode antara Cosine Similarity atau Jaccard Similarity yang lebih akurat sehingga lebih cocok diterapkan dalam aplikasi pendeteksi kemiripan dokumen skripsi mahasiswa STT-PLN.
arti/makna suatu kata). Metode ini digunakan pada metode vector space model untuk mengukur jarak kedekatan kemiripan. Namun belum adanya patokan metode yang lebih baik performanya, sehingga adalam penelitian ini penulis ingin membandingkan performa dari kedua metode tersebut.
II. LANDASAN TEORI 2.1 Text Mining Text mining merupakan salah satu bidang khusus dari data mining. Text mining dapat
Berdasarkan latar belakang diatas penulis
didefinisikan sebagai suatu proses menggali
mengambil judul “Perbandingan Metode Cosine
informasi dimana seseorang user berinteraksi
dengan sekumpulan dokumen menggunakan
a. Tokenizing
tool analisis yang merupakan komponen-
Tahap
komponen dalam data mining (Wisnu &
pemotongan tiap kata dalam kalimat atau
Hetami, 2015). Text mining digunakan untuk
parsing dengan menggunakan spasi
mengolah dokumen sebelum dilakukan proses
sebagai
similarity. Text mining merupakan proses
menghasilkan token berupa kata. Pada
ekstraksi pola (informasi dan pengetahuan yang
tokenizing terdapat beberapa proses yang
berguna) dari sejumlah besar sumber data tak
harus dilakukan yaitu merubah semua
terstruktur. Text mining memiliki tujuan dan
hruf besar menjadi kecil (text to
menggunakan proses yang sama dengan data
lowercase). Proses selanjutnya adalah
mining,
yang
penguraian, proses penguraian yang
berbeda.Masukan untuk Text mining adalah
dimaksud adalah membagi text menjadi
data yang tidak (atau kurang) terstruktur, seperti
kumpulan kata tanpa memperhatikan
dokumen Word, PDF, kutipan teks, dll.,
keterhubungan antara kata satu dengan
sedangkan masukan untuk data mining adalah
kata lain serta peran dan posisinya pada
data yang terstruktur.
kalimat.
namun
memiliki
masukan
Tokenizing
delimiter
adalah
yang
tahap
akan
b. Filtering
2.2 Text Preprocessing Didalam proses Text mining terdapat
Tahap
Filtering
adalah
tahap
proses Text Processing (Asshidiq & Sulistyo,
penyaringan kata yang didapat dari
2013). Preprocessing text merupakan tindakan
Tokenizing yang dianggap tidak penting
menghilangkan karakter-karakter tertentu yang
atau tidak memiliki makna dalam proses
terkandung dalam dokumen, seperti koma,
Text mining yang disebut stopword.
tanda petik dan lain-lain serta mengubah semua
Stopword berisi katakata umum yang
huruf kapital menjadi huruf kecil. Selain itu,
sering muncul dalam sebuah dokumen
dalam tahap text preprocessing ini dilakukan
dalam jumlah banyak namun tidak
tokenization. Tokenization merupakan proses
memiliki kaitan dengan tema tertentu.
pengolahan
Contoh stopwords adalah “yang”, “di”,
rangkaian
token teks,
yang
sehingga
terdapat dokumen
dalam akan
‘yang’, dll.
dipecah-pecah menjadi term (Aziz & P.S,
c. Stemming
2015). Text mining dalam prakteknya mencari
Tahap
pola-pola
suatu
mengembalikan kata-kata yang diperoleh
bagian teks dengan yang lain berdasarkan
dari hasil Filtering ke bentuk dasarnya,
aturan-aturan tertentu, kata-kata yang dapat
menghilangkan imbuhan awal (prefix)
mewakili sehingga dapat
dan imbuhan akhir (sufix) sehingga
tertentu,
mengasosiasikan
dilakukan analisa
keterhubungan antar satu dengan yang lain (Wisnu & Hetami, 2015). Berikut tahapantahapan proses didalam text mining:
stemming
didapat kata dasar.
adala
tahap
Nilai
Tf
sebuah
term
dihitung
berdasarkan kemunculan term tersebut dalam dokumen. b. Logarithmic Tf Dalam memperoleh nilai Tf, cara ini menggunakan fungsi logaritmik dalam matematika.
Gambar 2. 1 Text Preprocessing
TF = 1+log (TF)
2.3 Pembobotan Kata (Term Weighting) Pembobotan kata sangat berpengaruh
c. Binnary Tf
dalam menentukan keiripan antara dukumen
Cara ini menghasilkan nilai Boolean
dengan query. Apabila bobot tiap kata dapat
berdasarkan kemunculan term pada
ditentukan dengan tepat, diharapkan haisl
dokumen tersebut. Akan bernilai 0
perhitungan kemiripan teks akan menghasilkan
apabila term tidak ada pada sebuah
perangkingan Keberhasilan
dokumen dari
model
yang
baik.
dokumen, dan bernilai 1 apabila term
ruang
vector
tersebut ada dalam dokumen. Sehingga
ditentukan oleh skema pembobotan terhadap
banyaknya
suatu term baik untuk cakupan local maupun
dokumen tidak berpengaruh.
global, dan faktor normalisasi (Lestari, 2013).
kemunculan
term
pada
d. Augmented Tf
Pembobotan local hanya berpedoman pada TF = 0.5 + 0.5 x TFmax (TF)
frekuensi munculnya term dalam satu dokumen dan tidak melihat kemunculan term tersebut di
Nilai TF adalah jumlah kemunculan term
dalam
yang
pada sebuah dokumen. Nilai max(Tf)
memegang peranan penting dalam pembobotan
adalah jumlah kemunculan terbanyak
kata yaitu :
term pada dokumen yang sama.
dokumen
lainnya.
Faktor
Perhitungan Tf yang akan digunakan 1. Term Frequency (tf)
dalam implementasi sistem temu kembali
Pendekatan dalam pembobotan local yang paling banyak diterapkan adalah term frequency (tf).
Factor
ini
menyatakan
banyaknya
informasi pada sistem yang penulis bangun adalah Raw Tf. 2. Inverse Dokumen Frequency (IDF)
kemunculan suatu kata dalam suatu dokumen.
Metode TF-IDF (Term Frequency Inverse
Semakin sering suatu kata muncul dalam
Document Frequency) merupakan suatu cara
sebuah dokumen, berarti semakin penting kata
untuk memberikan bobot hubungan suatu kata
tersebut. Ada empat cara yang bisa digunakan
(term)
untuk mendapatkan nilai TF:
menggabungkan dua konsep untuk perhitungan
a. Raw Tf
terhadap
dokumen.
Metode
ini
bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse
frekuensi dokumen yang menggandung kata
sering digunakan untuk membandingkan dokumen
tersebut (Purung, Lumenta, & Jacobus, 2016).
dalam text mining (Zhiqiang, 2009). Rumus Cosine
Formula yang digunakan pada term frequency
similarity adalah sebagai berikut:
(tf),
terdapat
yaitu
nilai
tf
diberikan
berdasarkan jumlah kemunculan suatu kata di dokumen. Idf dihitung dengan formula sebagai berikut :
𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑞, 𝑑1) = cos 𝜃 =
𝑥.𝑦 ||x|| ||𝑦||
Dimana : x.y : vector dot product dari x dan y, dihitung dengan
𝐃 𝑰𝑫𝑭 = 𝐋𝐨𝐠 𝐃𝐟
∑𝑛𝑘=1 𝑥𝑘 𝑦𝑘 ||x|| : panjang vektor x, dihitung dengan ∑𝑛𝑘=1 𝑥𝑘2 ||y|| : panjang vektor y, dihitung dengan ∑𝑛𝑘=1 𝑦𝑘2
Dimana : IDF = Invers dokumen frekuensi D
Pang-Ning
= Total Dokumen
Tan
menjelaskan
bahwa
semakin besar hasil fungsi similarity, maka kedua
Df = Frequensi dokumen dari term Log = Untuk memperkecil pengaruhnya
objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi
relative terhadap tf
similarity, maka kedua objek tersebut dianggap
Bobot term dihitung dengan menggunakan rumus :
semakin berbeda. Pada fungsi yang menghasilkan nilai pada jangkauan [0...1], nilai 1 melambangkan kedua objek persis sama, sedangkan nilai 0
W = tf x idf
melambangkan kedua objek sama sekali berbeda (Tan P.N, 2006).
Dimana : W = Bobot dokumen
2.5 Jaccard Similarity
Tf = Term frekuensi Idf = Invers dokumen frekuensi
Jaccard Coeficient adalah salah satu metode yang dipakai untuk menghitung similarity
2.4 Cosine Similarity
antara dua objects (items). Seperti halnya cosine
Secara umum, fungsi similarity adalah
distance, secara umum perhitungan metode ini
fungsi yang menerima dua buah objek dan
didasarkan pada vector space similarity measure (S.
mengembalikan nilai kemiripan (similarity) antara
S. Purwandari, 2012). Jaccard Similarity adalah
kedua
riil.
indeks yang menunjukkan tingkat kesamaan antara
Umumnya, nilai yang dihasilkan oleh fungsi
suatu himpunan (set) data dengan himpunan (set)
similarity berkisar pada interval [0...1]. Namun ada
data
juga beberapa fungsi similarity yang menghasilkan
menggunakan rumus sebagai berikut:
objek
tersebut
berupa
bilangan
yang
lain.
Jaccard
Similarity
nilai yang berada di luar interval tersebut. Untuk memetakan hasil fungsi tersebut pada interval [0...1] dapat dilakukan normalisasi (Triana et al., 2014). Cosine
similarity
adalah
perhitungan
kesamaan antara dua vektor n dimensi dengan mencari kosinus dari sudut diantara keduanya dan
𝐽𝑎𝑐𝑐𝑎𝑟𝑑 (𝐴, 𝐵) =
|𝐴 ∩ 𝐵| |𝐴 ∪ 𝐵|
dihitung
Dimana :
Analisa Masalah
A : himpunan token dari dokumen 1
Analisa masalah merupakan tahap awal
B : himpunan token dari dokumen 2
penelitian. Analisa dilakukan terhadap proses pengecekan dokumen skripsi yang ada di STT-
III.
METODE PENELITIAN
PLN, apakah ditemukannya kemiripan antar
3.1 Diagram Alir Tahapan Penelitian Tahapan – tahapan penelitian yang digunakan dalam pembuatan Sistem Pendeteksi Kemiripan Dokumen Skripsi dapat dilihat pada
dokumen skripsi. Selain itu juga dilakukan pemilihan metode yang akan digunakan dalam menyelesaikan masalah. Pengumpulan Data Pengumpulan
gambar dibawah ini :
data
adalah
mengumpulkan bahan-bahan yang diperlukan dalam penyusunan tugas akhir ini, penulis
Mulai
menggunakan metode observasi, wawancara Analisa Masalah
dan studi literatur. Observasi
a. Observasi
Wawancara
Pengumpulan Data
Observasi
Studi Literatur
mengamati
Analisa Sistem Berjalan
dilakukan
langsung
dengan
proses
cara
pengecekan
Analisa Sistem
Analisa Sistem Usulan
dokumen skripsi pada STT PLN. b.
Perancangan Sistem Perancangan UML Perancangan Basis Data
Pengujian
Perancangan Antarmuka
Pengkodean Tidak
Wawancara Pada
pembuatan
aplikasi
ini,
pengumpulan data dilakukan melalui butir-butir pertanyaan saat wawancara secara mendalam dengan sekertaris jurusan Teknik Informatika
Sesuai
STT PLN. Ya
c.
Dokumentasi & Pembuatan Laporan
Studi Literatur Penulis
mengumpulkan
teori
dan
literatur yang berkaitan dengan pemrograman Selesai
berbasis website dan python, metode Cosine Gambar 3. 1 Diagram Alir Tahapan Penelitian
Similarity dan Jaccard Similarity sebagai referensi untuk menyelesaikan permasalahan.
Gambar 3.1 menjelaskan tahapan– tahapan penelitian dalam pembuatan Sistem
Analisa Sistem
Skripsi.
Penulis melakukan identifikasi proses
Keseluruhan tahapan penelitian diatas akan
sistem berjalan dan sistem kebutuhan, dimana
dijelaskan tahap demi tahap sebagai berikut:
hasil dari analisa digunakan untuk membuat
Pendeteksi
Kemiripan
Dokumen
skema alur proses sistem aplikasi website. Penulis juga melakukan identifikasi informasi
yang dibutuhkan untuk membangun sistem
dilakukan
yang diusulkan. Informasi yang didapat akan
penulisan laporan tugas akhir.
digunakan untuk membangun sistem yang akan
3.2 Perancangan Sistem
diusulkan dengan mengikuti skema alur proses
dan
kemudian
disusun
pada
Perancangan penelitian pada sub bahasan ini
sistem yang telah dianalisa.
terdiri dari beberapa sub bahasan, yakni sub
Perancangan Sistem
perancangan unified modeling language, basis data, dan antar muka.
a. Perancangan UML Merepresentasikan gambaran umum dan proses perhitungan dari sistem yang dibuat
Perancangan awal dibuat ke dalam bentuk diagram use case untuk menjelaskan gambaran
dengan menggunakan UML Diagram. b.
Use Case Diagram
sistem dan aktor yang terlibat secara keseluruhan.
Perancangan Basis Data
Komponen use case terdiri dari : Actor, Use Case
Proses perancangan basis data ini
dan Relation. Aktor adalah user yang berhubungan
adalah merancang kebutuhan tabel yang akan
dengan sistem, yakni mahasiswa yang ingin
digunakan untuk penyimpanan data.
mendeteksi kemiripan proposal skripsi dengan
c.
database skripsi yang ada pada STT-PLN dan admin
Perancangan Antarmuka Merancang
antar
muka
yang
merupakan desain tampilan interaktif antara
yang
jurusan
teknik
Use Case Diagram Sistem Pendeteksi Tingkat Kemiripan Dokumen Skripsi Mahasiswa Teknik
Pengkodean Perancangan
sekretaris
informatika STT PLN.
user dengan sistem. d.
merupakan
diimplementasikan
Informatika STT PLN dapat dilihat pada gambar 3.4 dibawah ini:
dengan menggunakan bahasa pemrograman Perl Hypertext Processor (PHP) dan Hypertext
Sistem Pendeteksi Kemiripan Dokumen Skripsi
Markup Language (HTML) sebagai aplikasi
Kelola Data Skripsi
berbasis web dan Python sebagai preprocessing
<<extend>>
<<extend>>
teks.
Tambah Data Skripsi
Pengujian
<<extend>>
Ubah Data Skripsi
Hapus Data Skripsi
Pengujian 2 Dokumen
Tahap selanjutnya adalah melakukan User
pengujian terhadap program yang telah dibuat. Apabila pengujian gagal maka diperlukan adanya
penelusuran
kembali
Pengujian dengan Database
Cetak Laporan hasil pengujian
setiap
perancangan yang telah dilakukan untuk menemukan penyebab kegagalan sampai tidak ditemukan error dalam aplikasi ini. Pembahasan Dokumentasi dan Pembuatan Laporan Tahapan ini merupakan tahapan akhir yaitu pembahasan dari hasil analisa yang telah
Gambar 3. 2 Diagram Use Case
Admin
menu dashboard, master data skripsi, proses pengujian dokumen dan monitoring riwayat pengujian. Sedangkan apabila diakses oleh user maka
hanya
akan
menampilkan
menu
dashboard dan pengujian dokumen. 2. Tampilan Master Data – Data Skripsi Gambar Class Diagram
IV. HASIL DAN PEMBAHASAN 4.1
Hasil Rancangan Aplikasi Aplikasi Pendeteksi Kemiripan Dokumen
Skripsi Mahasiswa Teknik Informatika STTPLN dapat digunakan oleh dua user yaitu
Gambar 4. 2 Tampilan Master Data Skripsi
masyarakat sebagai user biasa dan sekertaris jurusan sabagai admin . Setiap user memiliki hak
akses
tersendiri
terhadap
aplikasi.
Gambar 4.2 merupakan halaman master data skripsi. Halaman ini merupakan halaman
Penerapan metode Cosine Similarity dan
yang
Jaccard Similarity bertujuan untuk mencari
mahasiswa STT PLN. Admin dapat mengelola
tingkat kemiripan antara kedua metode tersebut
data skripsi seperti menambah, mengubah, atau
dan membandingkan metode manakah yang
menghapus.
menampilkan
tepat dan akurat dalam melakukan pengujian
daftar
3. Tampilan
kemiripan dokumen. Berikut adalah gambaran
data
Master
skripsi
Data
–
Tambah Data Skripsi
dan rincian kegunaan aplikasi: 1. Tampilan Dashboard
Gambar 4. 3 Tampilan Tambah Data Skripsi Gambar 4. 1 Tampilan Dashboard Gambar 4.3 merupakan halaman tambah Gambar
4.1
merupakan
halaman
dashboard user. Apabila halaman ini diakses oleh admin maka memiliki empat menu, yaitu
data skripsi. Halaman ini merupakan halaman
untuk menambah data skripsi yang selanjutnya data tersimpan ke dalam database skripsi. 4. Tampilan Master Data – Edit Data Skripsi
Gambar 4. 6 Tampilan Pembacaan Gambar 4. 4 Tampilan Edit Data Skripsi
Gambar 4.4 merupakan halaman edit data
Konten Bab I
Gambar
4.6
merupakan
halaman
skripsi. Halaman ini merupakan halaman untuk
pembacaan konten bab 1. Halaman ini
mengubah
setelah
merupakan halaman untuk mengambil konten
mengubah, maka data di database akan
dari dokumen yang dimasukkan. Konten yang
otomatis memperbaharui data.
ditampilkan dan diproses adalah konten bab 1
data
skripsi.
Dimana
dokumen skripsi tersebut. Langkah selanjutnya 5. Tampilan Pengujian 2 Dokumen
yaitu proses casefolding (proses pengubahan konten menjadi huruf kecil) sebelum dilakukan preprocessing teks. 7. Tampilan Preprocessing Teks
Gambar 4. 5 Tampilan Awal Pengujian 2 Dokumen
Gambar 4.5 merupakan halaman pengujian 2 dokumen. Halaman ini merupakan halaman awal menu pengujian 2 dokumen. Dimana user dapat memasukkan 2 dokumen yang ingin diuji tingkat kemiripannya yang selanjutnya akan diproses oleh sistem. 6. Tampilan Pembacaan Konten Bab 1
Gambar 4. 7 Tampilan Preprocessing Teks
Gambar 4.7 merupakan halaman teks preprocessing. Halaman ini menampilkan tabel
Gambar 4. 9 Tampilan Hasil Uji dengan Database
perbandingan penghitungan kemiripan antara metode cosine similarity dan jaccard similarity.
Gambar 4.9 merupakan halaman hasil uji
Terdapat 2 tombol di dalam halaman tersebut,
dengan database. Halaman ini menampilkan
tombol cosine dan tombol jaccard dimana
tabel perbandingan penghitungan kemiripan
tombol tersebut jika ditekan menampilkan hasil
antara metode cosine similarity dan jaccard
perhitungan secara detail mengenai metode
similarity. Terdapat 2 tombol di dalam halaman
yang digunakan.
tersebut, tombol cosine dan tombol jaccard dimana
tombol
tersebut
jika
ditekan
menampilkan hasil perhitungan mendetail 8. Tampilan
Hasil
Uji
dan
mengenai metode yang digunakan.
Perbandingan Metode 10. Tampilan Detail Perhitungan Cosine Similarity
Gambar 4. 8 Tampilan Hasil Uji dan Perbandingan Metode Gambar Gambar 4.8 merupakan halaman hasil uji dan
perbandingan
metode.
Halaman
4.
10
Tampilan
Detail
Perhitungan Cosine Similarity
ini
menampilkan tabel perbandingan penghitungan
Gambar 4.10 merupakan halaman detail
kemiripan antara metode cosine similarity dan
perhitungan cosine similarity. Halaman ini
jaccard similarity. Terdapat 2 tombol di dalam
menampilkan tabel perhitungan mendetail
halaman tersebut, tombol cosine dan tombol
metode cosine similarity. Dimana hasil yang
jaccard dimana tombol tersebut jika ditekan
didapat adalah presentase kemiripan dokumen.
menampilkan hasil perhitungan mendetail mengenai metode yang digunakan.
9. Tampilan Hasil Uji dengan Database
11. Tampilan Detail Perhitungan Jaccard Similarity
Pada
ilustrasi
diatas
terdapat
5
dokumen yang akan diuji, jika menggunakan rumus kombinasi sebagai berikut: 𝐶(5,2) =
𝑛! 5! 5𝑥4 = = 𝑟! (𝑛 − 𝑟)! 2! (5 − 2)! 2 = 10 𝑘𝑎𝑙𝑖 𝑝𝑒𝑛𝑔𝑢𝑗𝑖𝑎𝑛
Sehingga pada pengujian ini dengan 25 dokumen
menggunakan
rumus
kombinasi
sebagai berikut: 𝐶(25,2) =
𝑛! 25! 25𝑥24 = = 𝑟! (𝑛 − 𝑟)! 2! (25 − 2)! 2 = 300 𝑘𝑎𝑙𝑖 𝑝𝑒𝑛𝑔𝑢𝑗𝑖𝑎𝑛
Gambar
4.
11
Tampilan
Dari
Detail
300
kali
pengujian
yang
dilakukan, selanjutnya dilakukan proses akurasi
Perhitungan Jaccard Similarity
algoritma. Tingkat akurasi diperoleh dari rataGambar 4.11 merupakan halaman detail
rata pengujian metode cosine similarity dan
perhitungan jaccard similarity. Halaman ini
jaccard similarity. Maka didapatkan hasil
menampilkan tabel perhitungan mendetail
persentasi dan hasil rata-rata dari pengujian
metode jaccard similarity. Dimana hasil yang
tersebut yaitu:
didapat adalah presentase kemiripan dokumen. Tabel 4. 1 Hasil Pengujian Dokumen 1 4.2 Hasil Pengujian Dari
hasil
uji
coba
penghitungan
probabilitas atau kemunculan dan menghitung kemiripan dokumen teks dari algoritma cosine similarity dan jaccard similarity dari sample data
skripsi
yaitu
25 dokumen
dengan
Uji
Nama Dokumen
ke-
Nama Dokumen
Hasil
Hasil
Waktu
Waktu
Memori
Memori
Uji
Pembanding
Cosine
Jaccard
Cosine
Jaccard
Cosine
Jaccard
1
Dokumen 1
Dokumen 2
49.385%
11.927%
0.00164 detik
0.00046 detik
846448kb
695040kb
2
Dokumen 1
Dokumen 3
46.085%
12.336%
0.00203 detik
0.00047 detik
891728kb
740832kb
3
Dokumen 1
Dokumen 4
58.61%
15.225%
0.00141 detik
0.00039 detik
857904kb
706496kb
4
Dokumen 1
Dokumen 5
46.536%
10.123%
0.00138 detik
0.00034 detik
857888kb
706384kb
5
Dokumen 1
Dokumen 6
54.969%
13.667%
0.00108 detik
0.00031 detik
858096kb
706688kb
6
Dokumen 1
Dokumen 7
58.856%
17.162%
0.00183 detik
0.00079 detik
846896kb
695552kb
7
Dokumen 1
Dokumen 8
53.321%
16.332%
0.00247 detik
0.00062 detik
912248kb
760968kb
8
Dokumen 1
Dokumen 9
55.837%
16.25%
0.00112 detik
0.00033 detik
857912kb
706568kb
23.529%
0.00145 detik
0.00058 detik
870016kb
721232kb
9
Dokumen 1
Dokumen 10
64.403%
pengujian dilakukan dengan menggunakan rumus kombinasi. Berikut adalah ilustrasi
Pada Tabel 4.1 merupakan tabel hasil
pengujian menggunakan rumus kombinasi :
pengujian menggunakan rumus kombinasi sehingga dapat mendeteksi kemiripan semua Dokumen 1
Dokumen 2
Dokumen 3
Dokumen 4
Dokumen 5
dokumen tanpa adanya data yang terlewat. Dari hasil setiap uji coba pada 25 dokumen yang
Gambar 4. 13 Ilustrasi Pengujian Dokumen
berbeda maka di dapat hasil perbandingan dari
dengan Kombinasi
setiap
metode
yang
di
gunakan,
untuk
mendapatkan hasil perbandingan yang di
lakukan maka pada setiap metode harus di
mengambil
skripsi
mahasiswa
dapatkan hasil rata-rata terlebih dahulu. Hasil
informatika STT-PLN pada sekertaris jurusan.
perbandingan dari setiap metode terdapat pada
Data-data yang telah dikumpulkan kemudian
Tabel 4.2
diolah
menggunakan
Teknik
preprocessing
teks.
Preprocessing teks merupakan tahap proses Tabel 4. 2 Akurasi Pengujian Hasil
Total
Hasil
Hasil
Waktu
Waktu
Memori
awal Memori
Cosine
Jaccard
Cosine
Jaccard
Cosine
Jaccard
15535,59%
4729,43%
0,03856
0,01828
250943000
210290856
51,785%
15,765%
0,00012855
0,00000609
836476,67 kb
700969,52 kb
detik
detik
Pengujian Rata-rata
terhadap
dokumen
skripsi
untuk
mempersiapkan dokumen menjadi dokumen yang akan diolah lebih lanjut. Tahapan teks preprocessing
yang
dilakukan
adalah
Dari pengujian yang dilakukan diatas, dapat
tokenizing, filtering, stemming. Setelah tahap
dilihat bahwa rata-rata hasil pengujian untuk
preprocessing
mendeteksi kemiripan dokumen menggunakan
menghitung jarak kedekatan/kemiripan antar
Cosine Similarity memiliki tingkat akurasi lebih
dokumen
baik yaitu sebesar 51,785% sedangkan Jaccard
similarity dan jaccard similarity. Pada tahap
Similarity sebesar 15,765%.
cosine
selesai
dengan
similarity,
maka
selanjutnya
menggunakan
hasil
cosine
stemming
pada
preprocessing dijadikan sebagai term yang 4.3 Pembahasan
selanjutnya dihitung TF IDF, Wdt dan Wd, serta
Penelitian ini dilakukan berdasarkan hasil
panjang
vektor.
Kemudian
dihitung
observasi dan wawancara yang dilakukan di
menggunakan rumus cosine sehingga didapat
Jurusan Teknik Informatika STT PLN Jakarta.
presentase kemiripan antar dokumen yang diuji.
Wawancara
sekertaris
Sedangkan jaccard similarity, hasil stemming
jurusan Teknik Informatika STT-PLN. Dari
pada preprocessing dijadikan sebagai term
hasil observasi dan wawancara yang dilakukan
setiap dokumen, kemudian dihitung intersect
maka ditemukan suatu masalah yaitu pada
dan union dari dokumen yang diuji. Selanjutnya
dokumen skripsi pada saat sidang sering
dihitung menggunakan rumus jaccard sehingga
ditemukan kemiripan bahkan diduga plagiat.
didapat presentase kemiripan antar dokumen
Untuk
kemiripan
yang diuji. Kemudian hasil dari kedua metode
dokumen skripsi tersebut penulis mempunyai
tersebut dibandingkan dan penulis mendapat
suatu sistem pendeteksi kemiripan dokumen
hasil metode manakah yang paling tepat dan
skripsi mahasiswa Teknik Informatika STT
akurat digunakan dalam proses pendeteksian
PLN dengan menerapkan dan membandingkan
kemiripan dokumen tersebut.
dilakukan
meminimalisir
kepada
adanya
dua metode, yaitu metode Cosine Similarity dan Jaccard Similarity. Hal pertama yang dilakukan adalah
Penulis telah melakukan proses pengujian sebanyak 300 kali pengujian, dan mendapatkan hasil
perbandingan
dari
kedua
metode.
menyiapkan data skripsi yang digunakan untuk
Berdasarkan hasil pengujian yang sudah
pengujian. Pengumpulan data dilakukan dengan
dilakukan, penulis mendapatkan hasil akurasi
bahwa
cosine
similarity
memiliki
nilai
1.
Sistem pendeteksi kemiripan dokumen
kemiripan sebesar 51,785% lebih baik dari
adalah aplikasi berbasis web dimana
jaccard similarity yang mempunyai nilai
bahasa pemrograman yang digunakan
kemiripan sebesar 15,765%. Dilihat juga dari
adalah PHP.
parameter waktu dimana rata-rata waktu
2.
Antarmuka
dalam
sistem
pendeteksi
pemrosesan pada cosine similarity sebesar
kemiripan dokumen skripsi yang interaktif
0,00012855 detik lebih lambat dibandingkan
dan user friendly terdapat menu admin dan
jaccard similarity sebesar 0,00000609 detik
user. Pada admin, dapat mengakses menu
untuk sekali pengujian. Dilihat juga dari
halaman awal, menu pengecekan dokumen
parameter memori, memori yang digunakan
skripsi, kelola data skripsi dan monitoring
pada jaccard similarity lebih kecil sebesar
hasil pengujian dokumen. Sedangkan pada
700969,52 kb dibandingkan dengan cosine
user hanya menampilkan halaman awal
similarity sebesar 836476,67 kb. Sehingga dari
dan proses pengecekan dokumen skripsi.
ketiga parameter tersebut, dapat diambil
3.
Basis data dalam sistem pendeteksi
kesimpulan bahwa cosine similarity walaupun
kemiripan dokumen skripsi berupa satu
memiliki similarity lebih besar namun waktu
database dengan tiga tabel, yaitu tabel user
akses dan memori yang digunakan lebih besar
yang digunakan dalam login admin, tabel
dibandingkan dengan jaccard similarity. Hal ini
skripsi untuk mengelola data skripsi yang
dikarenakan langkah algoritma yang dilakukan
ada pada STT PLN, dan tabel riwayat uji
lebih panjang dibandingkan jaccard similarity
yang menampung histori pengecekan
yang ada melalui 3 tahapan, yaitu hitung
dokumen skripsi yang dilakukan oleh user.
intersect, union, dan pembagian antara intersect
4.
Penerapan cosine similarity dimulai dari
dan union kata tersebut. Metode cosine
preprocessing teks, didapatkan term yang
similarity menormalisasi panjang vektor data
selanjutnya dihitung TF IDF, Wdt dan Wd,
dengan membandingkan term yang sejajar satu
serta panjang vektor. Kemudian dihitung
sama lain dari 2 pembanding. Sedangkan pada
menggunakan rumus cosine sehingga
metode
didapat
jaccard
similarity
hanya
presentase
kemiripan
antar
membandingkan isi term dengan eksak dan
dokumen yang diuji. Sedangkan penerapan
hanya melihat apakah ada suatu term tertentu
jaccard
pada
preprocessing text, didapatkan term setiap
pembanding
tanpa
melihat
posisi
penulisan yang berbeda.
similarity
dimulai
dari
dokumen, hitung intersect dan union dari dokumen yang diuji. Kemudian dihitung
IV. PENUTUP
menggunakan rumus jaccard sehingga 5.1 Kesimpulan
didapat
Berdasarkan hasil penelitian dan pembahasan
dokumen yang diuji
yang telah dilakukan dapat diambil beberapa kesimpulan, antara lain:
5.
presentase
kemiripan
antar
Berdasarkan 300 kali pengujian dengan 25 dokumen uji pada sistem pendeteksi
kemiripan dokumen skripsi di dapat
1.
Aplikasi pendeteksi kemiripan dokumen
metode cosine dengan nilai akurasi lebih
skripsi diharapkan dapat dikembangkan
baik yaitu 51,785% dari metode jaccard
dengan menggunakan metode maupun
sebesar
algoritma lain yang memiliki tingkat
15,765%.
Dilihat
juga
dari
parameter waktu dimana rata-rata waktu pemrosesan pada cosine similarity sebesar 0,00012855
detik
lebih
akurasi yang lebih tinggi. 2.
lambat
judul skripsi dan isi dokumen skripsi pada
dibandingkan jaccard similarity sebesar 0,00000609 detik untuk sekali pengujian.
Pada aplikasi dapat ditambahkan melihat
database 3.
Pada aplikasi dapat menampilkan dari
Dilihat juga dari parameter memori,
skripsi yang sangat mirip hingga tidak
memori yang digunakan pada jaccard
mirip
similarity lebih kecil sebesar 700969,52 kb
4.
Bahasa yang digunakan juga tidak hanya
dibandingkan dengan cosine similarity
bahasa
sebesar 836476,67 kb. Sehingga dari
menggunakan bahasa asing seperti bahasa
ketiga parameter tersebut, dapat diambil
Inggris dan bahasa asing lainnya.
kesimpulan
bahwa
cosine
Indonesia
tetapi
dapat
similarity
walaupun memiliki similarity lebih besar
DAFTAR PUSTAKA
namun waktu akses dan memori yang digunakan dengan
lebih
jaccard
dikarenakan
besar
dibandingkan
similarity.
langkah
Hal
algoritma
ini yang
dilakukan lebih panjang dibandingkan jaccard
similarity.
Metode
cosine
similarity menormalisasi panjang vektor data dengan membandingkan term yang sejajar satu sama lain dari 2 pembanding. Sedangkan pada metode jaccard similarity hanya membandingkan isi term dengan eksak dan hanya melihat apakah ada suatu term tertentu pada pembanding tanpa melihat posisi penulisan yang berbeda.
Dunia Komputer, Jakarta. Ajie, H., & Bangsa, A. S. (2017). Aplikasi pendeteksi dugaan awal plagiarisme pada tugas siswa dan mahasiswa berdasarkan kemiripan isi teks menggunakan Algoritma Levenshtein Distance. Jurnal Pinter, 1(1), 25–33. Asshidiq, A. S., & Sulistyo, M. (2013). Penilaian
Ujian
Bertipe
Essay
Menggunakan Metode Text Similarity. Jurnal Informatika. . Aziz, A. S., & P.S, K. (2015). Implementasi Vector
Space
Pembangkitan
Model
dalam
Frequently
Asked
Questions dan Solusi yang Relevan
5.2 Saran Dari
Aditya, A.L. (2011). Jago PHP & MySQL,
hasil
penelitian
yang
telah
dilaksanakan oleh penulis, terdapat beberapa hal yang ingin disarankan untuk pengembangan aplikasi ini untuk selanjutnya, yaitu :
Keluhan Pelanggan. Scientific Journal Informatics, 2. Booch, G., Jacobson, I., & Rumbaugh, J. (2005).
The
Unified
Modeling
Language
User
Guide
SECOND
Rudyanto, M. A. (2011). Pemroraman Web
EDITION. United States: Addison
Dinamis
Wesley Professional.
MySQL. Yogyakarta: Bumi Aksara.
Chahal, M. (2016). Information Retrieval using Jaccard Similarity Coefficient. International Journal of Computer Trends and Technology, 36(3), 140– 142. Retrieved from http://www.ijcttjournal.org Herlawati, Widodo, Prabowo Pudjo. 2011. "Menggunakan UML". Bandung: Informatika. Hippner, H., & Rentzmann, R. (2006). Text Mining. https://doi.org/10.1007/s00287-0060091-y Imbar, R. V., Ayub, M., Rehatta, A., Jurusan, S., Informasi, S., Jurusan, S., & Informatika, T. (2014). Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks. Jurnal Informatika, 31–42. Lestari, K. (2013). Query Expansion pada Sistem
Temu
Kembali
Informasi
dengan Model Ruang Vektor. Naskah Tugas Akhir, 24. Ogie
Nurdiana, Jumadi, D. N. (2016). PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL- QUR ’ AN, I(1), 59– 63. Python, S. P., Pythonlabs, B., Foundation, P. S., Foundation, P. S., Python, N., Python, M., & Circus, F. (2000). Konsep dasar python. Python, 1–6. https://doi.org/aa Ramakrishnan, R. dan Gehrke, J. (2003). Sistem Manajemen Database Edisi ke-3. Yogyakarta: Andi dan McGraw-Hill Education. Rossa, A. S. (2011). Rekayasa Perangkat Lunak. Bandung: Modula.
Menggunakan
PHP
dan
S. S. S. Purwandari, Rancang Bangun Search Engine Tafsir Al-Quran Yang Mampu Memproses Teks Bahasa Indonesia Menggunakan Metode Jaccard Similarity, Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang, 2012, pp. 9-27. Sommerville, Ian. (2003). Software Engineering, 6th Edition. Jakarta: Erlangga. Sugiyamto, S., Surarso, B., Sugiharto, A., & A, S. (2016). Analisa Performa Metode Cosine dan Jacard pada Pengujian Kesamaan Dokumen. Jurnal Masyarakat Informatika, 5(10), 1–8. Retrieved from http://jmasiftraining.if.undip.ac.id/index.php/jmasif /article/view/31 Suryatiningsih. (2009). Web Programing. Bandung: Politeknik Telkom Bandung Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. M.Sc. Thesis, Appendix D, pp, 39–46. https://doi.org/10.22146/teknosains.26 972 Tan, P. N., Steinbach, M., Kumar, V. (2006). Introduction to Data Mining. London: Pearson Education Inc. Thada, V., & Jaglan, V. (2013). Comparison of Jaccard, Dice, Cosine Similarity Coefficient To Find Best Fitness Value for Web Retrieved Documents Using Genetic Algorithm. International Journal of Innovations in Engineering and Technology, 2(4), 202–205. Retrieved from http://www.dknmu.org/uploads/file/68 42.pdf Triana, A., Saptono, R., & Sulistyo, M. E. (2014). Pemanfaatan Metode Vector Space Model Dan Cosine Similarity Pada Fitur Deteksi Hama Dan Penyakit
Tanaman Padi. Jurnal ITSMART, (March 2017), 1–6. https://doi.org/10.20961/its.v3i2.704 Wisnu, D., & Hetami, A. (2015). Perancangan Informtaion
Retreival
(IR)
untuk
Pencarian Ide Pokok Teks Artikel Berbahasa Inggris dengan Pembobotan Vector Space Model. Jurnal Ilmiah Teknologi dan Informasi, Volume 9, Volume 9. Zhiqiang, L., Werimin, S., Zhenhua, Y. (2009). Measuring Semantic Similarity between Words Using Wikipedia. IEEE. 251-255