Resume Jurnal.docx

  • Uploaded by: Nilam Puspita
  • 0
  • 0
  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Resume Jurnal.docx as PDF for free.

More details

  • Words: 4,965
  • Pages: 16
Sistem Pendeteksi Kemiripan Dokumen Skripsi Mahasiswa Teknik Informatika STT PLN Menggunakan Metode Cosine Similarity dan Jaccard Similarity Dyah Puspitasari Nilam Utami, Dr.Dra. Dwina Kuswardani, M.Kom, Pritasari Palupiningsih, S.Kom.,M.Kom Program Studi Sarjana Teknik Informatika, Sekolah Tinggi Teknik PLN Jakarta Jalan Lingkar Luar Barat Menara PLN Cengkareng Jakarta Barat e-mail: [email protected]

ABSTRAK Pada Sekolah Tinggi Teknik PLN (STT-PLN) proses pengecekan dokumen skripsi masih dilakukan secara manual. Penelitian ini mengenai perhitungan kemiripan dokumen skripsi Bab I (Pendahuluan). Penelitian ini bertujuan untuk menampilkan hasil presentase kemiripan antar dokumen sehingga meminimalisir adanya plagiarisme. Metode yang di terapkan untuk membangun sistem ini adalah text mining, cosine similarity dan jaccard similarity. Text mining untuk melakukan preprocessing teks, yang meliputi tokenizing, filtering, dan stemming. Sedangkan Cosine Similarity dan Jaccard Similarity untuk melakukan perhitungan kemiripan yang selanjutnya akan dilakukan perbandingan dari dua metode tersebut. Berdasarkan hasil pengujian pada 25 dokumen skripsi yang dilakukan, metode cosine similarity memiliki tingkat akurasi sebesar 51,785% dan metode jaccard similarity memiliki tingkat akurasi sebesar 15,765%. Kata Kunci: Kemiripan dokumen, Text Mining, Preprocessing, Cosine Similarity, Jaccard Similarity ABSTRACT In Sekolah Tinggi Teknik PLN (STT-PLN), thesis checking process is still done manually. This research is about the calculation of the similarity of thesis document Chapter I (Introduction). This study aims to display the percentage of similarity between documents to minimize plagiarism. The methods to build this system are text mining, cosine similarity and jaccard similarity. Text mining for preprocessing text, which includes tokenizing, filtering, and stemming. While Cosine Similarity and Jaccard Similarity to do the calculation of similarity which will be do comparison of the two methods. Based on the test results on 25 thesis documents performed, cosine similarity method has an accuracy of 76.66% and jaccard similarity method has an accuracy of 23.34%. Keyword: Documents Similarity, Text Mining, Preprocessing, Cosine Similarity, Jaccard Similarity

I. PENDAHULUAN

(baik universitas negeri maupun universitas swasta) didapat data sebanyak 55 persen mahasiswa

A. Latar Belakang Kejadian plagiarisme dalam dunia pendidikan masih cukup banyak terjadi, khususnya di tingkat perguruan tinggi. Plagiarisme sering ditemukan pada tugas kuliah mahasiswa dan skripsi mahasiswa. Plagiarisme adalah tindakan menjiplak karya orang lain. Menurut hasil survei Pew Research Center, salah satu lembaga survei Amerika Serikat yang juga bekerja sama dengan The Chronicle of Higher Education, dari survei terhadap 1055 mahasiswa

melakukan plagiat skripsi sepanjang sepuluh tahun terakhir. 89 persen dari pelaku plagiat tersebut mengatakan bahwa komputer dan internet sangat berperan dalam tindak plagiarisme yang mereka lakukan (Ajie & Bangsa, 2017). Kebanyakan dari mereka sering kali menyalin kalimat secara langsung dari internet dalam rangka pengerjaan tugas maupun skripsi karena kebanyakan dari mereka malas untuk membaca buku dan menganggap jika mencari informasi dari internet itu

lebih mudah, cepat dan instan tanpa mereka perlu

Similarity

membuka-buka dan membacanya satu per satu untuk

Mendeteksi

mendapatkan suatu informasi. Banyak bagian dalam

Mahasiswa

skripsi yang sering di copy-paste antara lain di

dalam penelitian ini data diperoleh dari Jurusan

bagian

Teknik Informatika STT-PLN dimana perhitungan

latar

belakang,

mengkutipan

teori,

pembuatan abstrak dan sebagainya.

dan

Jaccard

Kemiripan Teknik

Similarity Dokumen

Informatika

untuk Skripsi

STT-PLN”

kemiripan menggunakan metode Cosine Similarity

Seperti halnya pada perguruan tinggi STT PLN

dan

metode

Jaccard

Similarity.

Selanjutnya,

khususnya pada jurusan teknik informatika, pernah

dilakukan perbandingan di antara dua metode

ditemukannya kasus skripsi yang sama antara

tersebut, sehingga dapat diketahui metode manakah

mahasiswa dengan dokumen skripsi pada tahun

yang lebih tepat dan akurat digunakan untuk

sebelumnya. Salah satu kasus pada jurusan teknik

mendeteksi kemiripan dokumen skripsi mahasiswa.

informatika diantaranya metode yang digunakan

Aplikasi ini diharapkan dapat digunakan oleh

sama namun objek/studi kasus berbeda dan sulitnya

mahasiswa untuk mendeteksi kemiripan proposal

mengetahui tingkat kemiripan dokumen tersebut.

skripsi dengan database skripsi yang ada pada STT

Proses pengecekan kemiripan dokumen skripsi pada

PLN.

STT PLN ini masih dilakukan secara manual dan belum adanya basis data yang menampung data

B. Tujuan dan Manfaat

skripsi dari tahun 1998 sampai sekarang, sehingga

Tujuan yang ingin dicapai dari penelitian ini

membutuhkan waktu lama dan kurang efektif.

adalah untuk menghasilkan suatu aplikasi pendeteksi

Proses deteksi kemungkinan plagiarisme lebih

kemiripan dokumen skripsi mahasiswa yang dapat

efektif dilakukan dengan melakukan penghitungan

membandingkan performa dari metode Cosine

kemiripan antar dokumen. Ada beberapa metode

Similarity dan Jaccard Similarity.

penghitungan kemiripan antar dokumen yakni metode cosine similarity dan jaccard similarity. Cosine

Similarity

berfungsi

untuk

mengukur

Manfaat dari penelitian ini adalah:

1. Tersedianya aplikasi berbasis web yang dapat

kemiripan teks berdasarkan kemunculan kata,

digunakan

sedangkan Jaccard Similarity berfungsi untuk

dokumen skripsi mahasiswa STT-PLN.

menghitung tingkat kesamaan (similarity) antar dua buah objek(Triana, 2014). Pemilihan metode cosine similarity dan jaccard similarity dikarenakan metode ini adalah metode sintaktik (pencocokan berdasarkan

kata)

bukan

semantik(melihat

untuk

mendeteksi

kemiripan

2. Mengetahui perbandingan metode antara Cosine Similarity atau Jaccard Similarity yang lebih akurat sehingga lebih cocok diterapkan dalam aplikasi pendeteksi kemiripan dokumen skripsi mahasiswa STT-PLN.

arti/makna suatu kata). Metode ini digunakan pada metode vector space model untuk mengukur jarak kedekatan kemiripan. Namun belum adanya patokan metode yang lebih baik performanya, sehingga adalam penelitian ini penulis ingin membandingkan performa dari kedua metode tersebut.

II. LANDASAN TEORI 2.1 Text Mining Text mining merupakan salah satu bidang khusus dari data mining. Text mining dapat

Berdasarkan latar belakang diatas penulis

didefinisikan sebagai suatu proses menggali

mengambil judul “Perbandingan Metode Cosine

informasi dimana seseorang user berinteraksi

dengan sekumpulan dokumen menggunakan

a. Tokenizing

tool analisis yang merupakan komponen-

Tahap

komponen dalam data mining (Wisnu &

pemotongan tiap kata dalam kalimat atau

Hetami, 2015). Text mining digunakan untuk

parsing dengan menggunakan spasi

mengolah dokumen sebelum dilakukan proses

sebagai

similarity. Text mining merupakan proses

menghasilkan token berupa kata. Pada

ekstraksi pola (informasi dan pengetahuan yang

tokenizing terdapat beberapa proses yang

berguna) dari sejumlah besar sumber data tak

harus dilakukan yaitu merubah semua

terstruktur. Text mining memiliki tujuan dan

hruf besar menjadi kecil (text to

menggunakan proses yang sama dengan data

lowercase). Proses selanjutnya adalah

mining,

yang

penguraian, proses penguraian yang

berbeda.Masukan untuk Text mining adalah

dimaksud adalah membagi text menjadi

data yang tidak (atau kurang) terstruktur, seperti

kumpulan kata tanpa memperhatikan

dokumen Word, PDF, kutipan teks, dll.,

keterhubungan antara kata satu dengan

sedangkan masukan untuk data mining adalah

kata lain serta peran dan posisinya pada

data yang terstruktur.

kalimat.

namun

memiliki

masukan

Tokenizing

delimiter

adalah

yang

tahap

akan

b. Filtering

2.2 Text Preprocessing Didalam proses Text mining terdapat

Tahap

Filtering

adalah

tahap

proses Text Processing (Asshidiq & Sulistyo,

penyaringan kata yang didapat dari

2013). Preprocessing text merupakan tindakan

Tokenizing yang dianggap tidak penting

menghilangkan karakter-karakter tertentu yang

atau tidak memiliki makna dalam proses

terkandung dalam dokumen, seperti koma,

Text mining yang disebut stopword.

tanda petik dan lain-lain serta mengubah semua

Stopword berisi katakata umum yang

huruf kapital menjadi huruf kecil. Selain itu,

sering muncul dalam sebuah dokumen

dalam tahap text preprocessing ini dilakukan

dalam jumlah banyak namun tidak

tokenization. Tokenization merupakan proses

memiliki kaitan dengan tema tertentu.

pengolahan

Contoh stopwords adalah “yang”, “di”,

rangkaian

token teks,

yang

sehingga

terdapat dokumen

dalam akan

‘yang’, dll.

dipecah-pecah menjadi term (Aziz & P.S,

c. Stemming

2015). Text mining dalam prakteknya mencari

Tahap

pola-pola

suatu

mengembalikan kata-kata yang diperoleh

bagian teks dengan yang lain berdasarkan

dari hasil Filtering ke bentuk dasarnya,

aturan-aturan tertentu, kata-kata yang dapat

menghilangkan imbuhan awal (prefix)

mewakili sehingga dapat

dan imbuhan akhir (sufix) sehingga

tertentu,

mengasosiasikan

dilakukan analisa

keterhubungan antar satu dengan yang lain (Wisnu & Hetami, 2015). Berikut tahapantahapan proses didalam text mining:

stemming

didapat kata dasar.

adala

tahap

Nilai

Tf

sebuah

term

dihitung

berdasarkan kemunculan term tersebut dalam dokumen. b. Logarithmic Tf Dalam memperoleh nilai Tf, cara ini menggunakan fungsi logaritmik dalam matematika.

Gambar 2. 1 Text Preprocessing

TF = 1+log (TF)

2.3 Pembobotan Kata (Term Weighting) Pembobotan kata sangat berpengaruh

c. Binnary Tf

dalam menentukan keiripan antara dukumen

Cara ini menghasilkan nilai Boolean

dengan query. Apabila bobot tiap kata dapat

berdasarkan kemunculan term pada

ditentukan dengan tepat, diharapkan haisl

dokumen tersebut. Akan bernilai 0

perhitungan kemiripan teks akan menghasilkan

apabila term tidak ada pada sebuah

perangkingan Keberhasilan

dokumen dari

model

yang

baik.

dokumen, dan bernilai 1 apabila term

ruang

vector

tersebut ada dalam dokumen. Sehingga

ditentukan oleh skema pembobotan terhadap

banyaknya

suatu term baik untuk cakupan local maupun

dokumen tidak berpengaruh.

global, dan faktor normalisasi (Lestari, 2013).

kemunculan

term

pada

d. Augmented Tf

Pembobotan local hanya berpedoman pada TF = 0.5 + 0.5 x TFmax (TF)

frekuensi munculnya term dalam satu dokumen dan tidak melihat kemunculan term tersebut di

Nilai TF adalah jumlah kemunculan term

dalam

yang

pada sebuah dokumen. Nilai max(Tf)

memegang peranan penting dalam pembobotan

adalah jumlah kemunculan terbanyak

kata yaitu :

term pada dokumen yang sama.

dokumen

lainnya.

Faktor

Perhitungan Tf yang akan digunakan 1. Term Frequency (tf)

dalam implementasi sistem temu kembali

Pendekatan dalam pembobotan local yang paling banyak diterapkan adalah term frequency (tf).

Factor

ini

menyatakan

banyaknya

informasi pada sistem yang penulis bangun adalah Raw Tf. 2. Inverse Dokumen Frequency (IDF)

kemunculan suatu kata dalam suatu dokumen.

Metode TF-IDF (Term Frequency Inverse

Semakin sering suatu kata muncul dalam

Document Frequency) merupakan suatu cara

sebuah dokumen, berarti semakin penting kata

untuk memberikan bobot hubungan suatu kata

tersebut. Ada empat cara yang bisa digunakan

(term)

untuk mendapatkan nilai TF:

menggabungkan dua konsep untuk perhitungan

a. Raw Tf

terhadap

dokumen.

Metode

ini

bobot yaitu, frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse

frekuensi dokumen yang menggandung kata

sering digunakan untuk membandingkan dokumen

tersebut (Purung, Lumenta, & Jacobus, 2016).

dalam text mining (Zhiqiang, 2009). Rumus Cosine

Formula yang digunakan pada term frequency

similarity adalah sebagai berikut:

(tf),

terdapat

yaitu

nilai

tf

diberikan

berdasarkan jumlah kemunculan suatu kata di dokumen. Idf dihitung dengan formula sebagai berikut :

𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑞, 𝑑1) = cos 𝜃 =

𝑥.𝑦 ||x|| ||𝑦||

Dimana : x.y : vector dot product dari x dan y, dihitung dengan

𝐃 𝑰𝑫𝑭 = 𝐋𝐨𝐠 𝐃𝐟

∑𝑛𝑘=1 𝑥𝑘 𝑦𝑘 ||x|| : panjang vektor x, dihitung dengan ∑𝑛𝑘=1 𝑥𝑘2 ||y|| : panjang vektor y, dihitung dengan ∑𝑛𝑘=1 𝑦𝑘2

Dimana : IDF = Invers dokumen frekuensi D

Pang-Ning

= Total Dokumen

Tan

menjelaskan

bahwa

semakin besar hasil fungsi similarity, maka kedua

Df = Frequensi dokumen dari term Log = Untuk memperkecil pengaruhnya

objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi

relative terhadap tf

similarity, maka kedua objek tersebut dianggap

Bobot term dihitung dengan menggunakan rumus :

semakin berbeda. Pada fungsi yang menghasilkan nilai pada jangkauan [0...1], nilai 1 melambangkan kedua objek persis sama, sedangkan nilai 0

W = tf x idf

melambangkan kedua objek sama sekali berbeda (Tan P.N, 2006).

Dimana : W = Bobot dokumen

2.5 Jaccard Similarity

Tf = Term frekuensi Idf = Invers dokumen frekuensi

Jaccard Coeficient adalah salah satu metode yang dipakai untuk menghitung similarity

2.4 Cosine Similarity

antara dua objects (items). Seperti halnya cosine

Secara umum, fungsi similarity adalah

distance, secara umum perhitungan metode ini

fungsi yang menerima dua buah objek dan

didasarkan pada vector space similarity measure (S.

mengembalikan nilai kemiripan (similarity) antara

S. Purwandari, 2012). Jaccard Similarity adalah

kedua

riil.

indeks yang menunjukkan tingkat kesamaan antara

Umumnya, nilai yang dihasilkan oleh fungsi

suatu himpunan (set) data dengan himpunan (set)

similarity berkisar pada interval [0...1]. Namun ada

data

juga beberapa fungsi similarity yang menghasilkan

menggunakan rumus sebagai berikut:

objek

tersebut

berupa

bilangan

yang

lain.

Jaccard

Similarity

nilai yang berada di luar interval tersebut. Untuk memetakan hasil fungsi tersebut pada interval [0...1] dapat dilakukan normalisasi (Triana et al., 2014). Cosine

similarity

adalah

perhitungan

kesamaan antara dua vektor n dimensi dengan mencari kosinus dari sudut diantara keduanya dan

𝐽𝑎𝑐𝑐𝑎𝑟𝑑 (𝐴, 𝐵) =

|𝐴 ∩ 𝐵| |𝐴 ∪ 𝐵|

dihitung

Dimana :

Analisa Masalah

A : himpunan token dari dokumen 1

Analisa masalah merupakan tahap awal

B : himpunan token dari dokumen 2

penelitian. Analisa dilakukan terhadap proses pengecekan dokumen skripsi yang ada di STT-

III.

METODE PENELITIAN

PLN, apakah ditemukannya kemiripan antar

3.1 Diagram Alir Tahapan Penelitian Tahapan – tahapan penelitian yang digunakan dalam pembuatan Sistem Pendeteksi Kemiripan Dokumen Skripsi dapat dilihat pada

dokumen skripsi. Selain itu juga dilakukan pemilihan metode yang akan digunakan dalam menyelesaikan masalah. Pengumpulan Data Pengumpulan

gambar dibawah ini :

data

adalah

mengumpulkan bahan-bahan yang diperlukan dalam penyusunan tugas akhir ini, penulis

Mulai

menggunakan metode observasi, wawancara Analisa Masalah

dan studi literatur. Observasi

a. Observasi

Wawancara

Pengumpulan Data

Observasi

Studi Literatur

mengamati

Analisa Sistem Berjalan

dilakukan

langsung

dengan

proses

cara

pengecekan

Analisa Sistem

Analisa Sistem Usulan

dokumen skripsi pada STT PLN. b.

Perancangan Sistem Perancangan UML Perancangan Basis Data

Pengujian

Perancangan Antarmuka

Pengkodean Tidak

Wawancara Pada

pembuatan

aplikasi

ini,

pengumpulan data dilakukan melalui butir-butir pertanyaan saat wawancara secara mendalam dengan sekertaris jurusan Teknik Informatika

Sesuai

STT PLN. Ya

c.

Dokumentasi & Pembuatan Laporan

Studi Literatur Penulis

mengumpulkan

teori

dan

literatur yang berkaitan dengan pemrograman Selesai

berbasis website dan python, metode Cosine Gambar 3. 1 Diagram Alir Tahapan Penelitian

Similarity dan Jaccard Similarity sebagai referensi untuk menyelesaikan permasalahan.

Gambar 3.1 menjelaskan tahapan– tahapan penelitian dalam pembuatan Sistem

Analisa Sistem

Skripsi.

Penulis melakukan identifikasi proses

Keseluruhan tahapan penelitian diatas akan

sistem berjalan dan sistem kebutuhan, dimana

dijelaskan tahap demi tahap sebagai berikut:

hasil dari analisa digunakan untuk membuat

Pendeteksi

Kemiripan

Dokumen

skema alur proses sistem aplikasi website. Penulis juga melakukan identifikasi informasi

yang dibutuhkan untuk membangun sistem

dilakukan

yang diusulkan. Informasi yang didapat akan

penulisan laporan tugas akhir.

digunakan untuk membangun sistem yang akan

3.2 Perancangan Sistem

diusulkan dengan mengikuti skema alur proses

dan

kemudian

disusun

pada

Perancangan penelitian pada sub bahasan ini

sistem yang telah dianalisa.

terdiri dari beberapa sub bahasan, yakni sub

Perancangan Sistem

perancangan unified modeling language, basis data, dan antar muka.

a. Perancangan UML Merepresentasikan gambaran umum dan proses perhitungan dari sistem yang dibuat

Perancangan awal dibuat ke dalam bentuk diagram use case untuk menjelaskan gambaran

dengan menggunakan UML Diagram. b.

Use Case Diagram

sistem dan aktor yang terlibat secara keseluruhan.

Perancangan Basis Data

Komponen use case terdiri dari : Actor, Use Case

Proses perancangan basis data ini

dan Relation. Aktor adalah user yang berhubungan

adalah merancang kebutuhan tabel yang akan

dengan sistem, yakni mahasiswa yang ingin

digunakan untuk penyimpanan data.

mendeteksi kemiripan proposal skripsi dengan

c.

database skripsi yang ada pada STT-PLN dan admin

Perancangan Antarmuka Merancang

antar

muka

yang

merupakan desain tampilan interaktif antara

yang

jurusan

teknik

Use Case Diagram Sistem Pendeteksi Tingkat Kemiripan Dokumen Skripsi Mahasiswa Teknik

Pengkodean Perancangan

sekretaris

informatika STT PLN.

user dengan sistem. d.

merupakan

diimplementasikan

Informatika STT PLN dapat dilihat pada gambar 3.4 dibawah ini:

dengan menggunakan bahasa pemrograman Perl Hypertext Processor (PHP) dan Hypertext

Sistem Pendeteksi Kemiripan Dokumen Skripsi

Markup Language (HTML) sebagai aplikasi

Kelola Data Skripsi

berbasis web dan Python sebagai preprocessing

<<extend>>

<<extend>>

teks.

Tambah Data Skripsi

Pengujian

<<extend>>

Ubah Data Skripsi

Hapus Data Skripsi

Pengujian 2 Dokumen

Tahap selanjutnya adalah melakukan User

pengujian terhadap program yang telah dibuat. Apabila pengujian gagal maka diperlukan adanya

penelusuran

kembali

Pengujian dengan Database

Cetak Laporan hasil pengujian

setiap

perancangan yang telah dilakukan untuk menemukan penyebab kegagalan sampai tidak ditemukan error dalam aplikasi ini. Pembahasan Dokumentasi dan Pembuatan Laporan Tahapan ini merupakan tahapan akhir yaitu pembahasan dari hasil analisa yang telah

Gambar 3. 2 Diagram Use Case

Admin

menu dashboard, master data skripsi, proses pengujian dokumen dan monitoring riwayat pengujian. Sedangkan apabila diakses oleh user maka

hanya

akan

menampilkan

menu

dashboard dan pengujian dokumen. 2. Tampilan Master Data – Data Skripsi Gambar Class Diagram

IV. HASIL DAN PEMBAHASAN 4.1

Hasil Rancangan Aplikasi Aplikasi Pendeteksi Kemiripan Dokumen

Skripsi Mahasiswa Teknik Informatika STTPLN dapat digunakan oleh dua user yaitu

Gambar 4. 2 Tampilan Master Data Skripsi

masyarakat sebagai user biasa dan sekertaris jurusan sabagai admin . Setiap user memiliki hak

akses

tersendiri

terhadap

aplikasi.

Gambar 4.2 merupakan halaman master data skripsi. Halaman ini merupakan halaman

Penerapan metode Cosine Similarity dan

yang

Jaccard Similarity bertujuan untuk mencari

mahasiswa STT PLN. Admin dapat mengelola

tingkat kemiripan antara kedua metode tersebut

data skripsi seperti menambah, mengubah, atau

dan membandingkan metode manakah yang

menghapus.

menampilkan

tepat dan akurat dalam melakukan pengujian

daftar

3. Tampilan

kemiripan dokumen. Berikut adalah gambaran

data

Master

skripsi

Data



Tambah Data Skripsi

dan rincian kegunaan aplikasi: 1. Tampilan Dashboard

Gambar 4. 3 Tampilan Tambah Data Skripsi Gambar 4. 1 Tampilan Dashboard Gambar 4.3 merupakan halaman tambah Gambar

4.1

merupakan

halaman

dashboard user. Apabila halaman ini diakses oleh admin maka memiliki empat menu, yaitu

data skripsi. Halaman ini merupakan halaman

untuk menambah data skripsi yang selanjutnya data tersimpan ke dalam database skripsi. 4. Tampilan Master Data – Edit Data Skripsi

Gambar 4. 6 Tampilan Pembacaan Gambar 4. 4 Tampilan Edit Data Skripsi

Gambar 4.4 merupakan halaman edit data

Konten Bab I

Gambar

4.6

merupakan

halaman

skripsi. Halaman ini merupakan halaman untuk

pembacaan konten bab 1. Halaman ini

mengubah

setelah

merupakan halaman untuk mengambil konten

mengubah, maka data di database akan

dari dokumen yang dimasukkan. Konten yang

otomatis memperbaharui data.

ditampilkan dan diproses adalah konten bab 1

data

skripsi.

Dimana

dokumen skripsi tersebut. Langkah selanjutnya 5. Tampilan Pengujian 2 Dokumen

yaitu proses casefolding (proses pengubahan konten menjadi huruf kecil) sebelum dilakukan preprocessing teks. 7. Tampilan Preprocessing Teks

Gambar 4. 5 Tampilan Awal Pengujian 2 Dokumen

Gambar 4.5 merupakan halaman pengujian 2 dokumen. Halaman ini merupakan halaman awal menu pengujian 2 dokumen. Dimana user dapat memasukkan 2 dokumen yang ingin diuji tingkat kemiripannya yang selanjutnya akan diproses oleh sistem. 6. Tampilan Pembacaan Konten Bab 1

Gambar 4. 7 Tampilan Preprocessing Teks

Gambar 4.7 merupakan halaman teks preprocessing. Halaman ini menampilkan tabel

Gambar 4. 9 Tampilan Hasil Uji dengan Database

perbandingan penghitungan kemiripan antara metode cosine similarity dan jaccard similarity.

Gambar 4.9 merupakan halaman hasil uji

Terdapat 2 tombol di dalam halaman tersebut,

dengan database. Halaman ini menampilkan

tombol cosine dan tombol jaccard dimana

tabel perbandingan penghitungan kemiripan

tombol tersebut jika ditekan menampilkan hasil

antara metode cosine similarity dan jaccard

perhitungan secara detail mengenai metode

similarity. Terdapat 2 tombol di dalam halaman

yang digunakan.

tersebut, tombol cosine dan tombol jaccard dimana

tombol

tersebut

jika

ditekan

menampilkan hasil perhitungan mendetail 8. Tampilan

Hasil

Uji

dan

mengenai metode yang digunakan.

Perbandingan Metode 10. Tampilan Detail Perhitungan Cosine Similarity

Gambar 4. 8 Tampilan Hasil Uji dan Perbandingan Metode Gambar Gambar 4.8 merupakan halaman hasil uji dan

perbandingan

metode.

Halaman

4.

10

Tampilan

Detail

Perhitungan Cosine Similarity

ini

menampilkan tabel perbandingan penghitungan

Gambar 4.10 merupakan halaman detail

kemiripan antara metode cosine similarity dan

perhitungan cosine similarity. Halaman ini

jaccard similarity. Terdapat 2 tombol di dalam

menampilkan tabel perhitungan mendetail

halaman tersebut, tombol cosine dan tombol

metode cosine similarity. Dimana hasil yang

jaccard dimana tombol tersebut jika ditekan

didapat adalah presentase kemiripan dokumen.

menampilkan hasil perhitungan mendetail mengenai metode yang digunakan.

9. Tampilan Hasil Uji dengan Database

11. Tampilan Detail Perhitungan Jaccard Similarity

Pada

ilustrasi

diatas

terdapat

5

dokumen yang akan diuji, jika menggunakan rumus kombinasi sebagai berikut: 𝐶(5,2) =

𝑛! 5! 5𝑥4 = = 𝑟! (𝑛 − 𝑟)! 2! (5 − 2)! 2 = 10 𝑘𝑎𝑙𝑖 𝑝𝑒𝑛𝑔𝑢𝑗𝑖𝑎𝑛

Sehingga pada pengujian ini dengan 25 dokumen

menggunakan

rumus

kombinasi

sebagai berikut: 𝐶(25,2) =

𝑛! 25! 25𝑥24 = = 𝑟! (𝑛 − 𝑟)! 2! (25 − 2)! 2 = 300 𝑘𝑎𝑙𝑖 𝑝𝑒𝑛𝑔𝑢𝑗𝑖𝑎𝑛

Gambar

4.

11

Tampilan

Dari

Detail

300

kali

pengujian

yang

dilakukan, selanjutnya dilakukan proses akurasi

Perhitungan Jaccard Similarity

algoritma. Tingkat akurasi diperoleh dari rataGambar 4.11 merupakan halaman detail

rata pengujian metode cosine similarity dan

perhitungan jaccard similarity. Halaman ini

jaccard similarity. Maka didapatkan hasil

menampilkan tabel perhitungan mendetail

persentasi dan hasil rata-rata dari pengujian

metode jaccard similarity. Dimana hasil yang

tersebut yaitu:

didapat adalah presentase kemiripan dokumen. Tabel 4. 1 Hasil Pengujian Dokumen 1 4.2 Hasil Pengujian Dari

hasil

uji

coba

penghitungan

probabilitas atau kemunculan dan menghitung kemiripan dokumen teks dari algoritma cosine similarity dan jaccard similarity dari sample data

skripsi

yaitu

25 dokumen

dengan

Uji

Nama Dokumen

ke-

Nama Dokumen

Hasil

Hasil

Waktu

Waktu

Memori

Memori

Uji

Pembanding

Cosine

Jaccard

Cosine

Jaccard

Cosine

Jaccard

1

Dokumen 1

Dokumen 2

49.385%

11.927%

0.00164 detik

0.00046 detik

846448kb

695040kb

2

Dokumen 1

Dokumen 3

46.085%

12.336%

0.00203 detik

0.00047 detik

891728kb

740832kb

3

Dokumen 1

Dokumen 4

58.61%

15.225%

0.00141 detik

0.00039 detik

857904kb

706496kb

4

Dokumen 1

Dokumen 5

46.536%

10.123%

0.00138 detik

0.00034 detik

857888kb

706384kb

5

Dokumen 1

Dokumen 6

54.969%

13.667%

0.00108 detik

0.00031 detik

858096kb

706688kb

6

Dokumen 1

Dokumen 7

58.856%

17.162%

0.00183 detik

0.00079 detik

846896kb

695552kb

7

Dokumen 1

Dokumen 8

53.321%

16.332%

0.00247 detik

0.00062 detik

912248kb

760968kb

8

Dokumen 1

Dokumen 9

55.837%

16.25%

0.00112 detik

0.00033 detik

857912kb

706568kb

23.529%

0.00145 detik

0.00058 detik

870016kb

721232kb

9

Dokumen 1

Dokumen 10

64.403%

pengujian dilakukan dengan menggunakan rumus kombinasi. Berikut adalah ilustrasi

Pada Tabel 4.1 merupakan tabel hasil

pengujian menggunakan rumus kombinasi :

pengujian menggunakan rumus kombinasi sehingga dapat mendeteksi kemiripan semua Dokumen 1

Dokumen 2

Dokumen 3

Dokumen 4

Dokumen 5

dokumen tanpa adanya data yang terlewat. Dari hasil setiap uji coba pada 25 dokumen yang

Gambar 4. 13 Ilustrasi Pengujian Dokumen

berbeda maka di dapat hasil perbandingan dari

dengan Kombinasi

setiap

metode

yang

di

gunakan,

untuk

mendapatkan hasil perbandingan yang di

lakukan maka pada setiap metode harus di

mengambil

skripsi

mahasiswa

dapatkan hasil rata-rata terlebih dahulu. Hasil

informatika STT-PLN pada sekertaris jurusan.

perbandingan dari setiap metode terdapat pada

Data-data yang telah dikumpulkan kemudian

Tabel 4.2

diolah

menggunakan

Teknik

preprocessing

teks.

Preprocessing teks merupakan tahap proses Tabel 4. 2 Akurasi Pengujian Hasil

Total

Hasil

Hasil

Waktu

Waktu

Memori

awal Memori

Cosine

Jaccard

Cosine

Jaccard

Cosine

Jaccard

15535,59%

4729,43%

0,03856

0,01828

250943000

210290856

51,785%

15,765%

0,00012855

0,00000609

836476,67 kb

700969,52 kb

detik

detik

Pengujian Rata-rata

terhadap

dokumen

skripsi

untuk

mempersiapkan dokumen menjadi dokumen yang akan diolah lebih lanjut. Tahapan teks preprocessing

yang

dilakukan

adalah

Dari pengujian yang dilakukan diatas, dapat

tokenizing, filtering, stemming. Setelah tahap

dilihat bahwa rata-rata hasil pengujian untuk

preprocessing

mendeteksi kemiripan dokumen menggunakan

menghitung jarak kedekatan/kemiripan antar

Cosine Similarity memiliki tingkat akurasi lebih

dokumen

baik yaitu sebesar 51,785% sedangkan Jaccard

similarity dan jaccard similarity. Pada tahap

Similarity sebesar 15,765%.

cosine

selesai

dengan

similarity,

maka

selanjutnya

menggunakan

hasil

cosine

stemming

pada

preprocessing dijadikan sebagai term yang 4.3 Pembahasan

selanjutnya dihitung TF IDF, Wdt dan Wd, serta

Penelitian ini dilakukan berdasarkan hasil

panjang

vektor.

Kemudian

dihitung

observasi dan wawancara yang dilakukan di

menggunakan rumus cosine sehingga didapat

Jurusan Teknik Informatika STT PLN Jakarta.

presentase kemiripan antar dokumen yang diuji.

Wawancara

sekertaris

Sedangkan jaccard similarity, hasil stemming

jurusan Teknik Informatika STT-PLN. Dari

pada preprocessing dijadikan sebagai term

hasil observasi dan wawancara yang dilakukan

setiap dokumen, kemudian dihitung intersect

maka ditemukan suatu masalah yaitu pada

dan union dari dokumen yang diuji. Selanjutnya

dokumen skripsi pada saat sidang sering

dihitung menggunakan rumus jaccard sehingga

ditemukan kemiripan bahkan diduga plagiat.

didapat presentase kemiripan antar dokumen

Untuk

kemiripan

yang diuji. Kemudian hasil dari kedua metode

dokumen skripsi tersebut penulis mempunyai

tersebut dibandingkan dan penulis mendapat

suatu sistem pendeteksi kemiripan dokumen

hasil metode manakah yang paling tepat dan

skripsi mahasiswa Teknik Informatika STT

akurat digunakan dalam proses pendeteksian

PLN dengan menerapkan dan membandingkan

kemiripan dokumen tersebut.

dilakukan

meminimalisir

kepada

adanya

dua metode, yaitu metode Cosine Similarity dan Jaccard Similarity. Hal pertama yang dilakukan adalah

Penulis telah melakukan proses pengujian sebanyak 300 kali pengujian, dan mendapatkan hasil

perbandingan

dari

kedua

metode.

menyiapkan data skripsi yang digunakan untuk

Berdasarkan hasil pengujian yang sudah

pengujian. Pengumpulan data dilakukan dengan

dilakukan, penulis mendapatkan hasil akurasi

bahwa

cosine

similarity

memiliki

nilai

1.

Sistem pendeteksi kemiripan dokumen

kemiripan sebesar 51,785% lebih baik dari

adalah aplikasi berbasis web dimana

jaccard similarity yang mempunyai nilai

bahasa pemrograman yang digunakan

kemiripan sebesar 15,765%. Dilihat juga dari

adalah PHP.

parameter waktu dimana rata-rata waktu

2.

Antarmuka

dalam

sistem

pendeteksi

pemrosesan pada cosine similarity sebesar

kemiripan dokumen skripsi yang interaktif

0,00012855 detik lebih lambat dibandingkan

dan user friendly terdapat menu admin dan

jaccard similarity sebesar 0,00000609 detik

user. Pada admin, dapat mengakses menu

untuk sekali pengujian. Dilihat juga dari

halaman awal, menu pengecekan dokumen

parameter memori, memori yang digunakan

skripsi, kelola data skripsi dan monitoring

pada jaccard similarity lebih kecil sebesar

hasil pengujian dokumen. Sedangkan pada

700969,52 kb dibandingkan dengan cosine

user hanya menampilkan halaman awal

similarity sebesar 836476,67 kb. Sehingga dari

dan proses pengecekan dokumen skripsi.

ketiga parameter tersebut, dapat diambil

3.

Basis data dalam sistem pendeteksi

kesimpulan bahwa cosine similarity walaupun

kemiripan dokumen skripsi berupa satu

memiliki similarity lebih besar namun waktu

database dengan tiga tabel, yaitu tabel user

akses dan memori yang digunakan lebih besar

yang digunakan dalam login admin, tabel

dibandingkan dengan jaccard similarity. Hal ini

skripsi untuk mengelola data skripsi yang

dikarenakan langkah algoritma yang dilakukan

ada pada STT PLN, dan tabel riwayat uji

lebih panjang dibandingkan jaccard similarity

yang menampung histori pengecekan

yang ada melalui 3 tahapan, yaitu hitung

dokumen skripsi yang dilakukan oleh user.

intersect, union, dan pembagian antara intersect

4.

Penerapan cosine similarity dimulai dari

dan union kata tersebut. Metode cosine

preprocessing teks, didapatkan term yang

similarity menormalisasi panjang vektor data

selanjutnya dihitung TF IDF, Wdt dan Wd,

dengan membandingkan term yang sejajar satu

serta panjang vektor. Kemudian dihitung

sama lain dari 2 pembanding. Sedangkan pada

menggunakan rumus cosine sehingga

metode

didapat

jaccard

similarity

hanya

presentase

kemiripan

antar

membandingkan isi term dengan eksak dan

dokumen yang diuji. Sedangkan penerapan

hanya melihat apakah ada suatu term tertentu

jaccard

pada

preprocessing text, didapatkan term setiap

pembanding

tanpa

melihat

posisi

penulisan yang berbeda.

similarity

dimulai

dari

dokumen, hitung intersect dan union dari dokumen yang diuji. Kemudian dihitung

IV. PENUTUP

menggunakan rumus jaccard sehingga 5.1 Kesimpulan

didapat

Berdasarkan hasil penelitian dan pembahasan

dokumen yang diuji

yang telah dilakukan dapat diambil beberapa kesimpulan, antara lain:

5.

presentase

kemiripan

antar

Berdasarkan 300 kali pengujian dengan 25 dokumen uji pada sistem pendeteksi

kemiripan dokumen skripsi di dapat

1.

Aplikasi pendeteksi kemiripan dokumen

metode cosine dengan nilai akurasi lebih

skripsi diharapkan dapat dikembangkan

baik yaitu 51,785% dari metode jaccard

dengan menggunakan metode maupun

sebesar

algoritma lain yang memiliki tingkat

15,765%.

Dilihat

juga

dari

parameter waktu dimana rata-rata waktu pemrosesan pada cosine similarity sebesar 0,00012855

detik

lebih

akurasi yang lebih tinggi. 2.

lambat

judul skripsi dan isi dokumen skripsi pada

dibandingkan jaccard similarity sebesar 0,00000609 detik untuk sekali pengujian.

Pada aplikasi dapat ditambahkan melihat

database 3.

Pada aplikasi dapat menampilkan dari

Dilihat juga dari parameter memori,

skripsi yang sangat mirip hingga tidak

memori yang digunakan pada jaccard

mirip

similarity lebih kecil sebesar 700969,52 kb

4.

Bahasa yang digunakan juga tidak hanya

dibandingkan dengan cosine similarity

bahasa

sebesar 836476,67 kb. Sehingga dari

menggunakan bahasa asing seperti bahasa

ketiga parameter tersebut, dapat diambil

Inggris dan bahasa asing lainnya.

kesimpulan

bahwa

cosine

Indonesia

tetapi

dapat

similarity

walaupun memiliki similarity lebih besar

DAFTAR PUSTAKA

namun waktu akses dan memori yang digunakan dengan

lebih

jaccard

dikarenakan

besar

dibandingkan

similarity.

langkah

Hal

algoritma

ini yang

dilakukan lebih panjang dibandingkan jaccard

similarity.

Metode

cosine

similarity menormalisasi panjang vektor data dengan membandingkan term yang sejajar satu sama lain dari 2 pembanding. Sedangkan pada metode jaccard similarity hanya membandingkan isi term dengan eksak dan hanya melihat apakah ada suatu term tertentu pada pembanding tanpa melihat posisi penulisan yang berbeda.

Dunia Komputer, Jakarta. Ajie, H., & Bangsa, A. S. (2017). Aplikasi pendeteksi dugaan awal plagiarisme pada tugas siswa dan mahasiswa berdasarkan kemiripan isi teks menggunakan Algoritma Levenshtein Distance. Jurnal Pinter, 1(1), 25–33. Asshidiq, A. S., & Sulistyo, M. (2013). Penilaian

Ujian

Bertipe

Essay

Menggunakan Metode Text Similarity. Jurnal Informatika. . Aziz, A. S., & P.S, K. (2015). Implementasi Vector

Space

Pembangkitan

Model

dalam

Frequently

Asked

Questions dan Solusi yang Relevan

5.2 Saran Dari

Aditya, A.L. (2011). Jago PHP & MySQL,

hasil

penelitian

yang

telah

dilaksanakan oleh penulis, terdapat beberapa hal yang ingin disarankan untuk pengembangan aplikasi ini untuk selanjutnya, yaitu :

Keluhan Pelanggan. Scientific Journal Informatics, 2. Booch, G., Jacobson, I., & Rumbaugh, J. (2005).

The

Unified

Modeling

Language

User

Guide

SECOND

Rudyanto, M. A. (2011). Pemroraman Web

EDITION. United States: Addison

Dinamis

Wesley Professional.

MySQL. Yogyakarta: Bumi Aksara.

Chahal, M. (2016). Information Retrieval using Jaccard Similarity Coefficient. International Journal of Computer Trends and Technology, 36(3), 140– 142. Retrieved from http://www.ijcttjournal.org Herlawati, Widodo, Prabowo Pudjo. 2011. "Menggunakan UML". Bandung: Informatika. Hippner, H., & Rentzmann, R. (2006). Text Mining. https://doi.org/10.1007/s00287-0060091-y Imbar, R. V., Ayub, M., Rehatta, A., Jurusan, S., Informasi, S., Jurusan, S., & Informatika, T. (2014). Implementasi Cosine Similarity dan Algoritma Smith-Waterman untuk Mendeteksi Kemiripan Teks. Jurnal Informatika, 31–42. Lestari, K. (2013). Query Expansion pada Sistem

Temu

Kembali

Informasi

dengan Model Ruang Vektor. Naskah Tugas Akhir, 24. Ogie

Nurdiana, Jumadi, D. N. (2016). PERBANDINGAN METODE COSINE SIMILARITY DENGAN METODE JACCARD SIMILARITY PADA APLIKASI PENCARIAN TERJEMAH AL- QUR ’ AN, I(1), 59– 63. Python, S. P., Pythonlabs, B., Foundation, P. S., Foundation, P. S., Python, N., Python, M., & Circus, F. (2000). Konsep dasar python. Python, 1–6. https://doi.org/aa Ramakrishnan, R. dan Gehrke, J. (2003). Sistem Manajemen Database Edisi ke-3. Yogyakarta: Andi dan McGraw-Hill Education. Rossa, A. S. (2011). Rekayasa Perangkat Lunak. Bandung: Modula.

Menggunakan

PHP

dan

S. S. S. Purwandari, Rancang Bangun Search Engine Tafsir Al-Quran Yang Mampu Memproses Teks Bahasa Indonesia Menggunakan Metode Jaccard Similarity, Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang, 2012, pp. 9-27. Sommerville, Ian. (2003). Software Engineering, 6th Edition. Jakarta: Erlangga. Sugiyamto, S., Surarso, B., Sugiharto, A., & A, S. (2016). Analisa Performa Metode Cosine dan Jacard pada Pengujian Kesamaan Dokumen. Jurnal Masyarakat Informatika, 5(10), 1–8. Retrieved from http://jmasiftraining.if.undip.ac.id/index.php/jmasif /article/view/31 Suryatiningsih. (2009). Web Programing. Bandung: Politeknik Telkom Bandung Tala, F. Z. (2003). A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. M.Sc. Thesis, Appendix D, pp, 39–46. https://doi.org/10.22146/teknosains.26 972 Tan, P. N., Steinbach, M., Kumar, V. (2006). Introduction to Data Mining. London: Pearson Education Inc. Thada, V., & Jaglan, V. (2013). Comparison of Jaccard, Dice, Cosine Similarity Coefficient To Find Best Fitness Value for Web Retrieved Documents Using Genetic Algorithm. International Journal of Innovations in Engineering and Technology, 2(4), 202–205. Retrieved from http://www.dknmu.org/uploads/file/68 42.pdf Triana, A., Saptono, R., & Sulistyo, M. E. (2014). Pemanfaatan Metode Vector Space Model Dan Cosine Similarity Pada Fitur Deteksi Hama Dan Penyakit

Tanaman Padi. Jurnal ITSMART, (March 2017), 1–6. https://doi.org/10.20961/its.v3i2.704 Wisnu, D., & Hetami, A. (2015). Perancangan Informtaion

Retreival

(IR)

untuk

Pencarian Ide Pokok Teks Artikel Berbahasa Inggris dengan Pembobotan Vector Space Model. Jurnal Ilmiah Teknologi dan Informasi, Volume 9, Volume 9. Zhiqiang, L., Werimin, S., Zhenhua, Y. (2009). Measuring Semantic Similarity between Words Using Wikipedia. IEEE. 251-255

Related Documents

Resume
May 2020 0
Resume
May 2020 0
Resume
April 2020 0
Resume
April 2020 0
Resume
April 2020 0
Resume
May 2020 0

More Documents from ""

Resume Jurnal.docx
April 2020 0
Dilan 1990.pdf
November 2019 9
Bab I.docx
November 2019 52
Bab Ii.docx
December 2019 61
Pokja Pmkp Mustofa.docx
April 2020 40