Pencarian Kata pada Al-Quran yang Toleran Terhadap Bunyi, Kesalahan Penulisan dan Kata Bentukan Proposal Tugas Akhir Kelas MK Penulisan Proposal (CCH4A3) 1301178614 Akmal Fuady
Program Studi Sarjana Teknik Informatika Fakultas Informatika Universitas Telkom Bandung 2018
Lembar Persetujuan
Analisis Model Word2Vec Untuk Kesamaan Semantic antar Text Bahasa Indonesia
NIM :1301178132 Louisten Novandi Tomo Manalu Proposal ini diajukan sebagai usulan pembuatan tugas akhir pada Program Studi Sarjana Teknik Informatika Fakultas Informatika Universitas Telkom
Bandung, Menyetujui
Calon Pembimbing 1
Calon Pembimbing 2
Ir. M. Arif Bijaksana, M.Tech, PhD
NIP: 03650029
1
ABSTRAK Pemahaman teks bahasa dalam penerjamahan pada hakikatnya bermaksud untuk mengungkap informasi atau pesan yang terdapat dalam kata tersebut dengan melalui tahapan : menganalisis, mensistensi, dan sekaligus proses mencari padanan. Pencarian informasi sudah menjadi bagian dari kebutuhan manusia pada umumunya, terutama mencari informasi menggunkan bahasa sehari-hari. Salah satu contohnya adalah bahasa indonesia. Manusia terbantu dalam pencarian informasi karena memiliki pengetahuan tentang hubungan satu kata dengan kata lainnya, sedangkan komputer tidak mengetahuinya karena komputer tidak mengetahui sense dari satu kata tersebut. Agar komputer dapat memiliki kecerdasan yang sama dengan manusia, dibutuhkan pencarian nilai kesamaan semantik (semantic similarity) antar kata. Kesamaan semantik adalah salah satu pengukuran yang ada pada text mining untuk mencari nilai kesamaan makna antar kata. Maka daripada itu dalam tugas akhir ini membahas mengenai kesamaan dan keterkaitan semantik antar kata bahasa Indonesia dengan menggunakan model Word2Vec. Model Word2Vec adalah representasi kata dalam bentuk vektor yang dibuat oleh google. Word2vec juga sekumpulan beberapa model yang saling berkaitan yang digunakan untuk menghasilkan word embedding. Dengan inputan berupa corpus wikipedia bahasa Indonesia, corpus berita bahasa indonesia dan skor yang dihasilkan dihitung dari nilai korelasi menggunakan correlation pearson dengan membandingkan skor hasil gold standard dari WordSim-353 dan Simlex-999. Kata Kunci: Semantic Similarity, Word2Vec, Gold Standard.
Daftar Isi ABSTRAK.........................................................................................................................i Daftar Isi...........................................................................................................................ii 1.
2.
3.
PENDAHULUAN.....................................................................................................1 1.1.
Latar Belakang.................................................................................................1
1.2.
Topik dan Batasannya.....................................................................................2
1.3.
Tujuan...............................................................................................................2
1.4.
Rencana Kegiatan............................................................................................2
1.5.
Jadwal Kegiatan...............................................................................................3
KAJIAN PUSTAKA................................................................................................5 2.1.
Semantic Similarity...........................................................................................5
2.2.
Word Embedding...............................................................................................5
2.3.
Word2Vec.........................................................................................................5
2.4.
Korpus Wikipedia Bahasa Indonesia..............................................................6
2.5.
Korpus Berita Bahasa Indonesia.....................................................................6
2.6.
Gold Standard....................................................................................................7
2.7.
Pearson Correlation..........................................................................................7
2.8.
Cosine Similarity...............................................................................................8
2.9.
WordSim-353.....................................................................................................9
PERANCANGAN SISTEM...................................................................................10 3.1.
Alur Sistem.....................................................................................................10
3.2.
Text Preprocessing..........................................................................................11
3.3.
Pembangunan Vektor....................................................................................11
3.4.
Perhitungan Similarity...................................................................................12
3.5.
Perhitungan Pearson Correlation..................................................................13
DAFTAR PUSTAKA.....................................................................................................14 LAMPIRAN...................................................................................................................16
Daftar Gambar Gambar 1. Rancangan Sistem........................................................................................10 Gambar 2. Contoh visualisasi ruang vektor pada Word2Vec terhadap tiga sampel[15].12
Daftar Tabel Tabel 1. Tabel jadwal kegiatan..........................................................................................3 Tabel 2. Contoh Penerapan Semantic Similarity...............................................................5 Tabel 3. Kriteria hubungan korelasi..................................................................................8 Tabel 4. Potongan dataset wordsim-353............................................................................9 Tabel 5. Contoh penggunaan stopwords removal............................................................11 Tabel 6. Contoh perhitungan similarity menggunakan cosine similarity.........................12
1. PENDAHULUAN Pada bab ini akan menjelaskan tentang latar belakang, topik dan batasannya, tujuan, rencana kegiatan, dan jadwal kegiatan yang digunakan.
1.1.
Latar Belakang
Al-Quran merupakan kitab suci bagi 200 juta lebih penduduk muslim di Indonesia [1]. Kitab suci ini ditulis dalam Bahasa Arab. Dan secara statistik memiliki 77845 kata [2]. Hal tersebut membuat pencarian kata pada Al-Quran sulit untuk dilakukan secara manual. Oleh karena itu dengan bantuan komputer dapat membantu melakukan pencarian tersebut. Dengan banyaknnya jumlah penduduk muslim yang ada di Indonesia dapat mengakibatkan kasus spelling error menjadi besar pada sistem pencarian. Hal tersebut dapat terjadi jika berkaca pada kasus web search engine. Dimana tingkat kesalahan penulisan yang terjadi dapat mencapai 10 sampai 20 persen [3]. Angka tersebut cukup besar dari jumlah 200 juta penduduk. Sehingga perlu untuk menangani kasus kesalahan penulisan dengan Tolerant Retrieval. Terdapat beberapa kasus misspelling yang terjadi. Kesalahan secara pengucapan yang mirip, contohnya pada kata ر َُسول, dimana terdapat beberapa variasi query search untuk kata tersebut seperti pada Table 1. Arab
Transliterasi
لو ُس َر
Rasul
Variasi rasul rosul rosuul rasuul rosuwl rasuwl
Table 1: Variasi Input Untuk Kasus Sama Secara Bunyi Pada Kata Rasul
Kemudian keteledoran user ketika memasukkan query juga menimbulkan masalah misspelling karena kedekatan huruf pada keyboard. Contohnya ketika hendak mencari kata ر َُسولmalah memasukkan query “rasuk”. Query tersebut terjadi
karena huruf L dekat dengan huruf K. Dan masih terdapat variasi lainnya seperti pada Table 2. Arab
لو ُس َر
Transliterasi Keyboard rasuk rasil rqsul Rasul radul tasul fasul
Table 2: Variasi Input Untuk Kasus kedekatan huruf keyboard Pada Kata Rasul
Ketika melakukan pencarian suatu kata terkadang user mencari kata melewati kata bentukannya. Apalagi pada Bahasa Arab yang memiliki cara penulisan yang berbeda dengan Bahasa Indonesia dari segi bentuk tulisan maupun tata bahasa. Misalnya kata ر َُسولpada teks Al-Quran tampil dalam banyak kata bentukan “rasulun”, “rasulan” seperti pada tabel 3. Jika melihat pada contoh tersebut maka kata akan lebih sering dicari dari kata bentukannya oleh orang yang awam terhadapa Bahasa Arab.
Arab
Transliterasi
لو ُس َر
Rasul
Variasi Bentukan rasulun rasulan rusulihi rasulin
Table 3: Variasi Input Untuk Kasus Kata Bentukan Pada Kata Rasul
Dari masalah-masalah yang telah disebutkan, maka akan dibangun aplikasi pencarian kata Al-Quran yang toleran terhadap bunyi, kesalahan penulisan dan kata bentukan menggunakan suggestion result ketika pencarian tidak ditemukan.
2
1.2.
Topik dan Batasannya
Berdasarkan latar belakang masalah yang telah diuraikan, maka topik dan batasannya yang akan dibahas adalah sebagai berikut : 1. Hanya menggunakan pemadanan aksara Arab-Latin sesuai dengan
pelafalan orang Indonesia. 2. Menangani kata bentukan yang sederhana.
1.3.
Tujuan
Berdasarkan topik dan batasan yang telah diuraikan, maka tujuan yang diharapkan pada penelitian ini adalah : 1. Untuk mempermudah orang yang awam dalam aksara arab dalam
melakukan pencarian kata Al-Quran. 2. Untuk memberikan Query Suggestion.
1.4.
Rencana Kegiatan
Rencana kegiatan adalah penjelasan mengenai rencana langkah-langkah yang akan dilakukan dalam pengerjaan Tugas Akhir yang memuat: 1. Studi Literatur
Studi literatur dilakukan utnuk mencari informasi dan knowledge seputar pengkodean fonetis, algoritma dan metode yang memungkinkan untuk digunakan pada sistem. 2. Pengumpulan Data
Pada tahapan ini dilakukan pengumpulan data kata dalam Al-Quran menggunakan aksara latin dan data kata dalam Al-Quran menggunakan aksara arab. 3. Perancangan Sistem
Perancangan sistem merupakan tahapan
untuk memodelkan
dan
merancang sistem yang akan dibangun dengan tujuan memperoleh hasil yang terbaik. 3
4. Implementasi
Pada tahap ini akan mengimplementasikan metode, model atau algoritma yang sudah di rancang sebelumnya. 5. Pengujian
Pada tahap ini sistem akan diuji dengan beberapa data uji untuk mengetahui performa sistem. 6. Analisis hasil pengujian
Pada tahapan ini dilakukan analisis hasil pengujian setelah tahapan pengujian selesai dilaksanakan. Analisis yang dilakukan adalah apakah hasil dari pengujian sudah baik atau belum.
1.5.
Jadwal Kegiatan
Jadwal pelaksanaan dibuat berdasarkan rencana kegiatan. Bar-chart bisa dibuat per bulan atau per minggu. Contoh bar-chart:
4
2. KAJIAN PUSTAKA 2.1.
Semantic Similarity
Semantic Simalirity merupakan task pada Natural Languange Processing (NLP) untuk mengukur kesamaan / keterkaitan antara pasangan kata secara semantik. Semantic Similarity merupakan suatu konsep yang dapat mengukur kesamaan makna dalam konteks teks pendek. Teks yang dibandingkan dapat berupa kata, kalimat pendek, dan sebuah dokumen [5]. Kesamaan semantik memiliki peran penting dalam beberapa task dari Natural Language Processing dan beberapa bidang terkait seperti text classification, document clustering, text summarization, dan lain sebagainya [6]. Contoh semantic similarity dapat dilihat pada tabal 1. Tabel 1. Contoh Penerapan Semantic Similarity Hubungan
Contoh 1
Contoh 2
Contoh 3
Jepang – sushi
German : bratwurst
Francis : tapas
USA : pizza
Microsoft – Ballmer
Google : Yahoo
IBM : McNealy
Apple : Jobs
Microsoft– windows
Google : android
IBM : Linux
Apple : Iphone
Sarkozy : Francis
Berlusconi : italia
Merkel : German
Koizumi : Japan
2.2.
Word Embedding
Semantic Simalirity merupakan task pada Natural Languange Processing (NLP) untuk mengukur kesamaan / keterkaitan antara pasangan kata secara semantik. Semantic Similarity merupakan suatu konsep yang dapat mengukur kesamaan makna dalam konteks teks pendek. Teks yang dibandingkan dapat berupa kata, kalimat pendek, dan sebuah dokumen [5]. Kesamaan semantik memiliki peran penting dalam beberapa task dari Natural Language Processing dan beberapa bidang terkait seperti text classification, document clustering, text summarization, dan lain sebagainya [6].
2.3.
Word2Vec
Word2Vec diperkenalkan oleh Mikolov dkk (2013), menggunakan teknik yang disebut “skip-gram with negative sampling”. Teknik ini tidak memprediksi kata 5
berdasarkan pada konteks, tapi mencoba untuk memaksimalkan klasifikasi sebuah kata berdasarkan kata lain dalam kalimat yang sama. Lebih tepatnya, kita menggunakan setiap kata (current word) sebagai inputan untuk log-linear classifier dengan lapisan proyeksi yang kontinyu, dan memprediksi kata-kata dalam jarak tertentu sebelum dan setelah kata inputan tersebut (current word). Dari Penelitian Mikolov dkk (2013) ditemukan bahwa peningkatan jarak memperbaiki kualitas vektor kata yang dihasilkan, tetapi juga meningkatkan kompleksitas komputasi. Karena kata-kata yang lebih jauh jaraknya biasanya kurang terkait dengan kata inputan daripada berjarak dekat dengan kata inputan. Berikut gambaran umum tentang cara kerja word2vec : a.
Mengambil kata di dalam koleksi dokumen (corpus) latih, dan sejumlah katakata yang terletak dekat dengan konteks.
b.
Mempresentasikan setiap kata-kata tersebut melalui sebuah vektor (sejumlah daftar kata). Karena teknik word2vec menangkap hubungan semantik dan sintaksis, teknik
ini bisa digunakan untuk pencarian (sinonim, query expansion) serta rekomendasi.
2.4.
Korpus Wikipedia Bahasa Indonesia
Korpus Wikipedia berbahasa Indonesia adalah data yang bersumber dari berbagai tulisan terbitan Wikipedia yang berbahasa Indonesia. Korpus Wikipedia yang digunakan pada tugas akhir ini berasal dari 1159 artikel yang beragam dengan jumlah kata sebesar 504.240 kata. Pemilihan korpus Wikipedia menjadi korpus penelitian tugas akhir ini karena korpus Wikipedia menyediakan berbagai kumpulan artikel berbahasa Indonesia dan pada paper [9] ruang lingkup korpus lebih penting dari pada ukuran korpus dimana menggunakan korpus domain signifikan meningkatkan kinerja untuk task yang diberikan.
2.5.
Korpus Berita Bahasa Indonesia
Korpus berita bahasa Indonesia adalah sebuah dataset yang dikumpulkan dari kumpulan berita bahasa Indonesia. Korpus ini diambil dari 10 situs berita online
6
dengan kategori yang berbeda-beda dari setiap situsnya. Korpus ini dibuat bertujuan untuk memberikan pengetahuan berupa jumlah kata-kata yang besar untuk sistem yang akan dibangun, karena mengingat sistem yang dibangun menggunakan supervised learning.
2.6.
Gold Standard
Gold Standard merupakan suatu nilai / skor yang dihasilkan dari pendapat sekumpulan manusia yang dijadikan acuan dalam proses pengukuran similaritas maupun keterkaitan semantik antara pasangan kata dalam skala tertentu. Gold Standard ditujukan untuk mengetahui seberapa besar korelasi hasil skor yang dikeluarkan sistem terhadap relevansi kata yang diuji [8]. Gold standard yang digunakan untuk kesamaan semantik seperti Simlex999, WordSim353, RG65, YP130,Miller Charles dan AG203. Penelitian tugas akhir menggunakan dataset gold standard WordSim353 dan Simlex-999.
2.7.
Pearson Correlation
Korelasi pearson merupakan evaluasi hasil perhitungan keterkaitan semantik dilakukan dengan menghitung korelasi antara skor akhir dari sistem dan gold standard. Korelasi pearson merupakan salah satu teknik analisis dalam statistik yang digunakan untuk mencari hubungan antar dua variabel yang bersifat kuantitatif. Hubungan antara dua variabel tersebut dapat terjadi karena adanya hubungan sebab akibat atau dapat pula terjadi karena kebetulan saja. Korelasi pearson menghasilkan nilai korelasi antara range -1sampai 1 [10]. Adapun rumus korelasi pearson adalah : r=
n ∑ xy − ( ∑ x ) ( ∑ y ) √❑
Dimana n adalah banyaknya pasangan data x dan y, ∑x adalah total dari jumlah variabel x, ∑y adalah total jumlah variabel y, ∑x2 adalah kuadrat dari total jumlah variabel x, ∑y2 adalah kuadrat dari total jumlah variabel y, dan ∑xy adalah jumlah hasil perkalian variabel x dan variabel y. Berikut kriteria hubungan korelasi dapat dilihat pada Tabel 2 [14].
7
Tabel 2. Kriteria hubungan korelasi r 0 0-0.5 0.5-0.8 0.8-1 1
2.8.
Kriteria Hubungan Tidak ada korelasi korelasi lemah korelasi sedang korelasi kuat/akurat korelasi sempurna
Cosine Similarity
Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek tersebut berupa bilangan riil. Umumnya, nilai yang dihasilkan oleh fungsi similarity berkisar pada interval [0...1]. Namun ada juga beberapa fungsi similarity yang menghasilkan nilai yang berada di luar interval tersebut. Untuk memetakan hasil fungsi tersebut pada interval [0...1] dapat dilakukan normalisasi [11]. Cosine similarity adalah perhitungan kesamaan antara dua vektor n dimensi dengan mencari kosinus dari sudut diantara keduanya dan sering digunakan untuk membandingkan dokumen dalam text mining [8]. Rumus Cosine similarity adalah sebagai berikut: Similarity ( x , y ) =cos ( θ ) =
x.y ( 2) ∥ x ∥∥ y ∥
Dimana : n
x.y
: Vector dot product dari x dan y, dihitung dengan ∑ x k y k (3) k =1
n
||x||
2
: panjang vektor x, dihitung dengan ∑ x k
(4)
k =1 n
||y||
2 : panjang vektor y, dihitung dengan ∑ y k (5) k =1
Pang-Ning Tan [13] menjelaskan bahwa semakin besar hasil fungsi similarity, maka kedua objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi similarity, maka kedua objek tersebut dianggap 8
semakin berbeda. Pada fungsi yang menghasilkan nilai pada jangkauan [0...1], nilai 1 melambangkan kedua objek persis sama, sedangkan nilai 0 melambangkan kedua objek sama sekali berbeda.
2.9.
WordSim-353
WordSim 353 adalah kumpulan tes untuk mengukur kesamaan kata atau keterkaitan, dikembangkan dan dikelola oleh E. Gabrilovich. Dataset ini terdapat 353 pasangan kata dengan nilai gold standardnya. gold standard ditetapkan oleh 13 sampai 16 orang untuk menjadi nilai tetapan pada dataset wordsim353. Dapat dilihat seperti sebagai berikut : Tabel 3. Potongan dataset wordsim-353 DataSet WordSim-353 Bahasa Inggris Bahasa Indonesia love;sex cinta; seks tiger;cat Harimau; kucing tiger;tiger Harimau; harimau book;paper buku; kertas computer;keyboard komputer; keyboard computer;internet komputer; internet plane;car pesawat; mobil train;car Kereta; mobil telephone;communication telepon; komunikasi television;radio televisi; radio media;radio media; radio drug;abuse obat; penyalahgunaan bread;butter roti; mentega
Gold Standard 0,303472222 07.35 10 07.46 0,334722222 07.58 0,261805556 06.31 07.05 0,303472222 07.42 0,309027778 06.19
9
3. PERANCANGAN SISTEM Perancangan Sistem berisi rancangan dari sistem yang akan dibangun, berupa diagram block proses atau flowchart beserta penjelasannya. Rancangan sistem dapat berisikan rencana kebutuhan data (pengumpulan dan pre-processing data), serta skenario pengujian yang akan dilakukan. Ilustrasi proses pengolahan data dapat ditambahkan dalam bagian ini untuk memperjelas kegiatan yang anda lakukan dalam pengerjaan TA.
3.1.
Alur Sistem
Pada penelitian tugas akhir ini dibangun sistem untuk menghitung nilai kesaman semantik antar kata. Gambaran umum alur sistem dapat dilihat pada gambar 1,
Gambar 1. Rancangan Sistem Gambar 1 memperlihatkan alur sistem yang digunakan untuk menghitung nilai semantic similarity menggunakan metode Word2Vec. Dengan tahapan awal adalah masukan korpus dan gold standard. Korpus yang digunakan adalah korpus Wikipedia bahasa Indonesia, Korpus Berita Bahasa Indonesia beserta dengan gold standard yang digunakan adalah Miller SimLex-999, dan WordSim-353. Data masukan korpus di preprosesing, hasil preprosesing dibangun vektor setiap kata yang ada di korpus, setelah itu dihitung similarity, hasil dari perhitungan
10
similarity dan nilai gold standard dihitung nilai korelasi yang nantinya hasil tersebut didapatkan sebagai nilai evaluasi sistem.
3.2.
Text Preprocessing
Dalam penelitian tugas akhir ini diterapkan text Preprocessing untuk korpus yang akan digunakan dalam analisis Word2Vec, dimana korpus yang diproses akan diambil informasi yang terkandung didalamnya. Preprocessing yang dilakukan pada korpus adalah case folding dan stopwords removal. Case folding adalah suatu proses pemerataan data dengan cara mengubahnya ke dalam lower case. Stopwords removal adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh Stopwords removal
dapat dilihat pada Tabel 2. Tabel 4. Contoh penggunaan stopwords removal Kalimat Manajemen Transaksi Elektronik Pengetahuan Antar Individu Dalam
3.3.
Hasil Stopword Removal Manajemen Transaksi Elektronik Pengetahuan Individu Manajemen Transfer
Pembangunan Vektor
Pada tahap ini pembangunan vektor dilakukan menggunakan model Word2Vec dengan menggunakan nilai kemiripan atau similarity dari Word2Vec sebagai acuan polaritas. Sebelum melakukan pencarian kemiripan menggunakan metode Word2Vec, dibutuhkan training data corpus menjadi model terlebih dahulu. Model yang dimaksud merupakan pemodelan suatu corpus yang akan diubah ke dalam vektor, sehingga nantinya nilai kemiripan atau similarity yang akan digunakan dalam klasifikasi merupakan hasil pemodelan tersebut [15]. Pada penelitian ini tugas akhir ini, data corpus yang dilatih (training) dan dimodelkan ke dalam bentuk vektor adalah korpus wikipedia bahasa Indonesia dan korpus berita bahasa Indonesia. Sebagai contoh, digunakan kata yaitu “small” yang akan dibandingkan dengan kata pembanding yaitu “best” dan “worsrt”. Contoh 11
visualisasi bentuk ruang vektor pada Word2Vec terhadap tiga sampel kata yaitu “small” sebagai kata yang di uji, serta “best” dan “worst” sebagai kata pembanding.
Gambar 2. Contoh visualisasi ruang vektor pada Word2Vec terhadap tiga sampel[15].
3.4.
Perhitungan Similarity
Pada tahap perhitungan similarity ini, masukan yang digunakan adalah pasangan kata yang terdapat pada data set yang sudah memiliki gold standard. Pasangan kata tersebut nantinya akan dibangun menjadi vektor yang berbentuk sehingga sehingga sistem dapat memproses kata tersebut, kemudian dihitung menggunakan cosine similarity. Adapun contoh perhitungan similarity dapat dilihat sebagai berikut : Tabel 5. Contoh perhitungan similarity menggunakan cosine similarity Indek s
Daftar Kata
1 2 3 4 5 6 7 8
Julie Loves me more than Linda Jane Likes
Jumlah Kemunculan Kata A B 1 1 2 1 2 2 1 1 1 1 1 0 0 1 0 1
Berdasakan rumus cosine similarity maka dilakukan perhitungan pada data diatas.
( 1 ×1 ) + ( 2 ×1 ) + ( 2 ×2 ) + ( 1 ×1 ) + ( 1 ×1 ) + ( 1× 0 ) + ( 0 × 1 )+ ( 0× 1 )
√22 +22 +22 +12 +12 +12 +0 2 +0 2 × √12 + 12 +22 + 12 +12 + 02 +12 +12 12
= 0.821584 Jadi untuk tingkat kemiripan teks pada teks diatas adalah 0.821584.
3.5.
Perhitungan Pearson Correlation
Perhitungan korelasi dilakukan untuk mengetahui seberapa besar akurasi nilai yang dihasilkan oleh sistem dengan nilai gold standard. Nilai yang dihasilkan oleh model / metode Word2Vec akan dibandingkan dengan hasil pengolahan dataset orang lain dengan dataset yang sama dengan dataset yang digunakan pada penelitian ini apakah sudah baik atau belum. Alur dari perhitungan dari pearson correlation dari awal adalah masukan dari data hasil perhitungan similarity korpus dan nilai dataset goldstandard, dan nilainya didapatkan menggunakan pearson correlation dengan persamaan (1).
13
DAFTAR PUSTAKA [1]. Eneko Agirre, Mona Diab, Daniel Cer, and Aitor Gonzalez-Agirre. A pilot on semantic textual similarity. In Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, pages 385–393, 2012. [2].
T. Mikolov, “word vec,” Google, 0 July 0 . [Online]. Available: https://code.google.com/archive/p/word2vec/. [Accessed 1 December 2018].
[3]. T. Zech and I. Gurevych. The more the better? Assesing the influence of wikipedia’s growth on semantic relatedness measures, In LREC, 2010. [4]. Wu Hao, Huang Heyan, and Lu Wenpeng. Sentence Similiarity Based on Alignment and Vector with Weight of Information Content. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), pages 1225–1259, 2015. [5].Eneko Agirre, Mona Diab, Daniel Cer, and Aitor Gonzalez-Agirre. A pilot on semantic textual similarity. In Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, pages 385–393, 2012. [6]. R. Mihalcea, C. Corley, C. Strapparava, et al. Corpus-based and knowledgebased measures of text semantic similarity. In AAAI, volume 6, pages 775– 780, 2006. [7]. J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu, and C.-F. Chen. A new method to measure the semantic similarity of go terms. Bioinformatics, 23(10):1274– 1281, 2007. [8]. S. Lai, K. Liu, S. He, and J. Zhao. How to generate a good word embedding. IEEE Intelligent Systems, 31(6):5–14, 2016. [9]. T. Mikolov, W.-t. Yih, and G. Zweig. Linguistic regularities in continuous space word representations. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 746–751, 2013.
14
[10]. A. Elekes, M. Sch ´ aler, and K. B ¨ ohm. On the various semantics of similarity in word embedding models. ¨ In Proceedings of the 17th ACM/IEEE Joint Conference on Digital Libraries, pages 139–148. IEEE Press, 2017. [11]. Karhendana, A. (2008). Pemanfaatan Document Clustering pada Agregator Berita. Bandung: Program Studi Teknik Informatika ITB. [12]. Zhiqiang, L., Werimin, S., Zhenhua, Y. (2009). Measuring Semantic Similarity between Words Using Wikipedia. IEEE. 251-255 [13]. Tan, P. N., Steinbach, M., Kumar, V. (2006). Introduction to Data Mining. London: Pearson Education Inc [14]. Elektronika, Teknik. “Pengertian Analisis Korelasi Sederhana Rumus Pearson”, (Online),(http://teknikelektronika.com/pengertian-analisis-korelasisederhana-rumus-pearson diakses 20 April 2017). [15]. K. B. A. W. K. W. M. S. M. “KLASIFIKASI OPINI PADA FITUR PRODUK BERBASIS GRAPH OPINION CLASSFICATION FOR PRODUCT FEATURE BASED ON GRAPH,” ISSN : 2355-9365, vol. 4, p. 3152, 2017.
15
LAMPIRAN Data-data pendukung, curriculum vitae(CV) untuk pembimbing dari luar Universitas Telkom, dsb.
16