Proposal Akmal.pdf

  • Uploaded by: Akmal Fuady
  • 0
  • 0
  • August 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Proposal Akmal.pdf as PDF for free.

More details

  • Words: 3,326
  • Pages: 22
Pencarian Kata pada Al-Quran yang Toleran Terhadap Bunyi, Kesalahan Penulisan dan Kata Bentukan Proposal Tugas Akhir Kelas MK Penulisan Proposal (CCH4A3) 1301178614 Akmal Fuady

Program Studi Sarjana Teknik Informatika Fakultas Informatika Universitas Telkom Bandung 2018

Lembar Persetujuan

Analisis Model Word2Vec Untuk Kesamaan Semantic antar Text Bahasa Indonesia

NIM :1301178132 Louisten Novandi Tomo Manalu Proposal ini diajukan sebagai usulan pembuatan tugas akhir pada Program Studi Sarjana Teknik Informatika Fakultas Informatika Universitas Telkom

Bandung, Menyetujui

Calon Pembimbing 1

Calon Pembimbing 2

Ir. M. Arif Bijaksana, M.Tech, PhD



NIP: 03650029



1

ABSTRAK Pemahaman teks bahasa dalam penerjamahan pada hakikatnya bermaksud untuk mengungkap informasi atau pesan yang terdapat dalam kata tersebut dengan melalui tahapan : menganalisis, mensistensi, dan sekaligus proses mencari padanan. Pencarian informasi sudah menjadi bagian dari kebutuhan manusia pada umumunya, terutama mencari informasi menggunkan bahasa sehari-hari. Salah satu contohnya adalah bahasa indonesia. Manusia terbantu dalam pencarian informasi karena memiliki pengetahuan tentang hubungan satu kata dengan kata lainnya, sedangkan komputer tidak mengetahuinya karena komputer tidak mengetahui sense dari satu kata tersebut. Agar komputer dapat memiliki kecerdasan yang sama dengan manusia, dibutuhkan pencarian nilai kesamaan semantik (semantic similarity) antar kata. Kesamaan semantik adalah salah satu pengukuran yang ada pada text mining untuk mencari nilai kesamaan makna antar kata. Maka daripada itu dalam tugas akhir ini membahas mengenai kesamaan dan keterkaitan semantik antar kata bahasa Indonesia dengan menggunakan model Word2Vec. Model Word2Vec adalah representasi kata dalam bentuk vektor yang dibuat oleh google. Word2vec juga sekumpulan beberapa model yang saling berkaitan yang digunakan untuk menghasilkan word embedding. Dengan inputan berupa corpus wikipedia bahasa Indonesia, corpus berita bahasa indonesia dan skor yang dihasilkan dihitung dari nilai korelasi menggunakan correlation pearson dengan membandingkan skor hasil gold standard dari WordSim-353 dan Simlex-999. Kata Kunci: Semantic Similarity, Word2Vec, Gold Standard.

Daftar Isi ABSTRAK.........................................................................................................................i Daftar Isi...........................................................................................................................ii 1.

2.

3.

PENDAHULUAN.....................................................................................................1 1.1.

Latar Belakang.................................................................................................1

1.2.

Topik dan Batasannya.....................................................................................2

1.3.

Tujuan...............................................................................................................2

1.4.

Rencana Kegiatan............................................................................................2

1.5.

Jadwal Kegiatan...............................................................................................3

KAJIAN PUSTAKA................................................................................................5 2.1.

Semantic Similarity...........................................................................................5

2.2.

Word Embedding...............................................................................................5

2.3.

Word2Vec.........................................................................................................5

2.4.

Korpus Wikipedia Bahasa Indonesia..............................................................6

2.5.

Korpus Berita Bahasa Indonesia.....................................................................6

2.6.

Gold Standard....................................................................................................7

2.7.

Pearson Correlation..........................................................................................7

2.8.

Cosine Similarity...............................................................................................8

2.9.

WordSim-353.....................................................................................................9

PERANCANGAN SISTEM...................................................................................10 3.1.

Alur Sistem.....................................................................................................10

3.2.

Text Preprocessing..........................................................................................11

3.3.

Pembangunan Vektor....................................................................................11

3.4.

Perhitungan Similarity...................................................................................12

3.5.

Perhitungan Pearson Correlation..................................................................13

DAFTAR PUSTAKA.....................................................................................................14 LAMPIRAN...................................................................................................................16

Daftar Gambar Gambar 1. Rancangan Sistem........................................................................................10 Gambar 2. Contoh visualisasi ruang vektor pada Word2Vec terhadap tiga sampel[15].12

Daftar Tabel Tabel 1. Tabel jadwal kegiatan..........................................................................................3 Tabel 2. Contoh Penerapan Semantic Similarity...............................................................5 Tabel 3. Kriteria hubungan korelasi..................................................................................8 Tabel 4. Potongan dataset wordsim-353............................................................................9 Tabel 5. Contoh penggunaan stopwords removal............................................................11 Tabel 6. Contoh perhitungan similarity menggunakan cosine similarity.........................12

1. PENDAHULUAN Pada bab ini akan menjelaskan tentang latar belakang, topik dan batasannya, tujuan, rencana kegiatan, dan jadwal kegiatan yang digunakan.

1.1.

Latar Belakang

Al-Quran merupakan kitab suci bagi 200 juta lebih penduduk muslim di Indonesia [1]. Kitab suci ini ditulis dalam Bahasa Arab. Dan secara statistik memiliki 77845 kata [2]. Hal tersebut membuat pencarian kata pada Al-Quran sulit untuk dilakukan secara manual. Oleh karena itu dengan bantuan komputer dapat membantu melakukan pencarian tersebut. Dengan banyaknnya jumlah penduduk muslim yang ada di Indonesia dapat mengakibatkan kasus spelling error menjadi besar pada sistem pencarian. Hal tersebut dapat terjadi jika berkaca pada kasus web search engine. Dimana tingkat kesalahan penulisan yang terjadi dapat mencapai 10 sampai 20 persen [3]. Angka tersebut cukup besar dari jumlah 200 juta penduduk. Sehingga perlu untuk menangani kasus kesalahan penulisan dengan Tolerant Retrieval. Terdapat beberapa kasus misspelling yang terjadi. Kesalahan secara pengucapan yang mirip, contohnya pada kata ‫ ر َُسول‬, dimana terdapat beberapa variasi query search untuk kata tersebut seperti pada Table 1. Arab

Transliterasi

‫لو ُس َر‬

Rasul

Variasi rasul rosul rosuul rasuul rosuwl rasuwl

Table 1: Variasi Input Untuk Kasus Sama Secara Bunyi Pada Kata Rasul

Kemudian keteledoran user ketika memasukkan query juga menimbulkan masalah misspelling karena kedekatan huruf pada keyboard. Contohnya ketika hendak mencari kata ‫ ر َُسول‬malah memasukkan query “rasuk”. Query tersebut terjadi

karena huruf L dekat dengan huruf K. Dan masih terdapat variasi lainnya seperti pada Table 2. Arab

‫لو ُس َر‬

Transliterasi Keyboard rasuk rasil rqsul Rasul radul tasul fasul

Table 2: Variasi Input Untuk Kasus kedekatan huruf keyboard Pada Kata Rasul

Ketika melakukan pencarian suatu kata terkadang user mencari kata melewati kata bentukannya. Apalagi pada Bahasa Arab yang memiliki cara penulisan yang berbeda dengan Bahasa Indonesia dari segi bentuk tulisan maupun tata bahasa. Misalnya kata ‫ ر َُسول‬pada teks Al-Quran tampil dalam banyak kata bentukan “rasulun”, “rasulan” seperti pada tabel 3. Jika melihat pada contoh tersebut maka kata akan lebih sering dicari dari kata bentukannya oleh orang yang awam terhadapa Bahasa Arab.

Arab

Transliterasi

‫لو ُس َر‬

Rasul

Variasi Bentukan rasulun rasulan rusulihi rasulin

Table 3: Variasi Input Untuk Kasus Kata Bentukan Pada Kata Rasul

Dari masalah-masalah yang telah disebutkan, maka akan dibangun aplikasi pencarian kata Al-Quran yang toleran terhadap bunyi, kesalahan penulisan dan kata bentukan menggunakan suggestion result ketika pencarian tidak ditemukan.

2

1.2.

Topik dan Batasannya

Berdasarkan latar belakang masalah yang telah diuraikan, maka topik dan batasannya yang akan dibahas adalah sebagai berikut : 1. Hanya menggunakan pemadanan aksara Arab-Latin sesuai dengan

pelafalan orang Indonesia. 2. Menangani kata bentukan yang sederhana.

1.3.

Tujuan

Berdasarkan topik dan batasan yang telah diuraikan, maka tujuan yang diharapkan pada penelitian ini adalah : 1. Untuk mempermudah orang yang awam dalam aksara arab dalam

melakukan pencarian kata Al-Quran. 2. Untuk memberikan Query Suggestion.

1.4.

Rencana Kegiatan

Rencana kegiatan adalah penjelasan mengenai rencana langkah-langkah yang akan dilakukan dalam pengerjaan Tugas Akhir yang memuat: 1. Studi Literatur

Studi literatur dilakukan utnuk mencari informasi dan knowledge seputar pengkodean fonetis, algoritma dan metode yang memungkinkan untuk digunakan pada sistem. 2. Pengumpulan Data

Pada tahapan ini dilakukan pengumpulan data kata dalam Al-Quran menggunakan aksara latin dan data kata dalam Al-Quran menggunakan aksara arab. 3. Perancangan Sistem

Perancangan sistem merupakan tahapan

untuk memodelkan

dan

merancang sistem yang akan dibangun dengan tujuan memperoleh hasil yang terbaik. 3

4. Implementasi

Pada tahap ini akan mengimplementasikan metode, model atau algoritma yang sudah di rancang sebelumnya. 5. Pengujian

Pada tahap ini sistem akan diuji dengan beberapa data uji untuk mengetahui performa sistem. 6. Analisis hasil pengujian

Pada tahapan ini dilakukan analisis hasil pengujian setelah tahapan pengujian selesai dilaksanakan. Analisis yang dilakukan adalah apakah hasil dari pengujian sudah baik atau belum.

1.5.

Jadwal Kegiatan

Jadwal pelaksanaan dibuat berdasarkan rencana kegiatan. Bar-chart bisa dibuat per bulan atau per minggu. Contoh bar-chart:

4

2. KAJIAN PUSTAKA 2.1.

Semantic Similarity

Semantic Simalirity merupakan task pada Natural Languange Processing (NLP) untuk mengukur kesamaan / keterkaitan antara pasangan kata secara semantik. Semantic Similarity merupakan suatu konsep yang dapat mengukur kesamaan makna dalam konteks teks pendek. Teks yang dibandingkan dapat berupa kata, kalimat pendek, dan sebuah dokumen [5]. Kesamaan semantik memiliki peran penting dalam beberapa task dari Natural Language Processing dan beberapa bidang terkait seperti text classification, document clustering, text summarization, dan lain sebagainya [6]. Contoh semantic similarity dapat dilihat pada tabal 1. Tabel 1. Contoh Penerapan Semantic Similarity Hubungan

Contoh 1

Contoh 2

Contoh 3

Jepang – sushi

German : bratwurst

Francis : tapas

USA : pizza

Microsoft – Ballmer

Google : Yahoo

IBM : McNealy

Apple : Jobs

Microsoft– windows

Google : android

IBM : Linux

Apple : Iphone

Sarkozy : Francis

Berlusconi : italia

Merkel : German

Koizumi : Japan

2.2.

Word Embedding

Semantic Simalirity merupakan task pada Natural Languange Processing (NLP) untuk mengukur kesamaan / keterkaitan antara pasangan kata secara semantik. Semantic Similarity merupakan suatu konsep yang dapat mengukur kesamaan makna dalam konteks teks pendek. Teks yang dibandingkan dapat berupa kata, kalimat pendek, dan sebuah dokumen [5]. Kesamaan semantik memiliki peran penting dalam beberapa task dari Natural Language Processing dan beberapa bidang terkait seperti text classification, document clustering, text summarization, dan lain sebagainya [6].

2.3.

Word2Vec

Word2Vec diperkenalkan oleh Mikolov dkk (2013), menggunakan teknik yang disebut “skip-gram with negative sampling”. Teknik ini tidak memprediksi kata 5

berdasarkan pada konteks, tapi mencoba untuk memaksimalkan klasifikasi sebuah kata berdasarkan kata lain dalam kalimat yang sama. Lebih tepatnya, kita menggunakan setiap kata (current word) sebagai inputan untuk log-linear classifier dengan lapisan proyeksi yang kontinyu, dan memprediksi kata-kata dalam jarak tertentu sebelum dan setelah kata inputan tersebut (current word). Dari Penelitian Mikolov dkk (2013) ditemukan bahwa peningkatan jarak memperbaiki kualitas vektor kata yang dihasilkan, tetapi juga meningkatkan kompleksitas komputasi. Karena kata-kata yang lebih jauh jaraknya biasanya kurang terkait dengan kata inputan daripada berjarak dekat dengan kata inputan. Berikut gambaran umum tentang cara kerja word2vec : a.

Mengambil kata di dalam koleksi dokumen (corpus) latih, dan sejumlah katakata yang terletak dekat dengan konteks.

b.

Mempresentasikan setiap kata-kata tersebut melalui sebuah vektor (sejumlah daftar kata). Karena teknik word2vec menangkap hubungan semantik dan sintaksis, teknik

ini bisa digunakan untuk pencarian (sinonim, query expansion) serta rekomendasi.

2.4.

Korpus Wikipedia Bahasa Indonesia

Korpus Wikipedia berbahasa Indonesia adalah data yang bersumber dari berbagai tulisan terbitan Wikipedia yang berbahasa Indonesia. Korpus Wikipedia yang digunakan pada tugas akhir ini berasal dari 1159 artikel yang beragam dengan jumlah kata sebesar 504.240 kata. Pemilihan korpus Wikipedia menjadi korpus penelitian tugas akhir ini karena korpus Wikipedia menyediakan berbagai kumpulan artikel berbahasa Indonesia dan pada paper [9] ruang lingkup korpus lebih penting dari pada ukuran korpus dimana menggunakan korpus domain signifikan meningkatkan kinerja untuk task yang diberikan.

2.5.

Korpus Berita Bahasa Indonesia

Korpus berita bahasa Indonesia adalah sebuah dataset yang dikumpulkan dari kumpulan berita bahasa Indonesia. Korpus ini diambil dari 10 situs berita online

6

dengan kategori yang berbeda-beda dari setiap situsnya. Korpus ini dibuat bertujuan untuk memberikan pengetahuan berupa jumlah kata-kata yang besar untuk sistem yang akan dibangun, karena mengingat sistem yang dibangun menggunakan supervised learning.

2.6.

Gold Standard

Gold Standard merupakan suatu nilai / skor yang dihasilkan dari pendapat sekumpulan manusia yang dijadikan acuan dalam proses pengukuran similaritas maupun keterkaitan semantik antara pasangan kata dalam skala tertentu. Gold Standard ditujukan untuk mengetahui seberapa besar korelasi hasil skor yang dikeluarkan sistem terhadap relevansi kata yang diuji [8]. Gold standard yang digunakan untuk kesamaan semantik seperti Simlex999, WordSim353, RG65, YP130,Miller Charles dan AG203. Penelitian tugas akhir menggunakan dataset gold standard WordSim353 dan Simlex-999.

2.7.

Pearson Correlation

Korelasi pearson merupakan evaluasi hasil perhitungan keterkaitan semantik dilakukan dengan menghitung korelasi antara skor akhir dari sistem dan gold standard. Korelasi pearson merupakan salah satu teknik analisis dalam statistik yang digunakan untuk mencari hubungan antar dua variabel yang bersifat kuantitatif. Hubungan antara dua variabel tersebut dapat terjadi karena adanya hubungan sebab akibat atau dapat pula terjadi karena kebetulan saja. Korelasi pearson menghasilkan nilai korelasi antara range -1sampai 1 [10]. Adapun rumus korelasi pearson adalah : r=

n ∑ xy − ( ∑ x ) ( ∑ y ) √❑

Dimana n adalah banyaknya pasangan data x dan y, ∑x adalah total dari jumlah variabel x, ∑y adalah total jumlah variabel y, ∑x2 adalah kuadrat dari total jumlah variabel x, ∑y2 adalah kuadrat dari total jumlah variabel y, dan ∑xy adalah jumlah hasil perkalian variabel x dan variabel y. Berikut kriteria hubungan korelasi dapat dilihat pada Tabel 2 [14].

7

Tabel 2. Kriteria hubungan korelasi r 0 0-0.5 0.5-0.8 0.8-1 1

2.8.

Kriteria Hubungan Tidak ada korelasi korelasi lemah korelasi sedang korelasi kuat/akurat korelasi sempurna

Cosine Similarity

Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek tersebut berupa bilangan riil. Umumnya, nilai yang dihasilkan oleh fungsi similarity berkisar pada interval [0...1]. Namun ada juga beberapa fungsi similarity yang menghasilkan nilai yang berada di luar interval tersebut. Untuk memetakan hasil fungsi tersebut pada interval [0...1] dapat dilakukan normalisasi [11]. Cosine similarity adalah perhitungan kesamaan antara dua vektor n dimensi dengan mencari kosinus dari sudut diantara keduanya dan sering digunakan untuk membandingkan dokumen dalam text mining [8]. Rumus Cosine similarity adalah sebagai berikut: Similarity ( x , y ) =cos ( θ ) =

x.y ( 2) ∥ x ∥∥ y ∥

Dimana : n

x.y

: Vector dot product dari x dan y, dihitung dengan ∑ x k y k (3) k =1

n

||x||

2

: panjang vektor x, dihitung dengan ∑ x k

(4)

k =1 n

||y||

2 : panjang vektor y, dihitung dengan ∑ y k (5) k =1

Pang-Ning Tan [13] menjelaskan bahwa semakin besar hasil fungsi similarity, maka kedua objek yang dievaluasi dianggap semakin mirip. Jika sebaliknya, maka semakin kecil hasil fungsi similarity, maka kedua objek tersebut dianggap 8

semakin berbeda. Pada fungsi yang menghasilkan nilai pada jangkauan [0...1], nilai 1 melambangkan kedua objek persis sama, sedangkan nilai 0 melambangkan kedua objek sama sekali berbeda.

2.9.

WordSim-353

WordSim 353 adalah kumpulan tes untuk mengukur kesamaan kata atau keterkaitan, dikembangkan dan dikelola oleh E. Gabrilovich. Dataset ini terdapat 353 pasangan kata dengan nilai gold standardnya. gold standard ditetapkan oleh 13 sampai 16 orang untuk menjadi nilai tetapan pada dataset wordsim353. Dapat dilihat seperti sebagai berikut : Tabel 3. Potongan dataset wordsim-353 DataSet WordSim-353 Bahasa Inggris Bahasa Indonesia love;sex cinta; seks tiger;cat Harimau; kucing tiger;tiger Harimau; harimau book;paper buku; kertas computer;keyboard komputer; keyboard computer;internet komputer; internet plane;car pesawat; mobil train;car Kereta; mobil telephone;communication telepon; komunikasi television;radio televisi; radio media;radio media; radio drug;abuse obat; penyalahgunaan bread;butter roti; mentega

Gold Standard 0,303472222 07.35 10 07.46 0,334722222 07.58 0,261805556 06.31 07.05 0,303472222 07.42 0,309027778 06.19

9

3. PERANCANGAN SISTEM Perancangan Sistem berisi rancangan dari sistem yang akan dibangun, berupa diagram block proses atau flowchart beserta penjelasannya. Rancangan sistem dapat berisikan rencana kebutuhan data (pengumpulan dan pre-processing data), serta skenario pengujian yang akan dilakukan. Ilustrasi proses pengolahan data dapat ditambahkan dalam bagian ini untuk memperjelas kegiatan yang anda lakukan dalam pengerjaan TA.

3.1.

Alur Sistem

Pada penelitian tugas akhir ini dibangun sistem untuk menghitung nilai kesaman semantik antar kata. Gambaran umum alur sistem dapat dilihat pada gambar 1,

Gambar 1. Rancangan Sistem Gambar 1 memperlihatkan alur sistem yang digunakan untuk menghitung nilai semantic similarity menggunakan metode Word2Vec. Dengan tahapan awal adalah masukan korpus dan gold standard. Korpus yang digunakan adalah korpus Wikipedia bahasa Indonesia, Korpus Berita Bahasa Indonesia beserta dengan gold standard yang digunakan adalah Miller SimLex-999, dan WordSim-353. Data masukan korpus di preprosesing, hasil preprosesing dibangun vektor setiap kata yang ada di korpus, setelah itu dihitung similarity, hasil dari perhitungan

10

similarity dan nilai gold standard dihitung nilai korelasi yang nantinya hasil tersebut didapatkan sebagai nilai evaluasi sistem.

3.2.

Text Preprocessing

Dalam penelitian tugas akhir ini diterapkan text Preprocessing untuk korpus yang akan digunakan dalam analisis Word2Vec, dimana korpus yang diproses akan diambil informasi yang terkandung didalamnya. Preprocessing yang dilakukan pada korpus adalah case folding dan stopwords removal. Case folding adalah suatu proses pemerataan data dengan cara mengubahnya ke dalam lower case. Stopwords removal adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh Stopwords removal

dapat dilihat pada Tabel 2. Tabel 4. Contoh penggunaan stopwords removal Kalimat Manajemen Transaksi Elektronik Pengetahuan Antar Individu Dalam

3.3.

Hasil Stopword Removal Manajemen Transaksi Elektronik Pengetahuan Individu Manajemen Transfer

Pembangunan Vektor

Pada tahap ini pembangunan vektor dilakukan menggunakan model Word2Vec dengan menggunakan nilai kemiripan atau similarity dari Word2Vec sebagai acuan polaritas. Sebelum melakukan pencarian kemiripan menggunakan metode Word2Vec, dibutuhkan training data corpus menjadi model terlebih dahulu. Model yang dimaksud merupakan pemodelan suatu corpus yang akan diubah ke dalam vektor, sehingga nantinya nilai kemiripan atau similarity yang akan digunakan dalam klasifikasi merupakan hasil pemodelan tersebut [15]. Pada penelitian ini tugas akhir ini, data corpus yang dilatih (training) dan dimodelkan ke dalam bentuk vektor adalah korpus wikipedia bahasa Indonesia dan korpus berita bahasa Indonesia. Sebagai contoh, digunakan kata yaitu “small” yang akan dibandingkan dengan kata pembanding yaitu “best” dan “worsrt”. Contoh 11

visualisasi bentuk ruang vektor pada Word2Vec terhadap tiga sampel kata yaitu “small” sebagai kata yang di uji, serta “best” dan “worst” sebagai kata pembanding.

Gambar 2. Contoh visualisasi ruang vektor pada Word2Vec terhadap tiga sampel[15].

3.4.

Perhitungan Similarity

Pada tahap perhitungan similarity ini, masukan yang digunakan adalah pasangan kata yang terdapat pada data set yang sudah memiliki gold standard. Pasangan kata tersebut nantinya akan dibangun menjadi vektor yang berbentuk sehingga sehingga sistem dapat memproses kata tersebut, kemudian dihitung menggunakan cosine similarity. Adapun contoh perhitungan similarity dapat dilihat sebagai berikut : Tabel 5. Contoh perhitungan similarity menggunakan cosine similarity Indek s

Daftar Kata

1 2 3 4 5 6 7 8

Julie Loves me more than Linda Jane Likes

Jumlah Kemunculan Kata A B 1 1 2 1 2 2 1 1 1 1 1 0 0 1 0 1

Berdasakan rumus cosine similarity maka dilakukan perhitungan pada data diatas.

( 1 ×1 ) + ( 2 ×1 ) + ( 2 ×2 ) + ( 1 ×1 ) + ( 1 ×1 ) + ( 1× 0 ) + ( 0 × 1 )+ ( 0× 1 )

√22 +22 +22 +12 +12 +12 +0 2 +0 2 × √12 + 12 +22 + 12 +12 + 02 +12 +12 12

= 0.821584 Jadi untuk tingkat kemiripan teks pada teks diatas adalah 0.821584.

3.5.

Perhitungan Pearson Correlation

Perhitungan korelasi dilakukan untuk mengetahui seberapa besar akurasi nilai yang dihasilkan oleh sistem dengan nilai gold standard. Nilai yang dihasilkan oleh model / metode Word2Vec akan dibandingkan dengan hasil pengolahan dataset orang lain dengan dataset yang sama dengan dataset yang digunakan pada penelitian ini apakah sudah baik atau belum. Alur dari perhitungan dari pearson correlation dari awal adalah masukan dari data hasil perhitungan similarity korpus dan nilai dataset goldstandard, dan nilainya didapatkan menggunakan pearson correlation dengan persamaan (1).

13

DAFTAR PUSTAKA [1]. Eneko Agirre, Mona Diab, Daniel Cer, and Aitor Gonzalez-Agirre. A pilot on semantic textual similarity. In Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, pages 385–393, 2012. [2].

T. Mikolov, “word vec,” Google, 0 July 0 . [Online]. Available: https://code.google.com/archive/p/word2vec/. [Accessed 1 December 2018].

[3]. T. Zech and I. Gurevych. The more the better? Assesing the influence of wikipedia’s growth on semantic relatedness measures, In LREC, 2010. [4]. Wu Hao, Huang Heyan, and Lu Wenpeng. Sentence Similiarity Based on Alignment and Vector with Weight of Information Content. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), pages 1225–1259, 2015. [5].Eneko Agirre, Mona Diab, Daniel Cer, and Aitor Gonzalez-Agirre. A pilot on semantic textual similarity. In Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation, pages 385–393, 2012. [6]. R. Mihalcea, C. Corley, C. Strapparava, et al. Corpus-based and knowledgebased measures of text semantic similarity. In AAAI, volume 6, pages 775– 780, 2006. [7]. J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu, and C.-F. Chen. A new method to measure the semantic similarity of go terms. Bioinformatics, 23(10):1274– 1281, 2007. [8]. S. Lai, K. Liu, S. He, and J. Zhao. How to generate a good word embedding. IEEE Intelligent Systems, 31(6):5–14, 2016. [9]. T. Mikolov, W.-t. Yih, and G. Zweig. Linguistic regularities in continuous space word representations. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 746–751, 2013.

14

[10]. A. Elekes, M. Sch ´ aler, and K. B ¨ ohm. On the various semantics of similarity in word embedding models. ¨ In Proceedings of the 17th ACM/IEEE Joint Conference on Digital Libraries, pages 139–148. IEEE Press, 2017. [11]. Karhendana, A. (2008). Pemanfaatan Document Clustering pada Agregator Berita. Bandung: Program Studi Teknik Informatika ITB. [12]. Zhiqiang, L., Werimin, S., Zhenhua, Y. (2009). Measuring Semantic Similarity between Words Using Wikipedia. IEEE. 251-255 [13]. Tan, P. N., Steinbach, M., Kumar, V. (2006). Introduction to Data Mining. London: Pearson Education Inc [14]. Elektronika, Teknik. “Pengertian Analisis Korelasi Sederhana Rumus Pearson”, (Online),(http://teknikelektronika.com/pengertian-analisis-korelasisederhana-rumus-pearson diakses 20 April 2017). [15]. K. B. A. W. K. W. M. S. M. “KLASIFIKASI OPINI PADA FITUR PRODUK BERBASIS GRAPH OPINION CLASSFICATION FOR PRODUCT FEATURE BASED ON GRAPH,” ISSN : 2355-9365, vol. 4, p. 3152, 2017.

15

LAMPIRAN Data-data pendukung, curriculum vitae(CV) untuk pembimbing dari luar Universitas Telkom, dsb.

16

Related Documents

Proposal
June 2020 38
Proposal
October 2019 60
Proposal
June 2020 41
Proposal
July 2020 34
Proposal
December 2019 58
Proposal
November 2019 62

More Documents from ""

Proposal Akmal.pdf
August 2019 17
Data Set
August 2019 25
Postpartum Hemorrhage
April 2020 21
Kajian Tempatan Geografi
October 2019 43
Latihan Pkn.docx
December 2019 24