Mid-is-data Mining_sapta-nofry-celvin-zumi.docx

  • Uploaded by: Nofry Aldi Saputra
  • 0
  • 0
  • July 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Mid-is-data Mining_sapta-nofry-celvin-zumi.docx as PDF for free.

More details

  • Words: 3,310
  • Pages: 24
1. DESKRIPSI TEORI 1.1. Metode-Metode Data Mining 1.1.1. Mining Frequent Patterns, Association, Correlations Frequent pattern adalah pola yang sering muncul dalam kumpulan data. Misalnya, satu set item seperti susu dan roti yang sering muncul bersamasama dalam satu set data transaksi adalah frequent itemset. Sebuah subsequence, seperti membeli pertama kali sebuah PC, lalu kamera digital, dan kemudian memory card. Jika sequence tersebut sering terjadi dalam history pada database belanja, maka pola tersebut adalah frequent pattern. Menemukan frequent pattern adalah peranan penting dalam mining association, correlation, dan hubungan menarik lainnya antara data. Selain itu, membantu dalam classification data, clustering, dan lainnya. Frequent itemset mining kemungkinan untuk menemukan asosiasi dan korelasi dari banyak item dari banyaknya transaksi. Dengan banyaknya data yang terkumpul, banyak industri yang mulai tertarik pada pola mining tersebut dari database mereka. Penemuan hubungan korelasi yang menarik antara jumlah besar, catatan transaksi bisnis, dapat membantu bisnis seperti dalam proses pengambilan keputusan untuk desain katalog, lintas pemasaran, dan analisis tingkah laku pelanggan. Assosciation rule mining yang biasanya disebut juga market basket analysis adalah teknik mining untuk menemukan aturan asosisatif antara suatu kombinasi item. Contoh aturan asosisatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membelli roti bersamaan dengan susu. Dengan pengetahuan tersebut, pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu presentase kombinasi item tersebut dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan asosisatif.

1.1.2. Classification Menurut Han, Jiawei , classification adalah satu bentuk analisis data yang menghasilkan model untuk mendeskripsikan kelas data yang penting. Classification memprediksi kategori (discrete, unordered) ke dalam label class. Classification merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau class data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa if-then-rules, decision tree, formula matematis atau neural network. Sebagai contoh, kita dapat membangun model klasifikasi untuk mengkategorikan aplikasi pinjaman bank, aman atau berisik. Analisa tersebut dapat membantu memberikan pemahaman yang lebih baik dari data pada umumnya. Classification memiliki berbagai aplikasi yaitu, deteksi penipuan, pemasaran target, prediksi kinerja, manufaktur, dan diagnosa medis. 1.1.2.1. Decision Tree Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Decision tree menggunakan model seperti struktur pohon. Pembangunan decision tree tidak memerlukan pengaturan domain knowledge atau parameter, karena itu cocok untuk eksplorasi penemuan pengetahuan. Decision tree dapat menangani data multidimensi. Perwakilan dari pengetahuan yang diperoleh dalam bentuk pohon memudahkan untuk dipelajari dan dipahami. Decision tree memiliki akurasi yang baik. Namun, keberhasilan penggunaannya tergantung pada data yang ada. Aplikasi klasifikasi decision tree telah digunakan dalam banyak area, seperti kedokteran,

manufaktur

dan

produksi,

analisis

keuangan,

astronomi, dan biologi molekuler. Untuk menetukan proses pembangunan decision tree, diperlukan adanya atribute selection measure, yaitu suatu metode untuk memilih kriteria pemisahan yang terbaik yang memisahkan partisi data yang diberikan, kelaslabel ke dalam class individu.

Atribute selection measure memberikan peringkat untuk setiap atribut. Jika atribut yang terpisah adalah continues-valued atau jika kita dibatasi ke dalam binary trees, maka subset yang membelah juga harus ditentukan sebagai bagian dari kriteria pemisahan. Node pohon diciptakan untuk partisi yang dilabeli dengan kriteria pembagian, cabang yang tumbuh untuk setiap hasil dari kinerja. Tiga selection measures attribute yang populer adalah information gain, gain ratio, dan gain index. 1.1.2.2. Naive Bayes Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes . Metode pengklasifikasian dg menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes , yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes . Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian.

Menurut Olson Delen (2008) menjelaskan Naïve Bayes unt setiap kelas keputusan, menghitung probabilitas dg syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dr " master " tabel keputusan.

Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifier lainnya. Hal ini dibuktikan oleh Xhemali , Hinde Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yg lebih baik dibandingmodel classifier lainnya”.

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan ( training data ) yg kecil unt menentukan estimasi parameter yg diperlukan dalam proses pengklasifikasian. Karena yg diasumsikan sebagai variable independent, maka hanya varians dr suatu variable dalam sebuah kelas yg dibutuhkan unt menentukan klasifikasi, bukan keseluruhan dr matriks kovarians.

Tahapan proses Naive Bayes 1. Menghitung jumlah kelas / label 2. Menghitung Jumlah Kasus Per Kelas 3. Kalikan Semua Variable Kelas 4. Bandingkan Hasil Per Kelas 1.1.3. Clustering Clustering adalah proses pengelompokan kumpulan data menjadi beberapa kelompok sehingga objek di dalam satu kelompok memiliki banyak kesamaan dan memiliki banyak perbedaan dengan objek di kelompok lain. Perbedaan dan persamaannya biasanya berdaasarkan nilai atribut dari objek tersebut dan dapat juga berupa perhitungan jarak. Clustering sendiri juga disebut unsupervised classification, karena clustering lebih bersifat untuk dipelajarai dengan diperhatikan. Cluster analysis merupakan proses partisi satu set objek data ke dalam himpunan bagian. Setiap himpunan bagian adalah cluster, sehingga objek yang ada di dalam cluster mirip satu sama dengan lainnya, dan mempunyai perbedaan dengan objek dari cluster yang lain. Partisi tidak dilakukan dengan manual algoritma clustering. Oleh karena itu, clustering sangat berguna dan bisa menemukan grup yang tidak dikenal dalam data. Cluster analysis banyak digunakan dalam berbagai aplikasi seperti Business Intelligence, Image Pattern Recognition, Web Search, Biology, dan Security. Di dalam business intelligence, clustering bisa mengatur banyak customer ke dalam banyak grup. Contohnya pengelompokan customer ke dalam beberapa cluster dengan persamaan karakteristik yang kuat. Clustering juga dikenal sebagai data segmentation, karena clustering mempartisi banyak

data set ke dalam banyak grup berdasarkan persamaannya. Clustering juga bisa sebagai outlier detection, di mana outlier bisa menjadi menarik daripada kasus yang biasa. Aplikasinya adalah Outlier Detection, untuk mendeteksi card fraud dan memonitori aktivitas. 1.1.3.1. Konsep Dasar Clustering Proses clustering akan menghasilkan cluster yang baik apabila: a) Tingkat kesamaan yang tinggi dalam satu kelas. b) Tingkat kesamaan yang rendah antar kelas. Kesamaan yang dimaksud merupakan pengukuran secara numerik terhadap dua buah objek. Nilai kesamaan ini akan semakin tinggi apabila memiliki kemiripan yang tinggi. Perbedaan kualitas hasil clustering tergantung pada metode yang dipakai. Tipe data pada clustering: a) Variabel berskala interval. b) Variabel biner. c) Variabel nominal, ordinal, dan rasio. d) Variabel dengan tipe lainnya. Meotde

clustering

juga

harus

dapat

mengukur

kemampuannya dalam usaha untuk menemukan suatu pola tersembunyi pada data yang tersedia. Dalam mengukur nilai kesamaan ini, ada beberapa metode yang dapat dipakai. Salah satu metodenya adalah Weighted Euclidean Distance. Dalam meotde ini, dua buah poin dapat dihitung jaraknya bila diketahui nilai dari masing-masing atribut pada kedua poin tersebut, berikut rumusnya:

Keterangan : N = Jumlah record data

K = Urutan field data r=2 k = Bobot field yang diberikan user 1.1.3.2. Persyaratan untuk Clustering Syarat untuk melakukan analisa clustering: a) Scalability Mampu menangani data dalam jumlah yang besar. Karena database yang besar berisi lebih dari jutaan objek, bukan hanya ratusan objek. Maka dari itu diperlukan algoritma dengan clustering yang scalable. b) Ability to deal with different types of attributes Banyak algoritma clustering yang hanya dibuat untuk menganalisa data bersifat numerik. Namun sekarang ini, aplikasi data mining harus dapat menangani berbagai macam bentuk data seperti biner, data nominal, data ordinal, ataupun campuran. c) Discovery of clusters with arbitrary shape Banyak algoritma clustering yang menggunakan euclidean atau manhattan. Namun, hasil dari metode tersebut bukan hanya berbentuk bulat seperti pada contoh. Hasil dapat berbentuk aneh dan tidak sama antara satu dengan yang lain. Maka dari itu diperlukan kemampuan untuk menganalisa cluster dengan bentuk apapun. d) Requirements for domain knowledge to determain input parameters Banyak algoritma clustering yang mengharuskan pengguna untuk memasukan parameter tertentu, seperti jumlah cluster. Hasil clustering bergantung pada parameter yang ditentukan. Terkadang parameter sulit untuk menentukan, terutama pada data yang memiliki dimensi tinggi. Hal ini

menyulitkan pengguna serta kualitas clustering yang yang dicapaipun tidak terkontrol. e) Ablity to deal with noisy data Pada kenyataannya, data pasti ada yang rusak, error, tidak dimengerti, ataupun menghilang. Beberapa algoritma clustering sangat sensitif terhadap data yang rusak, sehingga menyebabkan cluster dengan kualitas yang rendah. Maka dari itu, diperlukan clustering yang mampu menagani data yang rusak. f) Incremental clustering and insensitivity to input order Data yang dimasukan dapat menyebabkan cluster menjadi berubah total. Hal ini dapat terjadi karena tidak sensitifnya algoritma clustering yang dipakai. Maka dari itu diperlukan algoritma yang tidak senssitif terhadap urutan input data. g) Capability of clustering high-dimentionallity data Sebuah kelompok data dapat berisi banyak dimensi ataupun atribut. Kebanyakan algoritma clustering hanya mampu menangani kelompok data dengan dimensi sedikit. Maka dari itu, diperlukan algoritma clustering yang mampu menangani data dengan dimensi yang berjumlah banyak. h) Constraint based clustering Pada kenyataannya, membuat clustering tentu saja memiliki beberapa pembatas ataupun syarat tertentu. Hal ini menajadi tugas yang menantang, karena diperlukan kemampuan yang tinggi untuk mengelompokan data, dengan kendala dan perilaku tertentu. i) Interpretability and usability Pengguna tentu saja menginginkan hasil clustering mudah ditafsirkan, dimengerti, dan bermanfaat. Hal ini berarti clustering perlu ditandai dengan beberapa syarat, sesuai

kemauan user, dan tentu saja hal itu memengaruhi pemilihan metode clustering yang akan digunakan. 1.1.3.3. Tipe Clustering Berikut ini merupakan tipe clustering yang umum digunakan, antara lain: a) Partitional Clustering Metode yang paling sederhana dan paling mendasar dari analisis partisi cluster, yang mengatur objek dari suatu himpunan ke dalam beberapa kelompok eksklusif atau cluster. Intinya adalah memisahkan data per kelompok dengan kelompok lainnya. Metode yang paling sering digunakan dalam partitional clustering adalah metode K-Means. Algoritma K-Means mendefinisikan centroid dari cluster menjadi rata-rata point dari cluster tersebut. Ini hasil dari langkah-langkah dalam melakukan metode K-Means. Langkah-langkah melakukan metode KMeans: a) Tentukan jumlah cluster yang akan dibuat. b) Masukan elemen yang akan di-cluster secara acak ke masing-masing cluster. c) Hitung centroid (titik tengah) pada setiap cluster. d) Ukur jarak antara satu titik ke titik tengah pada masingmasing cluster. e) Masukan titik ke centroid terdekat. f) Ulangi sampai cluster benar-benar tersusun dengan baik. b) Hierarchical Clustering Pengelompokan

data

berdasarkan

hierarkinya.

Langkah-langkah melakukan hierarchical clustering: a) Identifikasi item dengan jarak terdekat. b) Gabungkan item itu ke dalam satu cluster. c) Hitung jarak antar cluster. d) Ulangi dari awal, sampai semua terhubung.

c) Density-Based Metode partitioning dan hierarchical adalah dirancang untuk menemukan spherical-shaped cluster. Metode tersebut memiliki kesulitan untuk menemukan cluster berbentuk sembarang seperti bentuk “S” dan cluster ouval. Untuk hal tersebut dengan menggunakan metode di atas, kemungkinan besar tidak akurat, di mana kebisingan atau outlier termasuk dalam cluster. Untuk menemukan cluster berbentuk sembarang, sebagai alternatif, kita dapat memodelkan cluster ke dalam beberapa bagian dalam data space, yang dipisahkan dari bagian yang jarang. Ini adalah strategi utama di balik kepadatan metode berbasis clustering, yang dapat menemukan cluster berebentuk nonspherical. d) Grid-Based Metode clustering yang dibahas sejauh ini adalah metode yang mempartisi set dari objek dengan distribusi objek di embedding space. Pendekatan clustering Grid-Based menggunakan grid multiresolusi struktur data. Ini membagi objek space ke dalam jumlah yang terbatas dari struktur grid, di mana operasi untuk clustering dilakukan. Keuntungan dari pendekatan ini adalah waktu proses yang cepat, yang biasanya tergantung dari jumlah objek data, namun tergantung pada jumlah sel dalam setiap dimensi, dalam quantized space. 1.1.3.4. Penggunaan Metode Clustering Clustering banyak digunakan pada berbagai bidang aplikasi seperti: a) Business Intelligence b) Image pattern recognition c) Web search

d) Biology e) Security f) Economy Contoh aplikasi data mining yang menggunakan teknik clustering: a) Business Intelligence Clustering dapat digunakan untuk mengorganisir pelanggan dalam jumlah besar ke dalam kelompok yang memiliki banyak persamaan. Hal ini membantu dalam proses CRM. b) Web search Clustering

digunakan

pada

saat

pencarian

menggunakan keyword. Karena sangat banyaknya jumalah website yang ada, clustering dapat digunakan untuk mengorganisir hasil pencarian ke dalam beberapa kelompok, yang menyajikan hasil yang lebih mudah ditelusuri. c) Marketing Untuk mengelompokan customer yang memiliki keunikan dan mengembangkan program target marketing terhadap beberapa customer tersebut.

2. STUDI KASUS Pasar Modal 2.1. Saham 2.1.1. Pengertian Saham Saham adalah sertifikat yang menunjukkan bukti kepemilikan suatu perusahaan, dan pemegang saham memiliki hak klaim atas penghasilan dan aktiva perusahaan. 2.1.2. Jenis Saham a) Saham Biasa Merupakan jenis efek yang paling sering dipergunakan oleh emiten untuk memperoleh dana dari masyarakat dan juga merupakan jenis yang paling populer di Pasar Modal. Jenis ini memiliki karakteristik seperti: a) Hak klaim terakhir atas aktiva perusahaan jika perusahaan dilikuidasi. b) Hak suara proporsional pada pemilihan direksi serta keputusan lain yang ditetapkan pada Rapat Umum Pemegang Saham. c) Dividen, jika perusahaan memperoleh laba dan disetujui di dalam Rapat Umum Pemegang Saham. d) Hak memesan efek terlebih dahulu, sebelum efek tersebut ditawarkan kepada masyarakat. b) Saham Preferen a) Pembayaran dividen dalam jumlah yang tetap. b) Hak klaim lebih dahulu dibanding saham biasa, jika perusahaan dilikuidasi. c) Dapat dikonversikan menjadi saham biasa.

2.1.3. Manfaat Investasi Saham a) Dividen Dividen adalah bagian keuntungan perusahaan yang dibagikan kepada pemegang saham. Jumlah dividen yang akan dibagikan diusulkan oleh Dewan Direksi dan disetujui di dalam Rapat Umum Pemegang Saham. Dividen terbagi menjadi dua, yaitu: b) Dividen Tunai Jika emiten membagikan dividen kepada para pemegang saham dalam bentuk sejumlah uang untuk setiap saham yang dimiliki. c) Dividen Saham Jika emiten membagikan dividen kepada para pemegang saham dalam bentuk saham baru perusahaan tersebut, yang pada akhirnya akan meningkatkan jumlah saham yang dimiliki pemegang saham. d) Capital Gain Investor dapat menikmati capital gain, jika harga jual melebihi harga beli saham tersebut. 2.1.4. Risiko Investasi Saham Berikut ini adalah risiko investasi pada saham: a) Tidak ada pembagian dividen Jika emiten tidak dapat membukukan laba pada tahun berjalan atau Rapat Umum Pemegang Saham memutuskan untuk tidak membagikan dividen kepada pemegang saham karena laba yang diperoleh akan digunakan untuk ekspansi perusahaan. b) Capital Loss Investor akan mengalami capital loss, jika harga beli saham besar dari harga jual. c) Risiko Likuidasi Jika emiten bangkrut atau dilikuidasi, para pemegang saham memiliki hak klaim terakhir terhadap aktiva perusahaan, setelah seluruh kewajiban emiten dibayar. d) Saham delisting dari Bursa

Karena

beberpa

alasan tertentu, saham

dapat

dihapus

pencatatannya (delisting) di Bursa, sehingga pada akhirnya saham tersebut tidak dapat diperdagangkan.

2.2. Obligasi 2.2.1. Pengertian Obligasi Obligasi adalah sertifikat yang berisi kontrak antara investor dan perusahaan, yang menyatakan bahwa investor/pemegang obligasi telah meminjam sejumlah uang kepada perusahaan. Perusahaan yang menerbitkan obligasi mempunyai kewajiban untuk membayar bunga secara regular sesuai dengan jangka waktu yang telah ditetapkan, serta pokok pinjaman pada saat jatuh tempo. 2.2.2. Manfaat Investasi Obligasi Berikut ini manfaat dari obligasi: a) Bunga Bunga dibayar secara regular sampai jatuh tempo dan ditetapkan dalam presentase dari nilai nominal. b) Capital Gain Sebelum jatuh tempo, biasanya obligasi diperdagangkan di Pasar Sekunder, sehingga investor mempunyai kesempatan untuk memperoleh capital gain. Capital gain juga dapat diperoleh jika investor membeli Obligasi dengan diskon, yaitu dengan nilai lebih rendah dari nilai nominalnya. c) Hak Klaim Pertama Jika emiten bangkrut atau dilikuidasi, pemegang obligasi sebagai kreditur memiliki Hak Klaim Pertama atas aktiva perusahaan.

d)

Jika memiliki obligasi konversi

Investor dapat mengkonversikan obligasi menjadi saham pada harga yang telah ditetapkan, dan kemudian berhak untuk memperoleh manfaat atas saham.

2.2.3. Risiko Investasi Obligasi Berikut ini merupakan risiko investasi pada obligasi: a) Gagal bayar (default) Kegagalan dari emiten untuk melakukan pembayaran bunga serta hutang pokok pada waktu yang telah ditetapkan, atau kegiatan emiten untuk memenuhi ketentuan lain yang ditetapkan dalam kontrak Obligasi. b) Capital Loss Obligasi yang dijual sebelum jatu tempo dengan harga yang lebih rendah dari harga belinya. c) Callability Sebelum jatuh tempo, emiten mempunyai hak untuk membeli kembali Obligasi yang telah diterbitkan.

2.2.4. Derivatif Derivatif terdiri dari efek yang diturunkan dari instrumen efek lain yang disebut “underlying” . Ada beberapa macam instrument derivatif di Indonesia, seperti Bukti Right, Waran, dan Kontrak Berjangka. Derivatif merupakan instrumen yang sangat berisiko jika tidak dipergunakan secara hati-hati. 2.2.4.1. Bukti Right 2.2.4.1. Pengertian Bukti Right Sesuai dengan undang-undang Pasar Modal, Bukti Right didefinisikan sebagai hak memesan efek terlebih dahulu pada harga yang telah ditetapkan selama periode tertentu. Bukti Right diterbitkan pada penawaran umum terbatas (Right Issue), dimana

saham baru ditawarkan pertama kali kepada pemegang saham lama. Bukti Right juga dapat diperdagangkan di Pasar Sekunder selama periode tertentu.

2.2.4.2. Manfaat Investasi Bukti Right Berikut ini beberapa manfaat Bukti Right: a) Investor memiliki hak istimewa untuk membeli saham baru pada harga yang telah ditetapkan dengan menukarkan Bukti Right yang dimilikinya. Hal ini memungkinkan

investor

untuk

memperoleh

keuntungan dengan membeli saham baru dengan harga yang lebih murah. b) Bukti Right dapat diperdagangkan pada Pasar Sekunder, sehingga investor dapat menikmati Capital Gain, ketika harga jual dari Bukti Right tersebut lebih besar dari harga belinya. 2.2.4.3. Risiko Investasi Bukti Right Berikut ini merupakan risiko dari memiliki Bukti Right: a) Jika harga saham pada periode pelaksanaan jatuh dan menjadi lebih rendah dari harga pelaksanaan, maka investor tidak akan mengkonversikan Bukti Right tersebut, sementara itu investor akan mengalami kerugian atas harga beli Right. b) Bukti Right dapat diperdagangkan pada pasar sekunder, sehingga investor dapat mengalami kerugian (Capital Loss), ketika harga jual dari Bukti Right tersebut lebih rendah dari harga belinya.

2.2.4.4. Waran 2.2.4.4.1. Pengertian Waran Waran biasanya melekat sebagai daya tarik (sweetener) pada penawaran umum saham ataupun obligasi. Biasanya harga pelaksanaan lebih rendah dari pada harga pasar saham. Setelah saham ataupun obligasi tersebut tercatat di bursa, waran dapat diperdagangkan secara terpisah. 2.2.4.4.2. Manfaat Investasi Waran Berikut ini merupakan manfaat dari memiliki Waran: a) Pemilik waran memiliki hak untuk membeli saham baru perusahaan dengan harga yang lebih rendah dari harga saham tersebut di Pasar Sekunder dengan cara menukarkan waran yang dimilikinya ketika harga saham perusahaan tersebut melebihi harga pelaksanaan. b) Apabila waran diperdagangkan di Bursa, maka pemilik waran mempunyai kesempatan untuk memperoleh keuntungan (capital gain) yaitu apabila harga jual waran tersebut lebih besar dari harga beli.

2.3. Kerangka Pikir Latar Belakang

Evaluasi classification dengan menggunakan metode classification

Studi literatur dan lain-lain Visualisasi grafik Identifikasi Masalah

Identifikasi kebutuhan informasi

Penerapan Data Mining pada Targeted Marketing

Gambar 2.3 Kerangka Pikir Penelitian

3. Deskripsi WEKA & Rapidminer Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan. RapidMiner adalah salah satu software untuk pengolahan data mining. Pekerjaan yang dilakukan oleh RapidMiner text mining adalah berkisar dengan analisis teks, mengekstrak polapola dari data set yang besar dan mengkombinasikannya dengan metode statistika, kecerdasan buatan, dan database. Tujuan dari analisis teks ini adalah untuk mendapatkan informasi bermutu tertinggi dari teks yang diolah. RapidMiner menyediakan prosedur data mining dan machine learning, di dalamnya termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI. Penyajiannya dituliskan dalam bahasa pemrograman Java. Untuk mengetahui lebih banyak tentang penggunaanya, saya telah menuliskan sebuah artikel berjudul Analisis Kumpulan Dokumen dengan RapidMiner. Selain itu, di Youtube ada banyak sekali video tutorial yang bisa anda pelajari sendiri, berikut ini adalah beberapa contoh video tutorial RapidMiner yang bisa anda lihat dan pelajari. -- http://www.softovator.com/eksplorasi-data-mining-menggunakan-rapidminer/

3.1 Tahap Instalasi WEKA 1

2

3

5

6

8

4

7

Tahap Instalasi Rapidminer

https://my.rapidminer.com/nexus/account/index.html#downloads

3.2.

Bagaimana Menginput Data & RUN DATA -

WEKA Pilih “explorer”, kemudian akan muncul layar WEKA Explorer

2. Buka file csv menggunakan notepad, dan tambahkan command seperti diatas

3. Simpan file tersebut ke ext “namafile.arff”

1. Simpan file ke format CSV file,

3.3.

Bagaimana Run Data -

WEKA

Open file

Open file format .arff

-

Rapidminer

4. Kesimpulan WEKA lebih dapat memberikan detail daripada rapidminer dalam hal define attribute, item dan visualize detail lainnya

More Documents from "Nofry Aldi Saputra"