Konsep Data Mining Dan Implementasi

  • Uploaded by: Djoko Triw
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Konsep Data Mining Dan Implementasi as PDF for free.

More details

  • Words: 2,786
  • Pages: 9
KONSEP DATA MINING DAN IMPLEMENTASI (PENERAPAN) Oleh: Djoko Tri W (NPM: 18109011)

Pendahuluan Manusia telah "secara manual" mengekstrak pola dari data selama berabad-abad, tetapi meningkatnya volume data yang di zaman modern telah menyerukan pendekatan yang lebih otomatis. Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes 'teorema (1700) dan Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Seperti kumpulan data telah tumbuh dalam ukuran dan kompleksitas, tangan langsung-analisis data telah semakin telah ditambah dengan tidak langsung, pemrosesan data otomatis. Ini telah dibantu oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan saraf, Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan Dukungan mesin vektor (1980). diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat menampung, menganalisis secara akurat data yang bagitu besar, metode tersebut hingga saat ini dikenal sebagai Data Mining. Data Mining Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar. Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi

1

pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja. Proses Data Mining Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat dibagi menjadi beberapa tahap: 1.

Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

2.

Integrasi data (penggabungan data dari beberapa sumber)

3.

Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

4.

Aplikasi teknik Data Mining

5.

Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

6.

Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Teknik Data Mining Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan: 1.

Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu

2

kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree. 2.

Classification Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan

konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhirakhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 3.

Clustering Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan

sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan 3

metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon.

Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN. Implementasi (Penerapan) Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining: -

Analisa pasar dan manajemen. Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

-

Analisa Perusahaan dan Manajemen resiko. Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

-

Telekomunikasi. Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

-

Keuangan. Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .

-

Asuransi. Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .

-

Olahraga. IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

-

Astronomi. Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa.

-

Internet Web surf-aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang 4

berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke- efektif-an pemasaran melalui Web.

Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence perusahaan. Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer. Langkah 1.

Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada berdasarkan transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari semua data yang ada dalam tabel frekuensi transaksi.

Pada langkah ini digunakan perhitungan nilai rata-rata (mean) karena untuk

mengantisipasi adanya nilai outline (nilai yang letaknya sangat jauh dari data yang ada) dari data yang ada dalam tabel frekuensi. Contoh perhitungan dari sample data frekuensi transaksi customer, adalah sebagai berikut:

5

Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil sampai ke frekuensi terbesarnya, yaitu sebagai berikut: Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada langkah I ini adalah sebagai berikut: •

Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi. = 0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+1+2+2+2+4+5+5+6+7+11+11+15/30 = 2.56666666667.



Perhitungan titik pusat 1 → nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2 = 0+2.56666666667/2 = 1.283333333333.



Perhitungan titik pusat 2 → menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi. = 2.56666666667.



Perhitungan titik pusat 3 → nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi terbesar / 2. = 2.56666666667 + 15 /2 = 8.78333333333.



Maka hasil titik pusat dari langkah I ini adalah : 

Titik pusat 1 = 1.283333333335



Titik pusat 2 = 2.56666666667



Titik pusat 3 = 8.78333333333

Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian titik – titik pusat tersebut digunakan untuk menarik anggota dari semua nilai data yang ada pada tabel frekuensi dengan menggunakan sistem perhitungan jarak kedekatan setiap data dengan masing-masing titik pusat tersebut. Perhitungan jarak kedekatan dalam langkah 1 ini ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian hasil selisih titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil dan dikurangkan dengan titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa data-data yang berada dalam rentang titik pusat tersebut merupakan anggotanya. Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi : •

Perhitungan rentang terendah : = 2.576666666667 - 1.283333333335 / 2 = 0.646666666666. Maka titik terendah dari titik pusat 2 adalah = 2.56666666667 - 0.646666666666 = 1.920



Perhitungan rentang tertinggi: = 8.78333333333 - 2.56666666667 / 2 = 3.10833333333 Maka titik tertinggi dari titik pusat 2 adalah

6

= 2.56666666667 + 3.10833333333 = 5.675 •

Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data : 1.920 ≤ anggota cluster titik pusat 2 < 5.675

Langkah 2. Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan pengecekan ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median karena semua data yang ada sudah diketahui pada langkah 1, sehingga tidak ada kekhawatiran munculnya data outline. Contoh perhitungan pada langkah 2 berdasarkan semua data yang ada pada halis langkah I adalah sebagai berikut: •

Titik pusat 1 Membaca semua data anggota klaster ini pada langkah I, yaitu: 0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2 Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2 digunakan perhitungan dengan langkah sebagai berikut: a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 19mod2 = 1 Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((19/2) +((19/2)-1)/2 = 9  nilai tengahnya berada diantara item ke – 9 yang dibaca dari awal data dan akhir data dari anggota klaster 1 pada langka I =[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2] Jadi nilai titik pusat satu pada langkah II adalah 1. Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada langkah I, dimana nilai 1 ≠ 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.



Titik pusat 2 Anggota klaster ini pada langkah I adalah : 4,5,5 Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara sebagai berikut: a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I Num = [4,5,5] = 3 item b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 3 mod 2 = 1 Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((3/2) +((3/2)-1)/2 = 1 → nilai tengahnya berada diantara item ke – 1 yang dibaca dari awal data dan akhir data dari anggota klaster 2 pada langka I = [5|5|5]

7

Jadi nilai titik pusat dua pada langkah II adalah 5. Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik pusat dua pada langkah I, dimana nilai 5 ≠ 2.56666666667 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah •

Titik pusat 3 Anggota cluster pada langkah I adalah : 6,7,11,11,15 Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara sebagai berikut: a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I Num = [6,7,11,11,15] = 5 item b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 5 mod 2 = 1 Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((5/2) +((5/2)-1)/2 = 2 → nilai tengahnya berada diantara item ke – 2 yang dibaca dari awal data dan akhir data dari anggota klaster 3 pada langka I = [6,7|11|11,15] Jadi nilai titik pusat satu pada langkah II adalah 11. Kemudian titik pusat tiga pada langkah II ini dibandingkan dengan titik pusat tiga pada langkah I, dimana nilai 11 ≠ 8.78333333333 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.

Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan perhitungan jarak rentang anggota masing – masing cluster, sebagai penentu suatu nilai data masuk pada tiap-tiap klaster yang jarak titik pusatnya paling dekat dengan data. Contoh perhitungan jarak rentang antar data adalah, sebagai berikut: •

Titik pusat 1 → Rentang titik pusat 1 = Titik pusat 2 – titik pusat 1 / 2 = 5-1 / 2 = 2 Maka rentang anggota titik pusat 1 langkah II = 1 +2 = 3 → anggota klaster 1 pada langkah II < data frekuensi bernilai 3



Titik pusat 2 → Rentang terendah = 5 - 1 / 2 = 2 Maka rentang terendah = 5 – 2 = 3 → Rentang tertinggi : 11 – 5 / 2 = 3 Maka rentang teringgi = 5 + 3 = 8 Sehingga rentang anggota titik pusat 2  data frekuensi bernilai 3 ≤ anggota klaster 2 pada langkah II < data frekuensi bernilai 8



Titik pusat 3 → Rentang titik pusat 3 = titik pusat 3 – titik pusat 2 / 2 = 11 – 5 / 2 = 3

Maka rentang anggota titik pusat 3 = 11 – 3 = 8 → data frekuensi bernilai 8 ≤ anggota klaster 3 pada langkah 2.

8

Langkah 3. Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang digunakan pada langkah 2, yaitu penggunaan perhitungan nilai tengan (median).

Fungsi dalam langkah ini digunakan untuk mengecek

apakah titik pusat klaster yang telah terbentuk pada langkah sebelumnya sudah tidak berubah lagi atau tidak, dengan cara membandingkan hasil perhitungan titik pusat langkah ini dengan langkah sebelumnya. Apabila titik pusat tersebut sudah tidak berubah maka pembentukan klaster customer sudah selesai. Tetapi apabila titik pusat masih berubah maka dilakukan perhitungan ulang seperti pada langkah II, perhitungan ini akan terus berulang sampai titik pusat cluster tidak berubah lagi.

Kesimpulan 1) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa dicari dari seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode perhitungan nilai rata rata (mean) ataupun perhitungan nilai tengah (median). 2) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap customer – customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan promosi kebeberapa customer yang berada diklaster kurang aktif dan sedang ataupun keputusan untuk memberikan fasilitas yang lebih exclusive maupun pemberian bonus atau diskon kepada customer yang berada di klaster yang aktif.

Sumber: wikipedia, “Data Mining”, http://en.wikipedia.org/wiki/Data_mining Iko Pramudiono, “Pengantar data mining: Menambang Permata Pengetahuan di Gunung Data”, http://ilmukomputer.com Yudo Giri Sucahyo, “Penerapan data mining: Permasalahan apa saja yang bisa diselesaikan?”, http://ilmukomputer.com Noor Rindho, Suzuki Syofian, “Implementasi Data Mining dengan Metode Clustering untuk melakukan Competitive Intelligence perusahaan”

9

Related Documents

Data Mining
May 2020 23
Data Mining
October 2019 35
Data Mining
November 2019 32
Data Mining
May 2020 21
Data Mining
May 2020 19

More Documents from ""