Data mining
Tujuan Intruksional Umum dan Khusus Tujuan Instruksi Umum
Mahasiswa dapat mengetahui dan memahami konsep dasar data mining Tujuan Insktruksional Khusus
1. Mahasiswa dapat memahami definisi data mining,data werehousing 2. Mahasiswa dapat memahami langkah langkah knowledge discovery database 3. Mahasiswa dapat membedakan pekerjaan yang dapat diselesaikan dengan Data Mining
4. Mahasiswa dapat memahami teknik data mining dan aplikasinya. 5. Mahasiswa dapat menyebutkan tantangan data mining.
Data Mining terkait Database • Ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar sehingga menjadi informasi yang sangat berharga • proses penemuan yang efisien sebuah pola terbaik yang dapat menghasilkan sesuatu yang bernilai dari suatu koleksi data yang sangat besar
Apa Yang dimaksud Ekstraksi pola Contoh Analisa Market
Tid
Barang
T100
Kopi,gula, rokok
T200
Kopi,gula, kue
T300
Kopi,gula, beras,telur Analisa berdasarkan pola assosiasi
Apa Yang dimaksud Ekstraksi pola Forecasting Curah hujan
Data Mining Terkait Statistik
Definisi Data Mining Data mining is an iterative process within which progress is defined by discovery, through either automatic or manual methods. [Kantardzic , 2003] Data mining (DM) is the extraction of hidden predictive information from large databases (DBs). With the automatic discovery of knowledge implicit within DBs, DM uses sophisticated statistical analysis and modeling techniques to uncover patterns and relationships hidden in organizational DBs [Wang, 2003] Data mining refers to extracting or \mining" knowledge from large amounts of data [Han, 2005] Non-trivial extraction of implicit, previously unknown and potentially useful information from data [Tan, 2003]
Latar Belakang Melimpahnya data
Latar Belakang Walaupun data teramat melimpah, namun yang diolah menjadi knowledge sangat sedikit Solusinya?? Data warehouse dan data mining
Data warehouse dan OLAP (on-line analytical processing) Ekstraksi knowledge yang menarik dalam bentuk rule, regularities, pola, konstrain dll dari data yang tersimpan dalam sejumlah besar basis data
PROSES DATAData MINING Mining & Proses KDD
Evaluasi Pola
4/1/2019
Data Mining Task-relevant Data Data Warehouse
Selection
Data Cleaning
Data Integration Database s
Source : Han 2004
Data Mining dan Teknologi Data Base Lainnya
Operasi Data Mining Metode Prediksi Dengan menggunakan beberapa variabel untuk memprediksi nilai yang belum diketahui (unknown ) atau nilai selanjutnya (future) dari variabel lain Contoh: Classification Regression
Deviation Detection
Metode Deskripsi Menemukan pola pendeskripsian data yang dapat diinterpretasikan oleh manusia Contoh: Clustering Association Rule Discovery Sequential Pattern Discovery
Aplikasi Data Mining Analisis dan Manajemen Pasar ▪ target pemasaran, customer relation management (CRM), market basket analysis, cross selling, segmentasi pasar
Analisis dan Manajemen Resiko ▪ Forecasting, customer retention, quality control, analisis kompetisi
Deteksi dan (kecurangan)
manajemen
Text mining (news group, dokumen) dan Analisis Web. Intelligent query answering
fraud
email,
Definisi dan Tipe Data Himpunan Data ( Data Set) kumpulan Objek dan attributnya. Attribut mengacu pada properti objek Attribut kadang dinyatakan sebagai field, Variabel, karakteristik, fitur. Kumpulan dari attribut membentuk objek Objek juga dinyatakan dengan istilah instance,entitas, record
Ilustrasi Objek dan Attributnya
Dataset
Tipe data (Attribut) Attribut dapat dibedakan dalam tipe tipe yang berbeda tergantung pada tipe domainnya. Attribut Katagorikal Attribut Numerik Attribut berdasarkan jumlah nilai
Data Katagorikal Data Nominal : Jika data tersebut tidak dapat diurutkan. Contoh : jenis kelamin, warna kulit. Data nominal memiliki sifat pembeda (distinctness) Data Ordinal : data yang dapat diurutkan , contoh : tingkat pendidikan, Tinggi, rangking
Data Numerik Data Interval :Data yang diperoleh dari hasil pengukuran menggunakan skala interval dinamakan data interval. Misalnya tentang nilai ujian 4 orang mahasiswa, yakni A, B, C, dan D diukur dengan ukuran interval pada skala prestasi dengan ukuran 1, 2, 3, dan 4, maka dapat dikatakan bahwa beda prestasi antara mahasiswa C dan A adalah 3 – 1 = 2. Beda prestasi antara mahasiswa D dan B adalah 4 – 2 = 2. Akan tetapi tidak bisa dikatakan bahwa prestasi mahasiswa D adalah 2 kali prestasi mahasiswa B ataupun prestasi mahasiswa D adalah 4 kali lebih baik dari prestasi mahasiswa A. Data ratio : Contoh data rasio lainnya adalah berat badan bayi yang diukur dengan skala rasio. Bayi A memiliki berat 3 Kg. Bayi B memiliki berat 2 Kg dan bayi C memiliki berat 1 Kg. Jika diukur dengan skala rasio, maka bayi A memiliki rasio berat badan 3 kali dari berat badan bayi C. Bayi B memiliki rasio berat badan dua kali dari berat badan bayi C, dan bayi C memiliki rasio berat badan sepertiga kali berat badan bayi A, dst.
Data berdasarkan Jumlah Data diskrit adalah data yang sifatnya terputus-putus, nilainya bukan merupakan pecahan (angka utuh). Contoh data diskrit adalah data tentang jumlah penduduk, kendaraan dan sebagainya. Data kontinyu adalah data yang sifatnya sinambung atau kontinyu, nilainya bisa berupa pecahan. Contoh data kontinyu adalah data tentang hasil panen padi, panjang jalan, berat sapi dan sebagainya.
Tipe Data dari Dataset Data Matrix Data Dokumen Data Transaksi Data Graph
Data Matrix Tipe data attributnya merupakan attribut numerik yang sama.
Data Dokumen Data dokumen, tiap dokumen dapat dinyatakan dalam satu vektor ‘Term’. Setiap term merupakan satu atrribut.
Data Transaksi
Data graph Data yang representasi dalam bentuk graph, terdiri atas node dan edge.
Kualitas Data Permasalahan Kualitas Data Kesalahan Pengukuran : 1. Noise : Komponen random dari error pengukuran. 2. Bias : Variasi pengukuran dari kualitas yang diukur. 3. Precession : kedekatan dari pengukuran berulang 4. Accuracy : Kedekatan pengukuran dengan nilai sebenarnya
Apa Perbedaan Bias dengan Pecession Contoh : Kita memiliki berat standar 1 kg benda. Benda tersebut ditimbang ulang sebanyak 5 kali , dengan hasil sebagai berikut : {1.015 , 0.99 , 1.013, 1.001, 0.986 } Tentukan berapa bias dan presisinya
Beda presisi dan akurasi
Kualitas Data Kesalahan Pengumpulan Data Outliers Data
Kualitas Data Kesalahan Pengumpulan Data Missing Value : Nilai dari suatu attribut tidak ditemukan
Penaganan : - Kurangi Data Objek - mengganti dengan nilai yang mungkin ( tergantung probabilitasnya)
Kualitas Data Kesalahan Pengumpulan Data Terdapat data dalam sebuah attribut yang memiliki value lebih dari satu. Perlu dilakukan data cleaning
Data Preprocessing Data Cleaning Data Integration Data Reduction Data transformation
Data Cleaning
Data Cleaning : Missing Value
Contoh Data Cleaning : Missing Value
Pengukuran Kinerja Sistem Konfusion Matrix
Konfusion Matrik True Positif(TP) menyatakan sebuah data dengan kategori positif dan terklasifikasi benar sebagai data data positif. False negative (FN) menyatakan sebuah data yang terklasifikasi salah, namun data tersebut adalah data kategori positif. False positive(FP) juga menyatakan data yang terklasifikasi salah, data tersebut adalah data negatif namun dinyatakan sebagai data positif, sedangkan True negative (TN) menyatakan data negatif yang terklasifikasi secara benar sebagai data negatif
Konfusion Matrik
Contoh Penerapan Confusion Matrix
Contoh Penerapan Confusion Matrix (Data Testing)
Tentukanlah kinerja : akurasi,presisi, recall, dan laju error sistem yang berbasis pohon keputusan diatas.