Data Mining 1.pptx

  • Uploaded by: supadma
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Data Mining 1.pptx as PDF for free.

More details

  • Words: 1,132
  • Pages: 48
Data mining

Tujuan Intruksional Umum dan Khusus  Tujuan Instruksi Umum

Mahasiswa dapat mengetahui dan memahami konsep dasar data mining  Tujuan Insktruksional Khusus

1. Mahasiswa dapat memahami definisi data mining,data werehousing 2. Mahasiswa dapat memahami langkah langkah knowledge discovery database 3. Mahasiswa dapat membedakan pekerjaan yang dapat diselesaikan dengan Data Mining

4. Mahasiswa dapat memahami teknik data mining dan aplikasinya. 5. Mahasiswa dapat menyebutkan tantangan data mining.

Data Mining terkait Database • Ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di database yang besar sehingga menjadi informasi yang sangat berharga • proses penemuan yang efisien sebuah pola terbaik yang dapat menghasilkan sesuatu yang bernilai dari suatu koleksi data yang sangat besar

Apa Yang dimaksud Ekstraksi pola  Contoh Analisa Market

Tid

Barang

T100

Kopi,gula, rokok

T200

Kopi,gula, kue

T300

Kopi,gula, beras,telur Analisa berdasarkan pola assosiasi

Apa Yang dimaksud Ekstraksi pola  Forecasting Curah hujan

Data Mining Terkait Statistik

Definisi Data Mining Data mining is an iterative process within which progress is defined by discovery, through either automatic or manual methods. [Kantardzic , 2003] Data mining (DM) is the extraction of hidden predictive information from large databases (DBs). With the automatic discovery of knowledge implicit within DBs, DM uses sophisticated statistical analysis and modeling techniques to uncover patterns and relationships hidden in organizational DBs [Wang, 2003] Data mining refers to extracting or \mining" knowledge from large amounts of data [Han, 2005] Non-trivial extraction of implicit, previously unknown and potentially useful information from data [Tan, 2003]

Latar Belakang  Melimpahnya data

Latar Belakang Walaupun data teramat melimpah, namun yang diolah menjadi knowledge sangat sedikit Solusinya??  Data warehouse dan data mining

 Data warehouse dan OLAP (on-line analytical processing)  Ekstraksi knowledge yang menarik dalam bentuk rule, regularities, pola, konstrain dll dari data yang tersimpan dalam sejumlah besar basis data

PROSES DATAData MINING Mining & Proses KDD

Evaluasi Pola

4/1/2019

Data Mining Task-relevant Data Data Warehouse

Selection

Data Cleaning

Data Integration Database s

Source : Han 2004

Data Mining dan Teknologi Data Base Lainnya

Operasi Data Mining Metode Prediksi  Dengan menggunakan beberapa variabel untuk memprediksi nilai yang belum diketahui (unknown ) atau nilai selanjutnya (future) dari variabel lain Contoh: Classification Regression

Deviation Detection

Metode Deskripsi  Menemukan pola pendeskripsian data yang dapat diinterpretasikan oleh manusia Contoh: Clustering Association Rule Discovery Sequential Pattern Discovery

Aplikasi Data Mining  Analisis dan Manajemen Pasar ▪ target pemasaran, customer relation management (CRM), market basket analysis, cross selling, segmentasi pasar

 Analisis dan Manajemen Resiko ▪ Forecasting, customer retention, quality control, analisis kompetisi

 Deteksi dan (kecurangan)

manajemen

 Text mining (news group, dokumen) dan Analisis Web.  Intelligent query answering

fraud

email,

Definisi dan Tipe Data  Himpunan Data ( Data Set) kumpulan Objek dan attributnya.  Attribut mengacu pada properti objek  Attribut kadang dinyatakan sebagai field, Variabel, karakteristik, fitur.  Kumpulan dari attribut membentuk objek  Objek juga dinyatakan dengan istilah instance,entitas, record

Ilustrasi Objek dan Attributnya

Dataset

Tipe data (Attribut) Attribut dapat dibedakan dalam tipe tipe yang berbeda tergantung pada tipe domainnya.  Attribut Katagorikal  Attribut Numerik  Attribut berdasarkan jumlah nilai

Data Katagorikal  Data Nominal : Jika data tersebut tidak dapat diurutkan. Contoh : jenis kelamin, warna kulit. Data nominal memiliki sifat pembeda (distinctness)  Data Ordinal : data yang dapat diurutkan , contoh : tingkat pendidikan, Tinggi, rangking

Data Numerik  Data Interval :Data yang diperoleh dari hasil pengukuran menggunakan skala interval dinamakan data interval. Misalnya tentang nilai ujian 4 orang mahasiswa, yakni A, B, C, dan D diukur dengan ukuran interval pada skala prestasi dengan ukuran 1, 2, 3, dan 4, maka dapat dikatakan bahwa beda prestasi antara mahasiswa C dan A adalah 3 – 1 = 2. Beda prestasi antara mahasiswa D dan B adalah 4 – 2 = 2. Akan tetapi tidak bisa dikatakan bahwa prestasi mahasiswa D adalah 2 kali prestasi mahasiswa B ataupun prestasi mahasiswa D adalah 4 kali lebih baik dari prestasi mahasiswa A.  Data ratio : Contoh data rasio lainnya adalah berat badan bayi yang diukur dengan skala rasio. Bayi A memiliki berat 3 Kg. Bayi B memiliki berat 2 Kg dan bayi C memiliki berat 1 Kg. Jika diukur dengan skala rasio, maka bayi A memiliki rasio berat badan 3 kali dari berat badan bayi C. Bayi B memiliki rasio berat badan dua kali dari berat badan bayi C, dan bayi C memiliki rasio berat badan sepertiga kali berat badan bayi A, dst.

Data berdasarkan Jumlah  Data diskrit adalah data yang sifatnya terputus-putus, nilainya bukan merupakan pecahan (angka utuh). Contoh data diskrit adalah data tentang jumlah penduduk, kendaraan dan sebagainya.  Data kontinyu adalah data yang sifatnya sinambung atau kontinyu, nilainya bisa berupa pecahan. Contoh data kontinyu adalah data tentang hasil panen padi, panjang jalan, berat sapi dan sebagainya.

Tipe Data dari Dataset  Data Matrix  Data Dokumen  Data Transaksi  Data Graph

Data Matrix  Tipe data attributnya merupakan attribut numerik yang sama.

Data Dokumen  Data dokumen, tiap dokumen dapat dinyatakan dalam satu vektor ‘Term’. Setiap term merupakan satu atrribut.

Data Transaksi

Data graph  Data yang representasi dalam bentuk graph, terdiri atas node dan edge.

Kualitas Data Permasalahan Kualitas Data  Kesalahan Pengukuran : 1. Noise : Komponen random dari error pengukuran. 2. Bias : Variasi pengukuran dari kualitas yang diukur. 3. Precession : kedekatan dari pengukuran berulang 4. Accuracy : Kedekatan pengukuran dengan nilai sebenarnya

Apa Perbedaan Bias dengan Pecession  Contoh : Kita memiliki berat standar 1 kg benda. Benda tersebut ditimbang ulang sebanyak 5 kali , dengan hasil sebagai berikut : {1.015 , 0.99 , 1.013, 1.001, 0.986 }  Tentukan berapa bias dan presisinya

Beda presisi dan akurasi



Kualitas Data Kesalahan Pengumpulan Data Outliers Data



Kualitas Data Kesalahan Pengumpulan Data Missing Value : Nilai dari suatu attribut tidak ditemukan

 Penaganan : - Kurangi Data Objek - mengganti dengan nilai yang mungkin ( tergantung probabilitasnya)

Kualitas Data Kesalahan Pengumpulan Data  Terdapat data dalam sebuah attribut yang memiliki value lebih dari satu.  Perlu dilakukan data cleaning

Data Preprocessing  Data Cleaning  Data Integration  Data Reduction  Data transformation

Data Cleaning

Data Cleaning : Missing Value

Contoh Data Cleaning : Missing Value

Pengukuran Kinerja Sistem Konfusion Matrix

Konfusion Matrik  True Positif(TP) menyatakan sebuah data dengan kategori positif dan terklasifikasi benar sebagai data data positif.  False negative (FN) menyatakan sebuah data yang terklasifikasi salah, namun data tersebut adalah data kategori positif.  False positive(FP) juga menyatakan data yang terklasifikasi salah, data tersebut adalah data negatif namun dinyatakan sebagai data positif, sedangkan  True negative (TN) menyatakan data negatif yang terklasifikasi secara benar sebagai data negatif

Konfusion Matrik

Contoh Penerapan Confusion Matrix

Contoh Penerapan Confusion Matrix (Data Testing)

Tentukanlah kinerja : akurasi,presisi, recall, dan laju error sistem yang berbasis pohon keputusan diatas.

Related Documents

Data Mining
May 2020 23
Data Mining
October 2019 35
Data Mining
November 2019 32
Data Mining
May 2020 21
Data Mining
May 2020 19
Data Mining
November 2019 34

More Documents from ""

Resume_1605552031.docx
December 2019 2
Ann_perceptron.docx
December 2019 1
Data Mining 1.pptx
December 2019 4
1605552031_statistik.docx
December 2019 3
1040-4179-1-sm.pdf
December 2019 3