Tugas Inteligent System (yofi Kurniawan).docx

  • Uploaded by: Yofi Kurniawan
  • 0
  • 0
  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Tugas Inteligent System (yofi Kurniawan).docx as PDF for free.

More details

  • Words: 1,003
  • Pages: 5
NAMA KELAS NIM MATKUL JURUSAN DOSEN

: YOFIK KURNIAWAN : SI4E : 171410282 : INTELIGENT SYSTEM : SISTEM INFORMASI : YESI NOVARIA KUNANG, S.T., M.Kom

TUGAS 4

 SOAL 1. Jelaskan perbedaan data mining dan Text Mining ? 2. Jelaskan perbedaan data terstruktur dan tidak terstruktur ? 3. Jelaskan tahapan dari text mining ?  Jawaban 1. Perbedaan data mining dan text mining : A. Data Mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analisis.

Data Mining : 1. Proses langsung 2. Mengidentifikasi penyebab hubungan 3. Angka terstruktur data transaksi yang berada dalam data rasional Gudang

Data mining mempunyai empat fungsi dasar yaitu: 1. Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya. 2. Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data. 3. Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan. 4. Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.

B. Text mining adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutip an teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasidan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi doku men, penggugusan teks, deteksi plagiarisme, dll. (Turban, et.al., 2011)

Text Mining : 1. Pemrosesan bahasa atau bahasa alami pemrosesan (NLP) 2. Temukan sebelumnya informasi tidak diketahui. 3. Aplikasi berurusan dengan jauh lebih beragam dan koleksi eklektik dari sistem dan format.

Text Mining mempunyai tujuan yaitu : 1. Untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering). 2. Penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. 3. Tujuan text mining mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

2. Perbedaan data terstruktur dan tidak terstruktur : A. Data terstruktur mendefinisikan tipe data atribut, yang ada pada rekord maupun tuple. Setiap rekord memiliki field yang sama. Data ada dalam entitas dan entitas yang sama dikelompokkan menjadi satu menggunakan relasi atau kelas. Entitas dalam kelompok yang sama memiliki atribut yang sama pula. Deskripsi untuk semua entitas dalam skema memiliki kesamaan format.

Data Tersturuktur : 1. Penggunaan data terstruktur semakin banyak dilakukan , sejak basisdata relasional ada untuk mengatur data dengan ukuran sangat besar. Sistem yang ada saat ini, seperti CRM (Customer Relationship Management), ERP (Enterprise Resource Planning) dan CMS (Content Managemnt System) merupakan data terstruktur untuk pemodelan data. 2. Data terstruktur biasanya dijalankan untuk mengakses database yang disebut dengan Structured Query Languange atau yang lebih dikenal dengan SQL. 3. Data terstruktur adalah data yang berada dalam satu tempat baik berbetuk sebuah file termasuk data yang berada dalam database ataupun spreadsheet.

B. Data tidak terstruktur adalah data yang tidak mudah diklasifikasi dan dimasukan kedalam sebuah kotak dengan rapi. Contohnya adalah foto, gambar grafis, streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog dan lain sebagainya.

Data tidak Terstruktur : 1. Data tidak tersturuktur sangat sulit untuk di management menggunakan mekanisme tradisional atau manual. 2. Data tidak terstruktur dapat dibagi menjadi: a. Manajemen Konten dan Dokumen b. Pencarian dan Pengambilan c. Basis data dan alat XML d. Kategorisasi, Klasifikasi, dan Visualisasi

3. Tahapan dari text mining : A. Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan case folding adalah sebagai berikut.

Data Input

Hasil Case Folding

B. Tokenizing Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain itu, spasi digunakan untuk memisahkan antar kata tersebut.

Data Input

Hasil Tokenizing

Penjelasan : Data Input = Kalimat/kata input hasil dari proses case folding Ouput = Kumpulan Kata

C. Tahap filtering adalah tahap mengambil kata - kata penting dari hasil tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari” dan lain – lain.(Triawati, 2009).

Data Input

Hasil Filtering

Penjelasan : Data Input = Kumpulan kata hasil dari proses tokenizing/parsing. Ouput = Kumpulan term yang siap untuk diolah dengan proses svd.

D. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks sehingga agak lebih susah untuk diolah.

E. Spelling Normalization merupakan perbaikan dan subtitusi kata-kata yang salah eja ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai entitas yang berbeda proses penyusunan matriks. F. Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata

antar dokumen yang ada

Related Documents

Yofi
June 2020 11
Inteligent
October 2019 52
Fii Inteligent 2014-2015.pdf
November 2019 30
System
May 2020 30

More Documents from ""