Tutorial Belajar Rapidminer (Bagian 2) - Pengantar Data Mining

Senin, 22 Mei 2017 20:53:20 ,Oleh ,Dilihat : 491 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M.

       Penambangan data (bahasa Inggris: data mining) adalah proses pencarian pengetahuan dari data dalam jumlah besar, menggunakan pengenalan pola, statistik dan teknik matematika. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penambangan data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.

Masalah data mining juga bisa dikelompokkan menjadi tugas :

  • Klasifikasi (Classification)
  • Klusterisasi/Penggolongan (Clustering)
  • Regresi (Regression)
  • Analisis asosiasi (Association)
  • deteksi anomali (Anomaly Detection)
  • Peramalan deret waktu (Time Series Forecasting)
  • penambangan teks (Text Mining)
  • Pemilihan Fitur (Feature Selection)

Data mining memiliki beberapa nama alternatif yaitu :

  • Business Intelligence
  • Knowledge discovery (mining) in databases (KDD
  • Knowledge extraction
  • data/pattern analysis
  • data archeology
  • data dredging
  • Information harvesting

Keuntungan dari penerapan data mining (pengambilan keputusan) adalah :

  • Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya.
  • Meramalkan masa depan  sehingga perusahaan dapat mempersiapkan diri

Proses dari data mining :


      Setelah membaca sedikit pengantar tadi dapat diambil kesimpulan bahwa penerapan data mining berfungsi untuk mengoptimalkan kinerja lembaga atau perusahaan sehingga mampu beroperasi lebih baik dan lebih siap dalam persaingan.

      Pada tutorial kali ini kita akan belajar dasar cara menjalankan proses serta menambahkan operator dalam data mining menggunakan Rapidminer Studio. Berikut adalah beberapa istilah yang akan digunakan dalam Rapidminer Studio :

1. Proses adalah unit yang dapat dieksekusi yang berisi fungsionalitas yang dimilikinya. Pengguna menciptakan proses menggunakan operator dan menggabung secara bersama dengan cara apa pun yang diperlukan. Proses biasanya terdiri dari gabungan berbagai macam operator yang saling terhubung antara yang satu dengan yang lainnya.

2. Operator adalah satu blok fungsi yang disediakan RapidMiner Studio, yang bisa diatur dalam suatu proses dan terhubung menuju proses lainnya. Setiap operator memiliki parameter yang bisa dikonfigurasi menyesuaikan persyaratan spesifik dari proses. Contoh di bawah adalah tampilan operator dari Decission Tree.

3. Repositori adalah lokasi dimana proses, data, model, dan file dapat disimpan dan dibaca, baik dari RapidMiner Studio atau dari sebuah proses.

4. Makro adalah variabel global yang dapat diatur dan digunakan oleh sebagian besar operator dengan tujuan untuk memodifikasi perilaku operator.

5. Role adalah atribut mengidentifikasikan bagaimana operator akan menggunakan atribut tersebut. Jenis standar lainnya dikenal sebagai Atribut khusus dan ini termasuk label, id, cluster, prediction, dan outlier. Role juga memungkinkan untuk mengatur peran atribut yang ada agar diabaikan oleh kebanyakan operator (misalnya karena ada pengecualian).

6. Type adalah jenis dari sebuah atribut. Type bisa berjenis nyata (real) contoh : 0.167, 0.25, bulat (integer) contoh : 349 dan 567, date_time, Nominal (baik polinominal maupun binominal), atau teks.





TOP