Tutorial Belajar Rapidminer (Bagian 7) - Menggabung dan Mengelompokkan Data

Minggu, 02 Juli 2017 16:04:07 ,Oleh ,Dilihat : 1.608 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M.

       Kita akan  berhenti sejenak dari topic Titanic dan mempelajari tentang beberapa tugas lain yang sering digunakan dalam persiapan data, khususnya penggabungan dan pengelompokkan data bersama-sama. Kita akan menangani dua kumpulan data: satu berisi produk yang dijual oleh organisasi dan satu dengan transaksi (informasi tentang pelanggan mana yang membeli produk itu). Setelah menggabungkan rangkaian ini, kita dapat menjawab pertanyaan tentang produk yang paling sering dibeli atau siapa pelanggan kita yang paling setia.

Berikut Langkah cara menggabungkan dan mengelompokkan data :

1. Perluas Sampel repositori di panel Repositori. Selanjutnya, buka folder data dalam contoh repositori untuk mengambil data Produk dan Transaksi.

2. Seret data Products dan data Transactions dari folder Samples - Data ke dalam panel Proses

3. Cari operator Join di kotak pencarian di bagian atas panel Operator. Seret operator Join menuju panel Proses.

4. Sambungkan port output dari Retrieve Products ke port input Join (tidak masalah yang mana).

5. Hubungkan Retrieve Transactions ke port input Join lainnya.

6. Klik Join untuk memilihnya. Pada panel Parameters, hilangkan tanda centang pada opsi use id attribute as key. Bidang atribut utama muncul.


7. Klik Edit List. Pilih Product ID untuk left dan right key attributes. Kemudian, klik Apply. Hasil operasi Join akan membentuk tabel yang menunjukkan setiap transaksi dan rincian produknya. Dua kolom ID yang kita definisikan sebagai atribut utama untuk join menentukan pemetaan antara baris dari dua tabel asli.


 8. Seret operator Agregat ke dalam proses. Hubungkan ke output dari Join.



 9. Klik Agregat untuk memilih. Buat perubahan berikut pada panel Parameter:


10. Klik pada group by attributes. Klik select Attributs 

11. Kemudian, pilih Product ID dengan memindahkannya ke kanan. Klik Apply.


 12. Klik aggregation attributes, kemudian klik Edit list 


 13. Pilih Customer ID di kotak kiri dan atur fungsi count untuk menghitung di kotak kanan.

 14. Masih di kotak dialog ini dan tambahkan entri lain Product Name dengan mengatur fungsi ke mode. Klik Apply

 15. Jalankan dengan mengklik tombol process

       Agregat melakukan "group-by-function" yang mungkin kita ketahui dari database. Di samping menggabungkan dan menyaring, fungsi agregat adalah salah satu operator yang paling penting untuk pencampuran data. Dalam kasus ini, agregat mengelompokkan data berdasarkan produk, menghitung jumlah pembelian untuk setiap produk, dan menggunakan nama produk untuk mendeskripsikan produk ini. Hasilnya adalah tabel semua produk dengan atribut berikut: ID produk, nama produk, dan jumlah pelanggan yang telah membeli produk.


 


TOP