Tutorial Belajar Rapidminer (Bagian 13) - Melakukan Pivot dan Mengganti nama Atribut

Minggu, 20 Agustus 2017 15:13:30 ,Oleh ,Dilihat : 883 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M

Pivot : Mengubah  format tabel yang panjang menjadi lebar.

       Dalam tutorial ini, kita akan belajar tentang teknik pencampuran data umum lainnya, yaitu melakukan pivot pada data. Kita mungkin sudah familiar dengan konsep pivot dari perangkat BI atau Excel: mengubah data dari format tabel panjang (satu atribut dengan banyak contoh) ke dalam format tabel yang lebar (banyak atribut dengan satu contoh saja). Transformasi ini sangat berguna setelah agregasi karena informasi agregat selalu disimpan dalam format yang panjang. Model pembelajaran mesin, bagaimanapun juga memerlukan data untuk disimpan ke dalam format kolom yang luas, sehingga kita akan sering menghadapi tahap preprocessing ini, sebelum kita memulai dengan pemodelan yang sebenarnya.

Langkah 1. Mempersiapkan Data

Mari kita mulai dengan membuat tabel yang menunjukkan berapa banyak penumpang di setiap kelas, dikelompokkan menurut jenis kelamin.

 1. Tarik data Titanic ke dalam jendela Process.

2. Tambahkan operator Aggregate dan hubungkan.

3. Pada Parameters, pilih Passenger Class dan Sex sebagai group by attributes


 

4. Juga gunakan Passenger Class dengan fungsi count sebagai entri baru untuk aggregation attributes.


       Hasilnya akan berupa tabel dengan tiga kolom: Kelas Penumpang, Jenis Kelamin, dan hitungan untuk masing-masing kombinasi tersebut. Baris pertama adalah First, Female dengan jumlah 144, baris kedua adalah First, Male dengan jumlah 179 dan seterusnya. Semua kombinasi kelas penumpang dan jenis kelamin diwakili sebagai baris, karena itulah kita menyebutnya dengan format tabel panjang.

Langkah 2 . Melakukan pivot data

Mari kita ubah format tabel panjang menjadi format lebar yang akan membuat jumlah pria dan wanita di kelas masing-masing menjadi sedikit lebih jelas.

1.Cari operator Pivot, tambahkan, dan hubungkan ke Aggregate.

2.Pilih operator Pivot untuk mengatur parameternya. Gunakan Sex  sebagai grup attribute.

3. Gunakan Passenger Class sebagai index attribute.

       Kumpulan data yang dihasilkan memiliki empat kolom dan dua baris. Setiap baris mewakili salah satu nilai dari kolom Sex (parameter atribut grup). Tiga nilai atribut indeks (kelas penumpang) yang berbeda menjadi tiga kolom baru. Nilai aktual dalam tabel mewakili jumlah dari gabungan kombinasi kelompok (gender) dengan nilai indeks (atau subkelompok), yang merupakan kelas penumpang dalam kasus ini. Sebagai contoh kita  mendapatkan 144 wanita yang memesan kelas satu.

Langkah 3. Mengganti nama atribut dengan ekspresi reguler.
      Nama kolom baru mencerminkan bagaimana kolom tersebut diciptakan, tapi ini tidak selalu mudah untuk dibaca. Kita bisa menggunakan operator Rename untuk mengganti nama tiga atribut secara manual dengan sesuatu yang lebih bagus, seperti "Passenger Class First". Mengganti nama adalah sebuah cara  jika kita memiliki beberapa atribut yang harus diganti namanya, namun kita akan mengambil pendekatan yang lebih baik yang memungkinkan kita mengganti nama ratusan atribut sekaligus.
 
1. Cari operator Rename by Replacing, tambahkan dan hubungkannya ke Pivot.

2. Hubungkan operator ke port result di sebelah kanan.
3. Salin  count ((*)) ) _ (. *) menuju kolom replace what. Pastikan bahwa kita menuliskan dengan lengkap semua tanda kurung dengan benar! 

4. Salin $ 1 $ 2 ke parameter replace by.

5. Jalankan prosesnya


TOP