Tutorial Belajar Rapidminer (Bagian 11) - Mengatasi Atribut yang Hilang

Senin, 07 Agustus 2017 15:16:54 ,Oleh ,Dilihat : 2.356 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M

       Dalam melakukan kegiatan analis, data preprocessing kemungkinan akan menghabiskan sebagian besar waktu kita.  Ada dua kelompok umum dalam penanganan data: pencampuran dan pembersihan. Pada tutorial berikut ini selanjutnya akan dibahas beberapa operasi terpenting untuk pembersihan data. 

       Pencampuran adalah mengubah kumpulan data dari satu keadaan menuju keadaan  lain atau menggabungkan beberapa kumpulan data. Pembersihan adalah segala kegiatan tentang memperbaiki data, sehingga pemodelan akan memberikan hasil yang lebih baik. Kita kembali melihat data Titanic lagi. Kita masih ingat sebelumnya bahwa data Titanic berisi beberapa nilai yang hilang, yang digambarkan dalam bentuk  tanda tanya pada tampilan data. Anda juga dapat melihat jumlah nilai yang hilang untuk setiap atribut dalam tampilan Statistik. Nilai yang hilang merupakan masalah bagi banyak pemrosesan preprocessing atau pemodelan data. Tutorial ini akan menunjukkan kepada kita tentang pendekatan yang paling umum untuk menghapus atau mengganti nilai yang hilang. Berikut langkahnya :

Langkah 1 : Mempersiapkan data.

 1. Tarik data Titanic ke dalam proses.

2. Arahkan kursor mouse ke port out dan tunggu sampai tooltip menampilkan data meta.


3. Tekan F3 saat tooltip ditampilkan. Sekarang berubah menjadi jendela dan Anda dapat menggulir ke bawah untuk melihat informasi tentang semua kolom. Periksa kolom dengan nilai yang hilang.

 

Ada lima atribut dengan nilai yang hilang: Age, Passenger Fare, Cabin, Port of Embarkation, dan Life Boat. Cabin dan Life Boat memiliki nilai yang paling hilang


Langkah 2. Hapus atribut yang terlalu banyak hilang.

 1. Tambahkan operator baru Select Attributes.

2. Sambungkan operator baru ke operator Retrieve dan output ke port hasil "res" di sebelah kanan.


3. Di Parameters, ubah tipe filter atribut menjadi Subset dan pilih semua atribut terkecuali  Cabin dan Life Boat. Ini berarti keduanya akan dilepas oleh operator.


4.  Jalankan prosesnya. Klik pada tab Statistik dan periksa atribut mana dengan nilai yang hilang yang tersisa. 


        Kita menghapus Cabin karena hampir semua nilai di kolom ini hilang dan nilai yang tersisa mungkin tidak mengandung banyak informasi bermanfaat. Kita menghilangkan Life boat dengan alasan yang sama dan karena atribut ini sangat berkorelasi dengan label. Atribut Umur juga memiliki sejumlah nilai hilang yang signifikan, namun kita akan menangani hal ini dengan menggunakan metode yang berbeda pada tutorial berikutnya.

Langkah 3 Mengganti nilai yang hilang

1. Cari operator Replace Missing Values dan menambahkannya ke proses. Kita  dapat menjatuhkannya pada jalur koneksi antara Select Attributes dan port res (gerakkan pointer mouse sampai sambungan di highlight (sorot) sebelum kita menambahkan operator baru). Dengan cara ini kita tidak perlu secara manual menghubungkan kembali operator.


2. Pada Parameter dari operator ini, gunakan satu untuk jenis filter atribut dan pilih Age for attribute.



3. Jalankan prosesnya lagi.


       Anda akan melihat di tab Statistik bahwa hanya beberapa sampel dengan nilai yang hilang yang tersisa. Ketika kita menjalankan proses ini, nilai pada atribut Age yang hilang telah diganti dengan nilai rata-rata  dari Age. Cara ini adalah teknik umum untuk menangani banyak nilai yang hilang pada sebuah atribut. Karena hanya ada sedikit nilai yang hilang, kita dapat menyaring sampel ini dengan aman dari dataset.

Langkah 4 .Menghapus sampel dengan nilai yang hilang.

       Kita telah menggunakan operator Filter Example sebelumnya, tapi kali ini kita akan menggunakan beberapa pengaturan lanjutan untuk menghapus sampel di mana memiliki nilai atribut yang hilang.

1. Cari Filter Example dan drop  pada jalur koneksi ke port result. Atau kita bisa menghubungkan operator secara manual.


2. Perhatikan link di bagian bawah panel Parameter yang menunjukkan / menyembunyikan parameter lanjutan. Klik pada Show advanced parameters untuk menampilkan semua parameter operator. 


2. Parameter baru akan muncul. Atur kondisi class ke no_missing_attributes.

 3. Jalankan prosesnya lagi.



TOP