Tutorial Belajar Rapidminer (Bagian 12) - Melakukan Normalisasi dan Deteksi Outlier

Senin, 14 Agustus 2017 12:55:29 ,Oleh ,Dilihat : 890 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M

       Langkah penting lain pada pembersihan data adalah untuk mengidentifikasi kasus yang tidak biasa dan menghapusnya dari dataset. Dalam beberapa situasi, outlier sendiri mungkin merupakan kasus yang paling menarik (misalnya mendeteksi penyimpangan transaksi kartu kredit), namun dalam kebanyakan kasus, outlier hanyalah hasil dari pengukuran yang salah dan harus dibuang dari dataset. Inilah yang akan kita bahas dalam tutorial ini.

Langkah 1 : menyiapkan data. 

1. Tarik data Titanic ke dalam proses.

2. Menambahkan operator Select Attributes dan hubungkan.

2. Ubah Parameters sehingga Kita membuang Cabin, Life Boat, Name, dan Ticket Number.


 

       Hasilnya akan menjadi kumpulan data yang hanya berisi kolom yang kita percaya akan berkontribusi baik terhadap deteksi outlier. Kita akan menggunakan algoritma deteksi outlier berbasis jarak jauh yang menghitung jarak Euclidean antara titik data dan menandai titik-titik yang paling jauh dari titik data lainnya sebagai outlier. Jarak Euclidean menggunakan jarak antara dua titik data untuk masing-masing atribut.

       Apa efeknya pada jarak jika atribut memiliki rentang nilai yang berbeda (satu atribut antara 0 dan 5 dan atribut lainnya antara 1 dan 1000)? Atribut dengan nilai lebih besar akan memberi kontribusi lebih banyak daripada nilai yang lebih kecil. Untuk alasan ini, kita harus memastikan bahwa semua atribut menggunakan rentang nilai yang serupa. Transformasi ini disebut Normalisasi.

Langkah 2. Menormalisasi rentang nilai atribut.
Tambahkan operator Normalize dan hubungkan.

       Secara umum, kita harus selalu menormalkan data sebelum menerapkan algoritma berbasis jarak  seperti deteksi outlier atau k-Means clustering. Dengan menggunakan parameter default, operator Normalize akan melakukan Transformasi z (juga dikenal sebagai Standardisasi) yang menghasilkan nilai rata-rata 0 dan deviasi standar 1 untuk setiap atribut. Dengan kata lain, semua atribut berada pada skala yang sama setelah normalisasi dan dapat dibandingkan satu sama lain.

Langkah 3 . Menormalisasi rentang nilai atribut.
Tambahkan operator Normalize dan hubungkan.

       Secara umum, kita harus selalu menormalkan data sebelum menerapkan algoritma berbasis jarak  seperti deteksi outlier atau k-Means clustering. Dengan menggunakan parameter default, operator Normalize akan melakukan Transformasi z (juga dikenal sebagai Standardisasi) yang menghasilkan nilai rata-rata 0 dan deviasi standar 1 untuk setiap atribut. Dengan kata lain, semua atribut berada pada skala yang sama setelah normalisasi dan dapat dibandingkan satu sama lain.

Langkah 4. Menghapus outlier dari contoh.
1. Tambahkan Filter Examples ke proses dan hubungkan ke operator sebelumnya dan juga ke port hasil di sebelah kanan.
2. Di Parameternya, tambahkan filter baru dengan Outlier, equal, dan false sebagai nilai.



3. Jalankan prosesnya.
 
       Prosesnya mungkin berjalan beberapa lama tapi akan beralih ke tampilan Results secara otomatis saat selesai. Kita akan melihat bahwa hasilnya adalah kumpulan data dengan 1.299 contoh serta 10 outlier yang telah berhasil dihapus.


TOP