Tutorial Belajar Rapidminer (Bagian 20) - Validasi Silang

Senin, 09 Oktober 2017 15:53:15 ,Oleh ,Dilihat : 91 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M     

       Pada tutorial terakhir, kita melihat betapa mudahnya membuat estimasi untuk keakuratan model dengan membagi data yang ada menjadi data pelatihan dan pengujian. Tapi bagaimana jika data pelatihan dan pengujian memiliki perbedaan signifikan di antara keduanya? Tutorial ini memperkenalkan teknik yang disebut Cross Validation untuk memastikan setiap titik data digunakan sesering mungkin untuk pelatihan dari pada untuk pengujian, guna menghindari masalah ini.

       Validasi silang dilakukan dengan membagi contoh yang ditetapkan ke dalam bagian yang sama dan berputar melalui semua bagian, selalu menggunakan satu untuk pengujian dan yang lainnya untuk melatih model. Pada akhirnya, rata-rata semua akurasi pengujian disampaikan sebagai hasilnya. Ini merupakan cara yang bagus untuk menghitung keakuratan model dan harus menjadi pendekatan estimasi standar kita bila ada upaya penghitungan tambahan yang layak dilakukan.

Langkah 1. Mengambil data dan memasukkannya ke dalam validasi.

1. Seret data Titanic Training ke dalam proses .

2. Tambahkan operator Cross Validation ke proses dan hubungkan.

 

     Validasi silang (Cross Vadidation) adalah nama operator yang melakukan validasi silang dan perlu seperangkat contoh masukan yang berlabel. Secara default, Validasi silang membagi data menjadi 10 bagian yang berbeda, jadi kita menyebutnya validasi silang 10 kali lipat. Tentu saja Anda dapat mengubah jumlah lipatan di panel Parameter.

Langkah 2. Melatih dan menerapkan model.

       Perhatikan ikon kecil di pojok kanan bawah Cross Validation. Ingat bahwa operator ini dapat memiliki operator lain yang bersarang di dalamnya. Sebenarnya, Cross Validation memiliki dua sub proses, satu untuk melatih model dan satu untuk mengujinya. Klik dua kali pada operator untuk melihat sub-prosesnya.

 1. Klik dua kali operator Cross  Validation. Panel Proses sekarang menunjukkan dua sub-proses bernama Training and Testing.

 2. Tambahkan Decision Tree (Pohon Keputusan) ke sub-proses Training.


3. Sambungkan dengan port yang mengantarkan data pelatihan di sebelah kiri dan keluaran model di sebelah kanan.

4. Tambahkan Aply  Model ke sub-proses Testing.


5. Hubungkan model dan data pengujian dari kiri ke  Apply Model.

 6. Juga tambahkan Performance  ke Testing.


7. Hubungkan output dari Apply Model  dengan Performance dan keluaran Performance dengan port rata-rata pertama "per" di sebelah kanan "per".


       Setiap performance (kinerja)  yang dikirimkan pada port "per" di sebelah kanan akan dirata-ratakan bersama-sama dan dikirim ke port output "per" dari operator Cross Validation . Juga, perhatikan bahwa kita dapat sepenuhnya mengendalikan apa yang terjadi di dalam cross validation. Hal ini memungkinkan kita untuk memperhitungkan efek preprocessing seperti normalisasi atau pemilihan fitur, yang dapat memiliki dampak signifikan pada kinerja model. 

Langkah 3. Sambungkan ke port hasil dan jalankan proses.

 1. Kembali ke proses utama dengan mengklik di sudut kiri atas panel Proses atau dengan mengklik link yang disebut "Process".


 2. Hubungkan model hijau dan port kinerja rata-rata kuning ke port hasil di sebelah kanan. 

 

3. Jalankan proses dan periksa hasilnya.

       Perhatikan bahwa keakuratannya sekarang memiliki nomor tambahan (setelah tanda "+/-") menunjukkan standar deviasi pertunjukan dari validasi silang kami. Standar deviasi memberi kita gambaran tentang seberapa kuat modelnya: semakin kecil standar deviasi, semakin rendah tingkat ketergantungan kinerja model pada kumpulan data uji.


       Model yang dikembalikan adalah model yang dilatih pada kumpulan data yang lengkap, dan bukan salah satu model dari dalam validasi silang. Kita memberikan ini agar nyaman, namun perlu diingat bahwa validasi silang hanya tentang memperkirakan keakuratan model, bukan tentang membangun model yang terbaik. 


TOP