Tutorial Belajar Rapidminer (Bagian 19) - Pengujian Terpisah dan Validasi

Senin, 02 Oktober 2017 14:57:06 ,Oleh ,Dilihat : 123 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M     

       Salah satu pertanyaan terpenting yang harus kitaa tanyakan setelah membangun model prediktif adalah "Seberapa baik model ini akan bekerja"? Bagaimana kita bisa tahu apakah model kita akan berjalan dengan baik di masa depan untuk skenario yang mungkin belum pernah kita hadapi sebelumnya? Cara untuk melakukan ini dengan benar selalu sama: tahan beberapa data berlabel milik kita dan jangan menggunakannya untuk pembuatan model. Karena data ini masih diberi label, kini  kita bisa membandingkan prediksi dengan hasil aktual dan menghitung seberapa sering model itu bias tepat untuk kasus ini. Tutorial ini akan menunjukkan bagaimana kita bisa melakukan validasi semacam ini.

        Beberapa orang menyarankan agar kita juga dapat menghitung seberapa sering kita benar dalam data pelatihan, namun kami berpikir bahwa menggunakan kesalahan pelatihan ini adalah ide yang mengerikan. Jika kita melakukan ini, kita akan berakhir dengan model yang hanya menghafal data dan tidak belajar bagaimana menggeneralisasi temuan mereka ke kasus baru. Berapakah nilai model yang 100% benar pada data pelatihan kita namun gagal pada data baru?

Langkah 1. Memisahkan data berlabel menjadi dua partisi.

1. Seret data Titanic Training dari sampel repository ke dalam proses Anda.

 2. Tambahkan operator Split Data ke proses dan hubungkan.

 

3. Pada Parameters nya, cari partition dan klik Edit Enumeration.

 

4. Klik Add Entry dua kali. Ketik 0.7 ke dalam kotak teks baris pertama dan 0.3 ke teks baris kedua.

       Split Data mengambil data set dan membaginya menjadi partisi yang telah kita definisikan. Dalam kasus ini, kita akan mendapatkan dua partisi dengan 70% data dalam satu dan 30% data di sisi lain. Kedua perangkat masih diberi label. Partisi 70% akan menjadi set pelatihan kita, kita akan membangun model . Sisanya 30% akan menjadi pengujian kita untuk membandingkan prediksi model yang sudah dibuat. Rasio 70/30 antara pelatihan dan pengujian ini sebenarnya cukup populer dan efektif nilainya.

Langkah 2. Melatih dan menerapkan model.

1. Tambahkan Naive Bayes ke proses dan hubungkan ke port output pertama dari Split Data

2. Tambahkan Apply Model ke proses. 


 3. Hubungkan port model hijau dari Naive Bayes dengan masukan mod Apply Model.

4. Selain itu, hubungkan port output kedua dari Data Split ke contoh set input "unl" dari Apply Model.

       Jika kita akan menjalankan prosesnya sekarang, kita akan mendapatkan hasil yang serupa dengan yang ada dalam tutorial tentang penilaian. Data uji 30% akan memiliki kolom tambahan untuk prediksi Survival bersama dengan kolom kepercayaan untuk dua kelas yang mungkin "iya" dan "tidak". Tetapi dalam kasus ini, data uji juga dilengkapi dengan kolom label yang berisi nilai sebenarnya, yang dapat kita gunakan untuk menghitung keakuratan model kita, hanya dengan membandingkan label dan prediksi.

Langkah 3. Menghitung keakuratan model.

1. Tambahkan operator Performance ke prosesnya. 

2. Hubungkan port input "lab" dengan keluaran "lab" dari Apply Model.

3. Hubungkan kedua port output Performance dengan hasil port di sebelah kanan.

4. Jalankan proses dan periksa hasilnya. 

       

       Hasil pertama yang kita lihat adalah data pengujian dengan label dan prediksi. Hasil kedua adalah kinerja model pada data pengujian. Kita dapat memilih pengukuran kinerja yang berbeda ("criterion") di sisi kiri layar. Keakuratannya adalah 77,82% dan memberi tahu seberapa akurat keseluruhan modelnya. Confussion Matrix menunjukkan berbagai jenis kesalahan. Misalnya, 30 kasus telah diprediksi "tidak" padahal sebenarnya "ya". Akurasi (accuracy)adalah jumlah semua angka pada diagonal dibagi dengan jumlah semua angka! Semakin besar angka diagonal, semakin baik performa model kita.


TOP