Tutorial Belajar Rapidminer (Bagian 18) - Membuat Scoring

Senin, 25 September 2017 14:57:40 ,Oleh ,Dilihat : 293 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M

       Pada tutorial sebelumnya menunjukkan bagaimana pemodelan prediktif dapat mengungkapkan kepada kita wawasan tentang data. Kita mungkin tidak dapat melihat efek jenis kelamin atau ukuran keluarga terhadap kelangsungan hidup hanya dengan melihat data saja. Pada tutorial yang  sekarang ini akan ditunjukkan bagaimana kita dapat menggunakan wawasan ini untuk memprediksi hasil di masa depan. Lebih khusus lagi, kita akan menggunakan metode Naïve Bayes untuk memprediksi kelas "Survived" (ya / tidak) dari setiap penumpang dan menemukan kecenderungan masing-masing. Penggunakan model untuk menghasilkan prediksi untuk titik data baru disebut Scoring.

Langkah 1 . Melakukan pelatihan model.

 1. Seret data Pelatihan Titanic (Titanic Training) dari Sampel repositori ke dalam proses Anda.

 2. Tambahkan operator Naive Bayes dan hubungkan.

 

       Sejauh ini, proses  hanya membangun model Naïve Bayes, seperti yang telah kita lihat sebelumnya. Selanjutnya, kita perlu menggunakan operator bernama Apply Model yang akan membuat prediksi untuk dataset baru dan tidak berlabel.

Langkah 2. Menererapkan Model.

 1. Cari operator Apply Model dan seret ke dalam proses.

2. Seret data Titanic Unlabeled dari Sampel  repository ke dalam proses Anda.


 3. Hubungkan port output "mod" (hijau) dari Naive Bayes ke port input hijau Apply Model.

4. Juga, sambungkan data yang tidak diberi label dengan input "unl" input (biru) dari Apply Model .

5. Akhirnya, hubungkan dataset biru dari Apply Model dengan port hasil "res" di sisi kanan panel Proses. 


       Kita mungkin bertanya-tanya apa arti port "unl" dan "lab" pada operator Apply  Model. Operator "unl" mengambil data yang tidak berlabel sebagai masukan, menerapkan model yang  kitaa gunakan ke port "mod", dan mengeluarkan dataset dengan label : prediksi yang dibuat oleh model. 

Langkah 3. Jalankan prosesnya.

Periksa hasilnya. 


       Hasilnya adalah data asli yang tidak berlabel dengan kolom untuk kelas yang diprediksi (ya / tidak) dari "Survived" dan dua kolom tambahan untuk kepercayaan dari dua kelas yang berbeda (ya / tidak) dari "Survived". Sebagai contoh, baris pertama dari data prediksi adalah "ya" dengan kepercayaan 98,7% dan "tidak" dengan kepercayaan 1,3%.

       Scoring data dengan model prediktif adalah tugas sederhana dengan operator Apply Model. Ingatlah untuk memastikan bahwa format data yang tidak berlabel sama dengan format data yang digunakan untuk pelatihan. Gunakan atribut yang sama, dan jika mungkin, rentang nilai yang sama. Sementara beberapa model cukup berhasil untuk menangani perubahan data yang signifikan, beberapa model lainnya mungkin akan gagal.

TOP