Tutorial Belajar Rapidminer (Bagian 10) - Membuat Model Prediksi dengan Decission Tree

Senin, 31 Juli 2017 08:56:25 ,Oleh ,Dilihat : 879 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M

      Dengan operator preprocessing yang telah kita bahas sejauh ini, kita dapat memadukan dan menyiapkan sebagian besar data set untuk membangun model prediktif. Dalam tutorial ini, kita akan menggunakan salah satu metode pembelajaran mesin yang paling banyak digunakan, yaitu Decision Tree, untuk memprediksi siapa yang akan bertahan dalam kecelakaan Titanic. Tentu saja kapal Titanic sudah tenggelam, jadi tidak ada yang dapat kita lakukan untuk menyelamatkan penumpangnya, namun kita tetap dapat menggunakan model ini untuk situasi yang sama dan membuat prediksi saat itu. Jadi perlukah kita membeli tiket kelas tiga saat bepergian dengan keluarga? Model akan menunjukkannya!

Langkah 1. Mengambil data Titanic.

 1. Seret data Titanic ke dalam jendela process.

2. Tambahkan Set Role, hubungkan, dan konfigurasikan seperti yang sudah kita lakukan pada tutorial sebelumnya. 

Ubah opsi attribut name menjadi Survived 

Ubah opsi target role menjadi label.


Ingatlah bahwa atribut dengan target role, label adalah yang ingin kita prediksi. Penting untuk mengatur label, karena apda metode pembelajaran mesin, seperti algoritma decision tree, menggunakan data yang ada dengan nilai label yang diketahui (data set pelatihan) untuk menemukan pola tersembunyi. Decision tree kemudian menciptakan prediksi dari pola tersebut dan menerapkannya ke data baru tanpa label yang dikenal (data set pengujian).

Langkah 2. Menghapus atribut yang tidak diperlukan.

Tambahkan operator  Select Atribut ke proses dan hubungkan.

Atur  atribut filter type ke subset

klik Select Atributes.

Dalam dialog yang dihasilkan, pilih Survived, Sex, Passenger Class, Passenger Fare, dan No of ... parents, children, siblings, and spouses.

       Kita menghilangkan (tidak memilih) Life Boat karena penumpang yang naik pada Life Boat adalah orang yang kemungkinannya selamat. Menambahkan informasi Life Boat akan menyebabkan model praktis hanya bergantung pada informasi ini. Jadi pertanyaan yang tepat adalah : siapa yang berhasil naik Life Boat? Nama dan nomor tiket adalah jenis ID yang berbeda, jadi kita juga akan membuangnya.

Langkah 3. Membangun model pohon keputusan.

 Seret pada operator Decision Tree, hubungkan inputnya, dan hubungkan port output "mod" ke port "res".

        Perhatikan bahwa koneksi data berwarna biru sedangkan koneksi modelnya berwarna hijau. Ini membantu untuk menemukan dan memverifikasi port koneksi yang benar dengan mudah.

Jalankan prosesnya.

Periksa hasil prediksi yang dihasilkan oleh model pohon keputusan.

       Hal yang menarik untuk dilihat bahwa bagi penumpang wanita, serta besar kecilnya ukuran keluarga memegang peranan lebih penting dibandingkan faktor kelas penumpang. Pola perilaku ini tidak bisa dideteksi untuk penumpang pria. Secara umum, pria memiliki kemungkinan lebih rendah untuk bertahan hidup ("wanita dan anak-anak lebih diutamakan!").


TOP