Tutorial Belajar Rapidminer (Bagian 5) - Mengimpor Data ke Dalam RapidMiner.

Minggu, 04 Juni 2017 18:49:12 ,Oleh ,Dilihat : 83 x

Diasuh oleh Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M.
       Mengimpor data Anda ke dalam RapidMiner seringkali merupakan tugas pertama yang harus kita lakukan dalam rangka proses menyelesaikan analisis. Dalam tutorial ini, kita akan belajar cara mengimpor file ke dalam penyimpanan pusat RapidMiner, yang disebut Repository. Panel Repositori, secara baku terletak pada sudut kiri atas, di mana merupakan tempat menyimpan semua data, proses, dan hasil. Kita harus selalu mengimpor data ke dalam repositori, terutama bila berasal dari file jenis excell seperti XLS atau CSV. Repositori akan menyederhanakan desain proses analisis pada RapidMiner yang menggambarkan metadata beserta datanya. Sebagai contoh kita akan  menggunakan data yang menggambarkan kecelakaan Titanic. Pada tutorial ini, file yang akan diimpor merupakan jenis dari format Excel.

Berikut langkah mengimpor data ke dalam rapidminer :

1. Unduh contoh file data Titanic dari tautan berikut :
https://s3.amazonaws.com/static.rapidminer.com/demo/titanic/Titanic+Data.xls
Kemudian simpan.
2. Untuk mengimpor data yang diunduh ke RapidMiner, klik Add Data pada panel Repositori dan pilih My Computer

3. Arahkan ke letak file Titanic+Data.xls berada, pilih file  Titanic+Data.xls kemudian klik Next.


4. Klik Next beberapa kali  sampai muncul jendela Where to store the data. Saat Anda melengkapi impor, simpan data sebagai Titanic di Repositori Lokal Anda. Beri nama Titanic kemudian tekan tombol Finish.

5. Akan ditampilkan kolom dan baris hasil impor dataset Titanic yang berhasil ditambahkan pada repositori lokal. Tekan tombol Design untuk menampilkan jendela panel Process.

6. Arahkan panel Repository (1), pilih Local Repository (2), pilih Titanic (3), kemudian drag and drop ke panel Process (4).

7. Hubungkan port out ("output") dari Retrieve Titanic dengan port hasil/results ("res") pada panel Process.


8. Tekan tombol Run pada toolbar untuk menjalankan proses


9. Sekarang kita dapat melihat hasil tampilan dari data yang berhasil ditambahkan ke repositori lokal. Pada baris ke 16 kita bisa melihat terdapat data yang hilang, yaitu diwakili dengan isian berupa ? (tanda tanya).


10. Untuk mencari data yang hilang (tidak lengkap) pada kolom Age (umur), klik kolom Age sampai muncul deretan tanda tanya


Kolom yang lain yang dapat kita coba (berisi data yang hilang/tidak lengkap) adalah kolom Cabin dan Life Boat


11. Tab Statistik (1) menampilkan ringkasan data pada setiap kolom. Sebagai contoh pertanyaan yang pertama : berapa banyak orang yang melakukan perjalanan di kelas satu? Jawabannya adalah 323 orang. Cara mendapatkan jawabannya : klik pada tanda panah Passenger Class (2), akan didapatkan informasi penumpang kelas 1 pada values First (323).


Sebagai contoh pertanyaan yang kedua : berapa banyak orang yang tidak selamat dari kecelakaan Titanic? Jawabannya adalah 809 orang. Cara mendapatkan jawabannya : klik pada tanda panah Survived , akan didapatkan informasi penumpang selamat (Survived)  pada values Yes sebanyak 500 penumpang,  serta yang tidak selamat pada value No sebanyak 809 penumpang. Klik tombol Details untuk melihat lebih rinci.


12. Pada tab Charts, dapat digambarkan hubungan antara umur (pada sumbu X) serta jumlah anggota keluarga (pada sumbu Y) di mana penumpang dengan umur muda serta jumlah anggota keluarga yang sedikit memiliki tingkat peluang selamat jauh lebih tinggi dibanding dengan yang memiliki anggota keluarga lebih banyak.







TOP