Pembuatan Decision Tree Dengan
Menggunakan Algoritma C4.5
Pada tabel di atas menunukan 14 instance yang tersimpan dalam database dengan 5 attribut yaitu (outlook, temperature, humidity, wind, play). Setiap instance pada tabel tersebut menggambarkan kondisi dari cuacah pada suatu hari dan aksi yang dilakukan orang yang akan bermain tennis (bermain atau tidak bermain tennis).
Untuk mendapatkan root element kita harus menghitung instance yaitu pertama instance dengan value Yes dan No pada attribute Play lalu Entropy dari semua instance yang dibagi berdasarkan attribute OUTLOOK, TEMPERATURE, HUMIDITY, dan WINDY.
Jika kita menganalisa tabel di atas berdasarkan value di attribute play maka yang dipilih yaitu outlook karna memiliki ketidakpastian terbesar. Karna untuk mendapatkan root element yang harus memiliki entrophy terbesar.
Setelah itu melakukan perhitungan pada setiap pasangan kombinasi yang mungkin terjadi.
Entrophy(s) adalah entrophy of classificatory dari Play yang dimana ada 14 instance dalam dataset yang ada 10x (10+) keputusan yes untuk play tennis dan 4x (4-) keputusan untuk not to play tennis.
Dari hasil yang telah dihitung maka dapat diketahui atribut
dengan gain tertinggi adalah humidity yaitu sebesar 0,37 sehingga humidity
dapat menjadi root element dan ada dua nilai atribut dari humidity yaitu high
dan normal. Pada atribut humidity terdapat 2 value yaitu high dan normal, dari
kedua value tersebut pada value normal sudah mengklasifikasi kasus menjadi 1
yaitu keputusan Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut tetapi
pada value high masih perlu di dilakukan perhitungan lagi.
Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes,
jumlah kasus untuk keputusan No. Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY, yang dapat menjadi node
akar dari nilai atribut HIGH. Setelah itu lakukan perhitungan Gain, untuk masing
– masing attribute.
Hasil perhitungan node 1.1, attribut dengan Gain
tertinggi adalah OUTLOOK yaitu sebesar 0.6995. Sehingga OUTLOOK dapat menjadi
node cabang dari nilai atribut HIGH.
Ada tiga nilai dari atribut OUTLOOK yaitu
CLOUDY, RAINY dan SUNNY.
·
CLOUDY =
klasifikasi kasus 1 (Yes).
·
SUNNY
= klasifikasi kasus 1 (No).
·
RAINY =
masih perlu perhitungan lagi.
Atribut dengan Gain tertinggi adalah WINDY yaitu sebesar 1 Sehingga
WINDY dapat menjadi node cabang dari nilai atribut RAINY.
Ada dua
nilai dari atribut WINDY, yaitu FALSE dan TRUE.
·
Nilai atribut FALSE sudah
mengklasifikasikan kasus menjadi 1 (Yes).
·
Nilai atribut TRUE sudah
mengklasifikasikan kasus menjadi 1 (No).
·
Sehingga tidak perlu dilakukan
perhitungan lagi.
Pembuatan
Decision Tree Pada Weka
Weka adalah software pengolah data mining yang menyediakan
tool untuk membuat decision tree. hal ini tentu akan memudahkan kita membuat
decision tree dengan menggunakan Weka dibandingkan membuat decision tree secara
manual yaitu dengan melakukan perhitungan menggunakan algoritma C4.5 yang telah
kita lakukan pada perhitungan manual sebelumnya.
Pertama kita memasukan record dataset tabel tennis seperti
pada sebelumnya dalam format arff karna Weka menyimpan records dalam format
arff. Pada tabel dataset Tennis jika dituliskan dalam format arff maka akan
menjadi seperti ini :
Kedua,
kita simpan file dalam format arff lalu kita buka Weka dan pilih Explorer pada
saat di Weka GUI Chooser maka setelah itu akan muncul windows baru dengan nama
Weka Explorer nanti pada tab Preproses kita klik open untuk mengimport file
record data tennis ke weka maka akan terlihat seperti gambar dibawah ini :
Ketiga ,
kita ceklis attribut yang akan kita klasifikasikan jika pada file data tennis
terdapat 5 attribut maka kita akan pakai semuanya. Jika sudah maka pergi ke tab
Classify lalu pada classifier kita akan memilih algoritma yang akan kita
gunakan, untuk kali ini kita gunakan algoritma untuk decision tree yaitu J48
seperti terlihat pada gambar dibawah.
Keempat,
setelah kita memilih algoritmanya yaitu kita pilih pada Use training set pada
Test Option untuk menggunakan dataset yang ada pada tabel tennis, lalu setelah
itu kita bisa mengklik tombol Start untuk memulainya makan akan muncul di run
information yang berisi keterangan klasifikasi yang telah dilakukan dan juga
pada result list muncul keterangan hasilnya, disini pada result list kita klik
kanan lalu pilih visualize tree untuk dapat melihat hasil nya dalam berupa
decision tree atau pohon keputusan.
Seperti
yang kita lihat bahwa Attribut humidity yang mempunyai information gain
terbesar dan menjadi root element sesuai dengan perhitungan manual yang kita
lakukan sebelumnya.