Performance Analysis of Random Forest Using Attribute Normalization

Arie Nugroho; Abdullah Husin

Journal ArticleOPEN ACCESS

Performance Analysis of Random Forest Using Attribute Normalization

Nugroho A
Husin A

SISTEMASI (2022) 11(1) 186

DOI: 10.32520/stmsi.v11i1.1681

N/ACitations

30Readers

Abstract

Abstrak Data mining dapat memproses data masa lalu menjadi pola untuk membantu aktivitas manusia pada masa berikutnya. Dalam data mining terbagi menjadi beberapa metode, yaitu klasifikasi, klustering, asosisi dan peramalan. Dalam penelitian ini, menggunakan metode klasifikasi untuk menentukan pola dari suatu dataset, sehingga dapat digunakan untuk prediksi keputusan dengan data yang baru. Dataset untuk metode klasifikasi harus mempunyai label atau class. Dataset yang mempunyai label yang jumlahnya tidak seimbang (imbalanced dataset) dapat mempengaruhi bentuk model dan hasil prediksi untuk data yang baru. Untuk mengatasi masalah tersebut, dalam penelitian ini menggunakan ensemble method dan pre-processing. Salah satu algoritma dalam ensemble learning method adalah random forest dan pre-processing yang digunakan adalah normalisasi atribut dengan mengubah data nominal menjadi numerik. Random Forest merupakan pengembangan dari decision tree yang menghasilkan pola berbentuk pohon, dimana pola ini dapat menunjukkan alur dari proses klasifikasi. Random forest akan digunakan untuk proses pembelajaran pada data setelah proses normalisasi atribut dilakukan. Tujuan penelitian ini adalah menerapkan proses normalisasi atribut dan menggunakan algoritma random forest untuk mengatasi imbalanced dataset dan mengukur akurasi. Penelitian ini menggunakan dataset publik dari UCI Repository, yaitu car evaluation. Akurasi yang dihasilkan dengan metode ini ± 99 % dengan 90 % data training dan 10 % data testing dan ± 95,95% dengan delapan k-folds cross-validation dan jumlah pohon 100 pohon. Kata kunci: random forest, normalisasi atribut, imbalanced dataset. Abstract Data mining can process previous data into a pattern to help the next human activity. Data mining is divided into several methods: classification, clustering, association, and forecasting. This study, using the classification method to determine the pattern of a dataset so that it can be used to predict decisions with new data. The dataset for the classification method must have a label or class. Datasets that have an unbalanced number of tags (imbalanced datasets) can affect the shape of the model and predictive results for new data. To overcome this problem, this research uses the ensemble method and pre-processing. One of the algorithms in the ensemble learning method is a random forest, and the pre-processing used is attribute normalization by converting nominal data to numeric. Random forest is the development of the decision tree that produces a tree-shaped pattern, showing the flow of the classification process. Random forest will be used for the learning process on the data after the attribute normalization process is carried out. This study aims to apply the attribute normalization process and use the random forest algorithm to overcome imbalanced datasets and measure accuracy. This study uses a public dataset from the UCI Repository, namely car evaluation. The accuracy of this method is ± 99% with 90% training data and 10% testing data, and ± 95.95% with eight k-folds cross-validation, and the number of trees is 100 trees.

Cite

CITATION STYLE

APA

Nugroho, A., & Husin, A. (2022). Performance Analysis of Random Forest Using Attribute Normalization. SISTEMASI, 11(1), 186. https://doi.org/10.32520/stmsi.v11i1.1681

Performance Analysis of Random Forest Using Attribute Normalization

Abstract

Cite

Register to see more suggestions