Efektivitas Metode Gap Statistic dan X-Means dalam Menentukan Jumlah Cluster Optimal pada K-Means Clustering
DOI:
https://doi.org/10.54367/kakifikom.v6i2.4407Keywords:
K-Means, Cluster, Gap Statistic, X-Means, Cluster OptimalAbstract
Penentuan jumlah cluster optimal merupakan langkah penting dalam analisis data menggunakan algoritma K-Means Clustering. Dua metode yang umum digunakan untuk tujuan ini adalah Gap Statistic dan X-Means. Penelitian ini bertujuan untuk mengeval_uasi efektivitas kedua metode dalam menentukan jumlah cluster optimal, serta menganalisis kinerja K-Means berdasarkan hasil tersebut. Studi ini menggunakan dataset Iris dan Wine untuk menguji akurasi serta efisiensi waktu kedua metode. Pada dataset Iris, Gap Statistic mengidentifikasi jumlah cluster optimal sebesar 3, sesuai dengan label asli, dengan nilai Silhouette Score 0,67 dan Davies-Bouldin Index 0,38. Sebaliknya, X-Means menghasilkan 4 cluster dengan Silhouette Score 0,64 dan Davies-Bouldin Index 0,42. Pada dataset Wine, Gap Statistic menentukan 3 cluster dengan Silhouette Score 0,56 dan Davies-Bouldin Index 0,45, sementara X-Means menghasilkan 5 cluster dengan Silhouette Score 0,52 dan Davies-Bouldin Index 0,51. Selain itu, waktu komputasi menunjukkan bahwa Gap Statistic membutuhkan waktu lebih lama dibandingkan X-Means karena proses simulasi data acak untuk setiap nilai K. Hasil penelitian menunjukkan bahwa Gap Statistic lebih akurat dalam menentukan jumlah cluster optimal yang sesuai dengan label asli, namun membutuhkan waktu komputasi yang lebih lama. Di sisi lain, X-Means lebih efisien secara waktu, meskipun memiliki kinerja clustering yang sedikit lebih rendah pada beberapa metrik eval_uasi. Studi ini memberikan wawasan bagi praktisi dalam memilih metode yang sesuai untuk kebutuhan spesifik dalam aplikasi clustering.References
Ali, A. (2019). Klasterisasi Data Rekam Medis Pasien Menggunakan Metode K- Means Clustering di Rumah Sakit Anwar Medika Balong Bendo Sidoarjo. MATRIK : Jurnal Manajemen, Teknik Informatika Dan Rekayasa Komputer, 19(1), 186–195.
Arima, C., Hakamada, K., Okamoto, M., & Hanai, T. 2005. Validity Index for Fuzzy K-means Clustering Using the Gap Statistic Method. Sixteenth International Conference on Genome Informatics.
Davies, D. L., & Bouldin, D. W. (1979). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1(2), 224–227.
Fatmawati, K., & Windarto, A. P. (2018). Data Mining: Penerapan Rapidminer Dengan K-Means Cluster Pada Daerah Terjangkit Demam Berdarah Dengue (Dbd) Berdasarkan Provinsi (Vol. 3, Issue 2).
Jain, A. K. (2010). Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters, 31(8), 651–666. Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.
Pelleg, D., & Moore, A. W. (2000). X-means: Extending K-means with Efficient Estimation of the Number of Clusters. Proceedings of the Seventeenth International Conference on Machine Learning (ICML), 727–734.
Tibshirani, R., Walther, G., & Hastie, T. (2001). Estimating the number of clusters in a data set via the Gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2)
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2024 KAKIFIKOM (Kumpulan Artikel Karya Ilmiah Fakultas Ilmu Komputer)
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.