Efektivitas Metode Gap Statistic dan X-Means dalam  Menentukan Jumlah Cluster Optimal pada K-Means Clustering

Anirma Ginting; Andy Paul Harianja; Sardo Pardingotan Sipayung

doi:10.54367/kakifikom.v6i2.4407

Authors

Anirma Ginting Universitas Katolik Santo Thomas
Andy Paul Harianja Universitas Katolik Santo Thomas
Sardo Pardingotan Sipayung Universitas Katolik Santo Thomas

DOI:

https://doi.org/10.54367/kakifikom.v6i2.4407

Keywords:

K-Means, Cluster, Gap Statistic, X-Means, Cluster Optimal

Abstract

Penentuan jumlah cluster optimal merupakan langkah penting dalam analisis data menggunakan algoritma K-Means Clustering. Dua metode yang umum digunakan untuk tujuan ini adalah Gap Statistic dan X-Means. Penelitian ini bertujuan untuk mengeval_uasi efektivitas kedua metode dalam menentukan jumlah cluster optimal, serta menganalisis kinerja K-Means berdasarkan hasil tersebut. Studi ini menggunakan dataset Iris dan Wine untuk menguji akurasi serta efisiensi waktu kedua metode. Pada dataset Iris, Gap Statistic mengidentifikasi jumlah cluster optimal sebesar 3, sesuai dengan label asli, dengan nilai Silhouette Score 0,67 dan Davies-Bouldin Index 0,38. Sebaliknya, X-Means menghasilkan 4 cluster dengan Silhouette Score 0,64 dan Davies-Bouldin Index 0,42. Pada dataset Wine, Gap Statistic menentukan 3 cluster dengan Silhouette Score 0,56 dan Davies-Bouldin Index 0,45, sementara X-Means menghasilkan 5 cluster dengan Silhouette Score 0,52 dan Davies-Bouldin Index 0,51. Selain itu, waktu komputasi menunjukkan bahwa Gap Statistic membutuhkan waktu lebih lama dibandingkan X-Means karena proses simulasi data acak untuk setiap nilai K. Hasil penelitian menunjukkan bahwa Gap Statistic lebih akurat dalam menentukan jumlah cluster optimal yang sesuai dengan label asli, namun membutuhkan waktu komputasi yang lebih lama. Di sisi lain, X-Means lebih efisien secara waktu, meskipun memiliki kinerja clustering yang sedikit lebih rendah pada beberapa metrik eval_uasi. Studi ini memberikan wawasan bagi praktisi dalam memilih metode yang sesuai untuk kebutuhan spesifik dalam aplikasi clustering.

References

Ali, A. (2019). Klasterisasi Data Rekam Medis Pasien Menggunakan Metode K- Means Clustering di Rumah Sakit Anwar Medika Balong Bendo Sidoarjo. MATRIK : Jurnal Manajemen, Teknik Informatika Dan Rekayasa Komputer, 19(1), 186–195.

Arima, C., Hakamada, K., Okamoto, M., & Hanai, T. 2005. Validity Index for Fuzzy K-means Clustering Using the Gap Statistic Method. Sixteenth International Conference on Genome Informatics.

Davies, D. L., & Bouldin, D. W. (1979). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1(2), 224–227.

Fatmawati, K., & Windarto, A. P. (2018). Data Mining: Penerapan Rapidminer Dengan K-Means Cluster Pada Daerah Terjangkit Demam Berdarah Dengue (Dbd) Berdasarkan Provinsi (Vol. 3, Issue 2).

Jain, A. K. (2010). Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters, 31(8), 651–666. Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

Pelleg, D., & Moore, A. W. (2000). X-means: Extending K-means with Efficient Estimation of the Number of Clusters. Proceedings of the Seventeenth International Conference on Machine Learning (ICML), 727–734.

Tibshirani, R., Walther, G., & Hastie, T. (2001). Estimating the number of clusters in a data set via the Gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2)

Efektivitas Metode Gap Statistic dan X-Means dalam Menentukan Jumlah Cluster Optimal pada K-Means Clustering

Authors

DOI:

Keywords:

Abstract

References

Downloads

Published

How to Cite

Issue

Section

License

Information

Developed By

Make a Submission