Efektivitas Metode Gap Statistic dan X-Means dalam Menentukan Jumlah Cluster Optimal pada K-Means Clustering

Authors

  • Anirma Ginting Universitas Katolik Santo Thomas
  • Andy Paul Harianja Universitas Katolik Santo Thomas
  • Sardo Pardingotan Sipayung Universitas Katolik Santo Thomas

DOI:

https://doi.org/10.54367/kakifikom.v6i2.4407

Keywords:

K-Means, Cluster, Gap Statistic, X-Means, Cluster Optimal

Abstract

Penentuan jumlah cluster optimal merupakan langkah penting dalam analisis data menggunakan algoritma K-Means Clustering. Dua metode yang umum digunakan untuk tujuan ini adalah Gap Statistic dan X-Means. Penelitian ini bertujuan untuk mengeval_uasi efektivitas kedua metode dalam menentukan jumlah cluster optimal, serta menganalisis kinerja K-Means berdasarkan hasil tersebut. Studi ini menggunakan dataset Iris dan Wine untuk menguji akurasi serta efisiensi waktu kedua metode. Pada dataset Iris, Gap Statistic mengidentifikasi jumlah cluster optimal sebesar 3, sesuai dengan label asli, dengan nilai Silhouette Score 0,67 dan Davies-Bouldin Index 0,38. Sebaliknya, X-Means menghasilkan 4 cluster dengan Silhouette Score 0,64 dan Davies-Bouldin Index 0,42. Pada dataset Wine, Gap Statistic menentukan 3 cluster dengan Silhouette Score 0,56 dan Davies-Bouldin Index 0,45, sementara X-Means menghasilkan 5 cluster dengan Silhouette Score 0,52 dan Davies-Bouldin Index 0,51. Selain itu, waktu komputasi menunjukkan bahwa Gap Statistic membutuhkan waktu lebih lama dibandingkan X-Means karena proses simulasi data acak untuk setiap nilai K. Hasil penelitian menunjukkan bahwa Gap Statistic lebih akurat dalam menentukan jumlah cluster optimal yang sesuai dengan label asli, namun membutuhkan waktu komputasi yang lebih lama. Di sisi lain, X-Means lebih efisien secara waktu, meskipun memiliki kinerja clustering yang sedikit lebih rendah pada beberapa metrik eval_uasi. Studi ini memberikan wawasan bagi praktisi dalam memilih metode yang sesuai untuk kebutuhan spesifik dalam aplikasi clustering.

References

Ali, A. (2019). Klasterisasi Data Rekam Medis Pasien Menggunakan Metode K- Means Clustering di Rumah Sakit Anwar Medika Balong Bendo Sidoarjo. MATRIK : Jurnal Manajemen, Teknik Informatika Dan Rekayasa Komputer, 19(1), 186–195.

Arima, C., Hakamada, K., Okamoto, M., & Hanai, T. 2005. Validity Index for Fuzzy K-means Clustering Using the Gap Statistic Method. Sixteenth International Conference on Genome Informatics.

Davies, D. L., & Bouldin, D. W. (1979). A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1(2), 224–227.

Fatmawati, K., & Windarto, A. P. (2018). Data Mining: Penerapan Rapidminer Dengan K-Means Cluster Pada Daerah Terjangkit Demam Berdarah Dengue (Dbd) Berdasarkan Provinsi (Vol. 3, Issue 2).

Jain, A. K. (2010). Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters, 31(8), 651–666. Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

Pelleg, D., & Moore, A. W. (2000). X-means: Extending K-means with Efficient Estimation of the Number of Clusters. Proceedings of the Seventeenth International Conference on Machine Learning (ICML), 727–734.

Tibshirani, R., Walther, G., & Hastie, T. (2001). Estimating the number of clusters in a data set via the Gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63(2)

Downloads

Published

2024-12-17

How to Cite

Ginting, A., Harianja, A. P., & Sipayung, S. P. (2024). Efektivitas Metode Gap Statistic dan X-Means dalam Menentukan Jumlah Cluster Optimal pada K-Means Clustering. KAKIFIKOM (Kumpulan Artikel Karya Ilmiah Fakultas Ilmu Komputer), 6(2), 133–139. https://doi.org/10.54367/kakifikom.v6i2.4407