Prediksi Tweet Netizen Menggunakan Random Forest, Decision Tree, Naïve Bayes, dan Ensemble Algorithm

Authors

  • Vivi Nadenia Harahap Universitas Labuhan Batu
  • Deci Irmayani Universitas Labuhan Batu
  • Syaiful Zuhri Harahap Universitas Labuhan Batu

DOI:

https://doi.org/10.54367/jtiust.v6i1.1274

Keywords:

Pohon Keputusan, Naïve Bayes, Hutan Acak, Set, Twitter

Abstract

Gubernur DKI Jakarta saat ini, meski sudah terpilih sejak tahun 2017 selalu menarik untuk dibicarakan atau bahkan dikomentari. Komentar yang muncul berasal dari media secara langsung atau melalui media sosial. Twitter menjadi salah satu media sosial yang sering digunakan sebagai media untuk mengomentari gubernur terpilih bahkan bisa menjadi trending topic di media sosial Twitter. Netizen yang berkomentar pun beragam, ada yang selalu menge-Tweet kritik, ada yang berkomentar Positif, dan ada pula yang hanya me-retweet. Dalam penelitian ini, prediksi apakah Netizen aktif akan cenderung selalu menimbulkan komentar Positif atau Negatif akan dilakukan dalam penelitian ini. Model algoritma yang digunakan adalah Decision Tree, Naïve Bayes, Random Forest, dan juga Ensemble. Data Twitter yang diolah harus melalui preprocessing terlebih dahulu sebelum dilanjutkan menggunakan Rapidminer. Dalam uji coba menggunakan Rapidminer dilakukan dalam empat kali uji coba dengan membagi menjadi dua bagian yaitu data testing dan data latih. Perbandingan yang dilakukan adalah 10% data pengujian: 90% data pelatihan, kemudian 20% data pengujian: 80% data pelatihan, kemudian 30% data pengujian: 70% data pelatihan, dan yang terakhir adalah 35% data pengujian: 65% data pelatihan. Rata-rata Akurasi untuk algoritma Decision Tree adalah 93,15%, sedangkan untuk algoritma Naïve Bayes Akurasinya adalah 91,55%, kemudian untuk algoritma Random Forest adalah 93,41, dan yang terakhir adalah algoritma Ensemble dengan Akurasi sebesar 93,42%. sini. 65% data pelatihan. Rata-rata Akurasi untuk algoritma Decision Tree adalah 93,15%, sedangkan untuk algoritma Naïve Bayes Akurasinya adalah 91,55%, kemudian untuk algoritma Random Forest adalah 93,41, dan yang terakhir adalah algoritma Ensemble dengan Akurasi sebesar 93,42%. sini. 65% data pelatihan. Rata-rata Akurasi untuk algoritma Decision Tree adalah 93,15%, sedangkan untuk algoritma Naïve Bayes Akurasinya adalah 91,55%, kemudian untuk algoritma Random Forest adalah 93,41, dan yang terakhir adalah algoritma Ensemble dengan Akurasi sebesar 93,42%. sini.

References

Al-Rubaiee, H., Qiu, R., & Li, D. (2016). Analysis of the relationship between Saudi twitter posts and the Saudi stock market. 2015 IEEE 7th International Conference on Intelligent Computing and Information Systems, ICICIS 2015, December, 660–665. https://doi.org/10.1109/IntelCIS.2015.7397193

Alhamad, A., Azis, A. I. S., Santoso, B., & Taliki, S. (2019). Heart Disease Prediction using methods of Machine Learning based on Ensemble – Weighted Vote. 5(3), 352 – 360.

Blatnik, A., Jarm, K., & Meža, M. (2014). Movie sentiment analysis based on public tweets. Elektrotehniski Vestnik/Electrotechnical Review, 81(4), 160–166.

Buntoro, G. A. (2017). Analysis of candidates for governor of DKI Jakarta 2017 on Twitter. Integer Journal March,1(1),32–41.

Cureg, M. Q., De La Cruz, J. A. D., Solomon, J. C. A., Saharkhiz, A. T., Balan, A. K. D., & Samonte, M. J. C. (2019). Sentiment analysis on tweets with punctuations, emoticons, and negations. ACM International Conference Proceeding Series, Part F1483(1), 266–270. https://doi.org/10.1145/3322645.3322657

Da Silva, N. F. F., Hruschka, E. R., & Hruschka, E. R. (2014). Tweet sentiment analysis with classifier ensembles. Decision Support Systems. https://doi.org/10.1016/j.dss.2014.07.003

Flux, A. W., Pareto, V. (1897). Political Economy Course. The Economic Journal. https://doi.org/10.2307/2956966

Gorunescu, F. (2011). Data mining Concepts, Models, and Techniques. Verlag Berlin

Heidelberg: Springer Han, J., & Kamber, M. (2007). Data mining Concepts and Techniques. Morgan Kaufmann publisher.

Jiawei Han, & Kamber, M. (2013). Data Mining: Concepts and Techniques Second Edition. In Morgan Kaufmann. https://doi.org/10.1017/CBO9781107415324.004

Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey & Sons, Inc.

Kartiko, M., & Sfenrianto. (2019). Accuracy for Sentiment Analysis of Twitter Students on ELearning in Indonesia using Naive Bayes Algorithm Based on Particle Swarm Optimization. Journal of Physics: Conference Series, 1179(1). https://doi.org/10.1088/1742-6596/1179/1/012027

Mentari, N. D., Fauzi, M. A., & Muflikhah, L. (2018). 2013 curriculum sentiment analysis on Twitter social Media using the K-Nearest Neighbor method and the Feature Selection Query Expansion Ranking. Journal of Information Technology and Computer science development (J-Ptiik) Universitas Brawijaya, 2(8), 2739 – 2743.

Pratama, B., Saputra, D. D., Novianti, D., Purnamasari, E. P., Kuntoro, A. Y., Hermanto, Gata, W., Wardhani, N. K., Sfenrianto, S., & Budamsono, S. (2019). Sentiment Analysis of the Indonesian Police Mobile Brigade Corps Based on Twitter Posts Using the SVM and NB Methods. Journal of Physics: Conference Series, 1201(1). https://doi.org/10.1088/1742-6596/1201/1/012038

Puyalnithi, T., V, M. V., & Singh, A. (2016). Comparison of Performance of Various Data Classification Algorithms with Ensemble Methods Using Rapidminer. 6(5), 1–6.

Rachmat, A., & Lukito, Y. (2016). Implementation of WEB based Crowdsourced Labelling system with Weighted Majority Voting method. ULTIMA Infosys Journal, 6(2), 76 – 82. https://doi.org/10.31937/si.v6i2.223

Ratul, A. R., & Engineering, F. (n.d.). A Comparative Study on Crime in Denver City Based on Machine Learning and Data Mining.

Witten, I. H., Frank, E., & Hall, M. a. (2011). Data Mining: Practical Machine Learning Tools and Techniques (Google eBook). In Complementary literature None. http://books.google.com/books?id=bDtLM8CODsQC&pgis=1

Published

2021-07-05

Issue

Section

Artikel