Aplikasi Image Captioning Menggunakan Convolutional Neural Network dan Long Short Term Memory
Keywords:
Aplikasi, Convolutional Neural Network, Image Captioning, Long Short Term Memory, Visi KomputerAbstract
Image captioning merupakan teknologi yang menghasilkan deskripsi otomatis dari gambar dengan menggabungkan computer vision dan pemrosesan bahasa alami. Penelitian ini bertujuan membangun aplikasi image captioning berbahasa Indonesia dengan menerapkan arsitektur Convolutional Neural Network (CNN) dan Long Short-Term Memory (LSTM). Proses dimulai dengan ekstraksi fitur visual menggunakan model VGG16, kemudian dilanjutkan dengan pelatihan model captioning berbasis LSTM. Dataset yang digunakan adalah Flickr8k yang telah diterjemahkan ke dalam bahasa Indonesia. Evaluasi performa dilakukan menggunakan metrik BLEU, METEOR, CIDEr, dan ROUGE. Hasil menunjukkan bahwa model mampu menghasilkan deskripsi gambar dengan nilai BLEU-1 sebesar 0,6216, yang menandakan tingkat kesesuaian cukup baik antara caption hasil prediksi dan referensi. Selain itu, sistem telah diimplementasikan ke dalam aplikasi web berbasis Streamlit agar dapat diakses secara praktis. Model yang dirancang menunjukkan kemampuan menghasilkan caption yang informatif dan sesuai konteks visual gambar dalam bahasa IndonesiaReferences
M. D. Hossain, F. Sohel, M. F. Shiratuddin, and H. Laga, “A comprehensive survey of deep learning for image captioning,” ACM Comput. Surv., vol. 51, no. 6, pp. 1–36, 2019, doi: 10.1145/3295748.
O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, “Show and tell: A neural image caption generator,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2015, pp. 3156–3164. doi: 10.1109/CVPR.2015.7298935.
A. M. Nugroho and A. F. Hidayatullah, “Keterangan gambar otomatis berbahasa Indonesia menggunakan CNN dan LSTM,” Sleman, Yogyakarta, Indonesia, 2018.
S. Liu, L. Bai, Y. Hu, and H. Wang, “Image captioning based on deep neural networks,” in MATEC Web of Conferences, 2018, p. 01052. doi: 10.1051/matecconf/201823201052.
M. Stefanini, L. Baraldi, M. Cornia, G. Fiameni, and R. Cucchiara, “From show to tell: A survey on deep learning-based image captioning,” 2021. doi: 10.48550/arXiv.2107.06912.
Y. Azhar, M. R. Anugerah, M. A. R. Fahlopy, and A. Yusriansyah, “Image captioning using hybrid of VGG16 and bidirectional LSTM model,” KINETIK, vol. 7, no. 4, pp. 391–398, 2019, doi: 10.22219/kinetik.v7i4.1568.
K. Suzuki, “AI: A new open access journal for artificial intelligence,” AI, vol. 1, no. 1, pp. 1–3, 2020.
K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “BLEU: A method for automatic evaluation of machine translation,” in Proceedings of the ACL, 2002, pp. 311–318. doi: 10.3115/1073083.1073135.
S. Haykin, Neural networks and learning machines. Pearson, 2009.
N. K. Manaswi, Deep learning with applications using Python. Apress, 2018. doi: 10.1007/978-1-4842-3516-4.
I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT Press, 2016.
S. Albawi, T. A. Mohammed, and S. Al-Zawi, “Understanding of a convolutional neural network,” in ICET, 2017. doi: 10.1109/ICET.2017.8308186.
S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997, doi: 10.1162/neco.1997.9.8.1735.
S. Banerjee and A. Lavie, “METEOR: An automatic metric for MT evaluation with improved correlation with human judgments,” 2005, pp. 65–72.
R. Santoso, “Sistem pendeskripsian gambar pemandangan sekitar bagi penyandang tunanetra berbahasa Indonesia,” J. Ilm. Inform. dan Sist. Inf., vol. 8, no. 1, pp. 45–54, 2024.
M. Rifki, “Pengembangan CNN-LSTM-based image captioning dataset Indonesia untuk mendukung kemandirian penyandang tunanetra di ruang publik,” J. Teknol. Inf. dan Komun., vol. 9, no. 1, pp. 22–30, 2025.
C.-Y. Lin, “ROUGE: A package for automatic evaluation of summaries,” in ACL Workshop, doi: 10.3115/1073445.1073465.
R. Vedantam, C. L. Zitnick, and D. Parikh, “CIDEr: Consensus-based image description evaluation,” in Proceedings of CVPR, pp. 4566–4575. doi: 10.1109/CVPR.2015.7299087.
K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv. doi: 10.48550/arXiv.1409.1556.
E. Mulyanto, E. I. Setiawan, E. M. Yuniarno, and M. H. Purnomo, “Automatic Indonesian image caption generation using CNN-LSTM model and FEEH-ID dataset,” 2019. doi: 10.1109/CIVEMSA45640.2019.9071632.
A. Apandi, A. B. Mutiara, and D. Dharmayanti, “Generating image captions in Indonesian using a deep learning approach based on vision transformer and IndoBERT,” J. Appl. Data Sci., vol. 6, no. 2, pp. 1191–1202, 2025, doi: 10.47738/jads.v6i2.672.
I. Huda, “Implementasi natural language processing untuk aplikasi pencarian lokasi,” J. Nas. Teknol. Terap., 2024.
U. A. Al Faruq and D. H. Fudholi, “Implementasi arsitektur transformer pada image captioning berbahasa Indonesia,” in AUTOMATA, 2023.
D. Sudrajat, R. D. Permatasari, I. M. S. Wijaya, A. E. Setyawan, and N. Rahayu, “Pemanfaatan kecerdasan buatan sebagai upaya pengembangan media pembelajaran berbasis multimedia,” J. Kridatama Sains dan Teknol., vol. 5, no. 2, pp. 590–598, doi: 10.53863/kst.v5i02.999.
B. Setiawan, “Kecerdasan buatan manusia: Artificial intelligence sebagai teknologi masa depan,” Ulul Albab, vol. 9, no. 2, pp. 269–281, 2008.








