Text-To-Speech Bahasa Sunda Dialek Selatan Menggunakan Metode VITS
Keywords:
Text-to-Speech, Bahasa Sunda, Dialek Selatan, VITS, Mean Opinion ScoreAbstract
Bahasa adalah alat untuk berkomunikasi dan juga identitas suatu wilayah. Indonesia memiliki keberagaman bahasa daerah, namun penggunaannya kian menurun dikarenakan berkurangnya penutur asli. Diperlukan upaya dalam pendukungan bahasa daerah, salah satunya ialah penerapan sistem TTS pada bahasa daerah. Penelitian ini bertujuan untuk mengembangkan sistem TTS bahasa daerah khususnya bahasa Sunda dialek Selatan menggunakan metode VITS (Variational Inference with Adversarial Learning for End-to-End Text-to-Speech). Penelitian ini menggunakan 450 data latih dan 50 data uji. Tahapan penelitian meliputi pengumpulan data, praproses data suara, pelatihan model, serta evaluasi hasil output dengan metode MOS (Mean Opinion Score). Pengujian MOS dilakukan kepada lima responden yang merupakan penutur asli Sunda dialek Selatan dan mendapatkan skor rata-rata sebesar 4,328. Hasil tersebut menunjukkan bahwa sistem mampu mengubah teks menjadi suara berbahasa Sunda dialek Selatan yang terdengar alami, jelas, dan mendekati penutur aslinya. Sistem ini belum melibatkan pemodelan ekspresi, jadi output masih mengikuti karakteristik dataset. Masih terdapat beberapa kalimat yang kurang jelas dan terdengar robotik, serta ketidakjelasan pelafalan pada fonem tertentu. Penelitian ini menyimpulkan bahwa pengembangan sistem Text-to-Speech bahasa Sunda dialek Selatan menggunakan metode VITS dapat menjadi kontribusi dalam mendukung penggunaan bahasa daerah dengan pemanfaatan teknologi tersebut.References
N. Anggini, N. Y. Afifah, and E. Syaputra, “Pengaruh bahasa gaul (slang) terhadap bahasa Indonesia pada generasi muda,” Concept J. Soc. Humanit. Educ., vol. 1, no. 4, pp. 39–48, 2022.
T. F. Pandaleke, V. I. . F. Koagouw, and G. J. Waleleng, “the Role of Community Social Communication in Preserving thePasan Regional Languages in Rasi Village Ratahan Sub-DistrictSoutheast Minahasa Regency,” Acta Diurna Komun., vol. 2, 2020.
W. L. Rachma, “Bahasa Sunda Sebagai Identitas Budaya Mahasiswa Etnis Sunda di Universitas Serang Raya,” Pros. Semin. Nas. Komunikasi, Adm. Negara dan Huk., vol. 1, no. 1, pp. 283–292, 2023, doi: 10.30656/senaskah.v1i1.178.
P. Asteka, “Ragam Dialek Sunda Majalengka Dalam Interaksi Komunikasi Pada Mahasiswa Bahasa Dan Sastra Indonesia Universitas Majalengka,” Konf. Nas. Bhs. Dan Sastra V, vol. 5, no. 1, pp. 209–215, 2019.
M. S. Hidayat and M. F. Hibban, “Analysis of Mudjia Rahardjo’s Views: Language Philosophy and Efforts to Preserve Regional Languages,” J. Penelit. Medan Agama, vol. 15, no. 1, p. 1, 2024, doi: 10.58836/jpma.v15i1.17521.
M. Chen et al., “MultiSpeech: Multi-speaker text to speech with transformer,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2020-Octob, pp. 4024–4028, 2020, doi: 10.21437/Interspeech.2020-3139.
Y. Li, D. H. Qin, and J. B. Zhang, “Speech Synthesis Method Based on Tacotron2,” in 2021 13th International Conference on Advanced Computational Intelligence, ICACI 2021, 2021, pp. 94–99. doi: 10.1109/ICACI52617.2021.9435882.
Y. Ren et al., “Fastspeech 2: Fast and High-Quality End-To-End Text To Speech,” ICLR 2021 - 9th Int. Conf. Learn. Represent., pp. 1–15, 2021.
Y. Zhang, J. Cong, H. Xue, L. Xie, P. Zhu, and M. Bi, “Visinger: Variational Inference With Adversarial Learning for End-To-End Singing Voice Synthesis,” ICASSP, IEEE Int. Conf. Acoust. Speech Signal Process. - Proc., vol. 2022-May, pp. 7237–7241, 2022, doi: 10.1109/ICASSP43922.2022.9747664.
Y. Lee, J. Shin, and K. Jung, “Bidirectional Variational Inference for Non-Autoregressive Text-To-Speech,” ICLR 2021 - 9th Int. Conf. Learn. Represent., pp. 1–19, 2021.
J. Kim, J. Kong, and J. Son, “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,” Proc. Mach. Learn. Res., vol. 139, pp. 5530–5540, 2021.
W. Zhao and Z. Yang, “An Emotion Speech Synthesis Method Based on VITS,” Appl. Sci., vol. 13, no. 4, pp. 1–12, 2023, doi: 10.3390/app13042225.
Y. Gao, X. Min, Y. Zhu, J. Li, X. P. Zhang, and G. Zhai, “Image Quality Assessment: From Mean Opinion Score to Opinion Score Distribution,” MM 2022 - Proc. 30th ACM Int. Conf. Multimed., no. October 2022, pp. 997–1005, 2022, doi: 10.1145/3503161.3547872.
Y. Wang et al., “Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis,” Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, vol. 2022-Septe, pp. 4242–4246, 2022, doi: 10.21437/Interspeech.2022-48.
Y. Ren, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Y. Liu, “Almost unsupervised text to speech and automatic speech recognition,” 36th Int. Conf. Mach. Learn. ICML 2019, vol. 2019-June, pp. 9483–9492, 2019.








