Text-To-Speech Bahasa Ocu Dialek Siak Hulu Menggunakan Metode VITS

Authors

  • Putri Juniarti Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Yusra Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Muhammad Fikry Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Novriyanto Universitas Islam Negeri Sultan Syarif Kasim Riau
  • Febi Yanto Universitas Islam Negeri Sultan Syarif Kasim Riau

Keywords:

Bahasa Ocu, Text-to-Speech, Variational Inference Text-to-Speech

Abstract

Bahasa Ocu adalah bahasa daerah yang digunakan oleh masyarakat Kabupaten Kampar, Provinsi Riau. Meskipun Bahasa Indonesia telah menjadi bahasa nasional, keberadaan bahasa daerah tetap dihargai di Indonesia. Penelitian ini bertujuan untuk mengimplementasikan teknologi Text-to-Speech (TTS) dalam Bahasa Ocu dialek Desa Pangkalan Baru, Kecamatan Siak Hulu, menggunakan metode Variational Inference Text to Speech (VITS). Penelitian ini menggunakan dataset yang terdiri dari rekaman 500 kalimat Bahasa Ocu dan teks 500 kalimat Bahasa Ocu. Evaluasi kinerja model dilakukan dengan Mean Opinion Score (MOS). MOS dilakukan dengan meminta 5 orang penutur asli memberikan skor 1 sampai 5 kepada setiap file rekaman yang telah dihasilkan model. Seluruh skor dijumlahkan dan dicari rata-ratanya untuk mendapatkan skor akhir. Hasil dari implementasi TTS menunjukkan performa yang sangat baik, dengan skor akhir MOS sebesar 4,508, yang menandakan kualitas suara sangat mirip dengan pengucapan manusia. Terdapat beberapa catatan dari evaluator seperti huruf yang tertukar atau huruf tidak terdengar jelas serta suara yang dihasilkan terdengar kaku. Penelitian ini diharapkan dapat menjadi referensi untuk pengembangan teknologi TTS dalam bahasa daerah lainnya, serta membantu dalam pengajaran Bahasa Ocu untuk generasi mendatang.

References

M. Chen et al., “AdaSpeech: Adaptive Text to Speech for Custom Voice,” in ICLR, Mar. 2021.

R. J. Weiss, R. Skerry-Ryan, E. Battenberg, S. Mariooryad, and D. P. Kingma, “Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto: IEEE, Feb. 2021. doi: https://doi.org/10.1109/ICASSP39728.2021.9413851.

J. Kim, J. Kong, and J. Son, “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,” in ICML, 2021. doi: https://doi.org/10.48550/arXiv.2106.06103.

F. A. Martin, M. Malfaz, Á. Castro-González, J. C. Castillo, and M. Á. Salichs, “Four-Features Evaluation of Text to Speech Systems for Three Social Robots,” Electronics (Basel), vol. 9, no. 2, pp. 1-23, Feb. 2020, doi: 10.3390/electronics9020267.

Y. Kowalczuk and J. Holub, “Evaluation of Digital Watermarking on Subjective Speech Quality,” Sci Rep, vol. 11, no. 1, Dec. 2021, doi: https://doi.org/10.1038/s41598-021-99811-x.

B. T. Vecino et al., “Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications,” in 12th ISCA Speech Synthesis Workshop, May 2025. doi: https://doi.org/10.21437/SSW.2023-35.

Downloads

Published

2025-12-28

Issue

Section

Artikel