Speech synthesis adalah
transformasi dari teks ke arah suara (speech). Transformasi ini mengkonversi
teks ke pemadu suara (speech synthesis) yang sebisa mungkin dibuat menyerupai
suara nyata, disesuaikan dengan aturan – aturan pengucapan bahasa.TTS (text to
speech) dimaksudkan untuk membaca teks elektronik dalam bentuk buku, dan juga
untuk menyuarakan teks dengan menggunakan pemaduan suara. Sistem ini dapat
digunakan sebagai sistem komunikasi, pada sistem informasi referral, dapat
diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat dan
membaca.
Ada beberapa masalah
yang terdapat pada pemaduan suara, yaitu:
·
@ User sangat sensitif terhadap variasi
dan informasi suara. Oleh sebab itu, mereka tidak dapat memberikan toleransi
atas ketidaksempurnaan pemadu suara.
·
@ Output dalam bentuk suara tidak dapat
diulang atau dicari dengan mudah.
·
@ Meningkatkan keberisikan pada
lingkungan kantor atau jika menggunakan handphone, maka akan meningkatkan biaya
pengeluaran.
Lingkungan dari
aplikasi pemadu suara adalah:
Bagi tunanetra, pemadu
suara menawarkan media komunkasi dimana mereka dapat memiliki akses yang tidak
terbatas. Lingkungan dimana visual dan haptic skill user berfokus pada hal
lain. Contohnya: sinyal bahaya pada kokpit pesawat udara.
Sejarah
Speech Synthesis
Upaya yang paling awal
untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari
kenyataan bahwa upaya pertama adalah
bentuk mesin mekanis, kita dapat mengatakan hari ini bahwa synthesizer sudah berkualitas tinggi.
Pada tahun 1779 di St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima
vokal panjang (/ A /, / e /, / i /, / o
/, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina,
Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”.
Dalam sekitar pertengahan 1800-an
Charles Wheatstone dibangun terkenal
versi mesin berbicara von Kempelen’s.
Generasi dari sistem
pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
·
Generasi pertama (1962-1977). Format
sintesis dari fonem adalah teknologi dominan. Teknologi ini memanfaatkan aturan
berdasarkan penguraian fonetik pada kalimat untuk kontur frekuensi forman.
Beberapa sintesis masih miskin atau kurang
dalam kejelasan dan kealamiannya.
·
Generasi kedua (1977-1992). Metode
pemadu suara adalah diphone diwakilkan
dengan parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang
baik pada pemadu suara dapat diperoleh dengan andal dari input teks dengan
menggabungkan diphone yang sesuai dengan unit. Kejelasan meningkat selama
sintesis forman, tetapi kealamian dari pemadu suara masih tetap rendah.
·
Generasi ketiga (1992-sekarang).
Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’ yang
diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil dari
pemandu suara pada periode ini sangat mendekati
human-generated speech pada bagian kejelasan dan kealamian,
Teknologi pemadu suara
modern melibatkan metode dan algoritma yang canggih dan rumit. alat pemadu
suara dari keluarga “Infovox” mungkin
mejadi salah satu multi bahasa TTS yang paling dikenal saat ini. Versi
komersial pertamanya, Infovox-SA 101, dikembangkan pada tahun 1982 di Institute
Teknologi Royal, Swedia dan didasarkan pada sintesis forman. AT & T Bell
Laboratories (Lucent Technologies) juga memiliki tradisi yang sangat panjang
tentang pemandu suara (speech synthesis). TTS lengkap yang pertama
didemostrasikan di Boston pada tahun 1972 dan diliris pada tahun 1973. Hal ini
didasarkan pada model artikulatoris yang sikembangkan oleh Ceceil Coker (Klatt
1987). Pengembangan proses dari sistem penggabungan sintesis ini dimulai oleh
Joseph Olive pada pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini
sekarang sudah tersedia untuk bahasa Inggris, Perancis, Spanyol, Italia,
Jerman, Rusia, Rumania, Cina, dan Jepang (Mcbius et al 1996).
Speech
Synthesis
Speech synthesis atau
pidato sintesis adalah produksi buatan manusia pidato. Sebuah sistem komputer
yang digunakan untuk tujuan ini disebut speech synthesizer, dan dapat
diimplementasikan dalam perangkat lunak atau perangkat keras. text-to-speech
(TTS) sistem bahasa normal mengkonversi teks ke dalam pidato. sistem lain
membuat representasi linguistik simbolis seperti transkripsi fonetik bicara.
Pidato buatan dapat
dibuat dengan potongan-potongan concatenating pidato yang direkam disimpan
dalam database. Sistem berbeda dalam ukuran pidato yang disimpan unit; sebuah
sistem yang menyimpan telepon memberikan rentang output terbesar, tapi mungkin
kurang jelas. Untuk keperluan khusus domain, yang menyimpan seluruh kata-kata
atau kalimat memungkinkan output yang berkualitas tinggi. Atau, synthesizer
dapat menggabungkan sebuah model dari sistem vokal dan karakteristik suara
manusia lain untuk membuat yang benar-benar “sintetik” output suara. Kualitas
synthesizer pidato dinilai oleh kesamaan dengan suara manusia dan kemampuannya
untuk dipahami. semua dimengerti text-to-speech program yang memungkinkan
orang-orang dengan gangguan visual atau membaca untuk mendengarkan karya-karya
tulis di komputer rumah. Banyak sistem operasi komputer termasuk alat bicara
sejak awal 1980-an.
A text-to-speech system
(atau “mesin”) adalah terdiri dari dua bagian: front-end dan back-end.
Front-end memiliki dua tugas utama. Pertama, mengubah teks mentah berisi simbol
seperti angka dan singkatan menjadi setara dengan tertulis-kata-kata. Proses
ini sering disebut normalisasi teks, pra-pengolahan, atau tokenization.
Front-end kemudian menetapkan transkripsi fonetik untuk setiap kata, dan
membagi dan menandai teks ke prosodic unit seperti frase dan kalimat. Proses
transkripsi fonetik untuk menetapkan kata-kata ini disebut teks-ke-fonem atau
grafem-ke-fonem konversi. Fonetis transkripsi dan informasi ilmu persajakan
bersama-sama membentuk representasi simbolik yang linguistik output dengan
front-end. Back-end-sering disebut sebagai synthesizer-maka mengubah
representasi linguistik simbolik menjadi suara.
Suara teks-to-speech
engine di Vista adalah Microsoft Anna, dan Microsoft Sam pada Windows XP. Vista
pengguna dapat mendengar suara sangat jelas dari Anna, dan kualitas suara Anna
Microsoft jauh lebih baik daripada Microsoft Sam. Sintesis pidato Windows
program yang disebut narator telah dikirimkan dengan Windows2000, Windows XP
dan Vista. Bila pengguna Windows ingin mendapatkan suara tidak hanya membaca
tetapi juga file audio seperti gelombang dan file mp3 pidato, mereka dapat
menginstal bebas teks-to-speech dan panopreter text-to-mp3 aplikasi yang
ditawarkan oleh panopreter.com. Hal membaca file teks dan mengkonversi pidato
menjadi gelombang dan mp3 file, pengguna dapat mengimpor file audio yang
dihasilkan ke perangkat portabel, dan mendengarkan mereka sambil berjalan,
jogging atau Komuter untuk bekerja.
Speech sintesis menjadi
alat bantu teknologi vital dan penerapannya di daerah ini sangat signifikan dan
luas, sekarang umum digunakan oleh orang-orang dengan disleksia dan kesulitan
membaca lainnya maupun oleh anak-anak pra-melek. Sementara itu, aplikasi
sintesis pidato dan gadget pada bahasa alat belajar. Teknik sintesis Pidato
sekarang juga digunakan dalam produksi hiburan seperti game, anime dan yang
sejenis, dan banyak digunakan dalam produk telekomunikasi juga.