Contoh Natural Language Processing Speech-to-Text & Text-to-Speech

Contoh Natural Language Processing Speech-to-Text: Siri — Aplikasi asisten pribadi seperti Siri menggunakan teknologi *speech-to-text* dan *text-to-speech*. (AARP)

Contoh Natural Language Processing- Teknologi speech-to-text dan text-to-speech merupakan dua teknologi yang memudahkan kita untuk melakukan banyak hal yang biasanya dilakukan manusia. Teknologi ini banyak muncul pada fitur-fitur yang, mungkin saja, kalian belum menyadarinya.

Misalnya, saat kita menonton video-video di situs video daring (online), bisa jadi ada di antara video yang kita tonton memiliki bahasa yang berbeda dengan bahasa sehari-hari. Video atau film berbahasa Inggris, misalnya, yang mungkin tidak biasa bagi kita yang sehari-hari menggunakan Bahasa Indonesia atau bahasa daerah. Apalagi seperti mimin, yang masih harus terus belajar berbicara dengan Bahasa Inggris. Hehe 😀

Untungnya, sebagian video, film, atau seri yang kita tonton memiliki fitur takarir (subtitle) untuk memudahkan kita mengetahui persis apa yang diucapkan di situ. Padahal, di sebagian video yang telah dilengkapi takarir itu si pengunggah video tidak memasukkan subtitle ke videonya, lho. Bisa jadi kita tidak asing soal ini, karena subtitle seperti ini lazim kita temui di YouTube. Kok bisa, ya?

Daftar Isi

Teknologi Natural Language Processing speech-to-text dan text-to-speech

Natural Language Processing, atau biasa disingkat NLP, adalah salah satu cabang artificial intelligence atau kecerdasan buatan yang berhubungan dengan interaksi antara komputer dan manusia menggunakan bahassa alami. Tujuannya adalah memberikan kemampuan kepada mesin agar dapat membaca, memahami, dan memperoleh makna dari bahasa manusia.

YouTube memiliki fitur auto-generated subtitle (takarir yang dibuat otomatis). Fitur auto-generated subtitle merupakan contoh natural language processing (NLP) yang memanfaatkan teknologi speech-to-text untuk mengubah suara ucapan menjadi teks takarir. Fitur ini begitu memudahkan kita, tidak hanya bagi kita yang ingin tahu persis apa yang diucapkan atau bagi yang ingin meningkatkan kemampuan berbahasanya, tetapi juga bagi kaum disabilitas rungu yang tidak dapat mendengar suara yang disampaikan dari video.

Selain itu, speech-to-text juga memudahkan kita untuk menuliskan apa yang ingin kita sampaikan di gawai (gadget) tanpa harus mengetik. Oleh karena itu, teknologi ini juga hadir di berbagai aplikasi. Contoh natural language processing speech to text adalah aplikasi Microsoft Office hingga aplikasi asisten pribadi seperti Siri, Cortana, dan Google Assistant.

Kembali ke video berbahasa Inggris yang tadi, bayangkan kalau kalian menangkap satu kata yang baru saja kalian tahu dan ingin tahu bagaimana pronounciation atau cara mengucapkan kata tersebut. Kalian mungkin akan menggunakan aplikasi terjemahan, seperti Google Translate atau Bing Translator. Saat kalian mendengarkan suara ucapan dari masukan (input) kata yang dimasukkan, di saat itulah teknologi text-to-speech bekerja untuk mengubah teks menjadi suara secara otomatis.

Uniknya, aplikasi terjemahan tidak hanya mampu menunjukkan cara pengucapan suatu kata, namun juga memungkinkan kita untuk memasukkan kata yang ingin kita terjemahkan lewat suara. Tentu saja, aplikasi akan memanfaatkan speech-to-text untuk melakukannya. Aplikasi terjemahan merupakan salah satu contoh natural language processing, yang mengandalkan speech-to-text dan text-to-speech sekaligus.

Speech-to-text dan text-to-speech

Speech-to-text dan text-to-speech pada dasarnya sama-sama memanfaatkan teknologi komputer untuk menghasilkan jenis keluaran (output) yang berbeda dari masukan yang diberikan. Bedanya terletak pada masukan dan keluarannya: speech-to-text mengubah suara menjadi teks, sedangkan text-to-speech mengubah teks menjadi suara.

Dari contoh tadi kita bisa simpulkan bahwa text-to-speech dan speech-to-text merupakan teknologi yang sangat berguna untuk kita. Namun, di antara dua teknologi ini manakah yang lebih baik?

Natural Language Processing Speech-to-Text

Speech-to-text adalah suatu sistem yang berfungsi untuk mengubah bahasa lisan menjadi bahasa tulisan secara otomatis. Masukan sistem adalah ucapan manusia, lalu sistem akan mengidentifikasi kata atau kalimat yang diucapkan, dan menghasilkan keluaran berupa teks yang sesuai dengan apa yang diucapkan. Sistem speech-to-text merupakan salah satu bagian dari pemrosesan bahasa alami ( natural language processing atau NLP), yang juga meliputi sistem pengenalan suara.

Contoh natural language processing speech-to-text

Contoh natural language processing speech to text adalah sebagai berikut:

Siri
Cortana
Google Assistant
Gboard
Evernote
Speechnotes
Speech texter
Otter Voice Meeting Notes

Sejarah speech-to-text

Speech-to-text memiliki sejarah yang cukup panjang. Hal ini dibuktikan dengan perkembangan teknologi pengenalan ucapan (speech recognition) yang sudah dimulai sejak pertengahan abad ke-20.

Pada tahun 1952, sekelompok ilmuwan di Bell Laboratories, Amerika Serikat (AS) menciptakan sistem bernama Audrey. Mereka adalah Stephen Balashek, R. Biddulph, dan K. H. Davis. Sistem ini mengenali suatu digit angka dan menyuarakan digit itu dengan lantang.

Sepuluh tahun kemudian, IBM membuat mesin pengenal suara bernama Shoebox, yang diklaim mampu mengenali 16 kata dalam Bahasa Inggris. IBM memperkenalkan Shoebox dalam gelaran World’s Fair 1964-1965 di New York, AS. Di belahan lain, tepatnya di Jepang, Fumitada Itakura dari Universitas Nagoya dan Shuzo Saito dari perusahaan Nippon Telegraph and Telephone (NTT) mengajukan sebuah metode pengkodean ucapan (speech coding) bernama linear predictive coding (LPC) di tahun 1966.

Teknologi pengenalan ucapan mulai berkembang pesat pada dekade 1970-an, saat salah satu badan penelitian bentukan Departemen Pertahanan AS, DARPA melancarkan suatu penelitian bertajuk Speech Understanding Research (SUR). Riset yang berjalan selama lima tahun itu menghasilkan sistem pengenal suara Harpy, yang mampu memahami 1.000 kosakata, hal yang sama yang dimiliki oleh anak berumur 3 tahun. SUR konon merupakan salah satu penelitian yang terbesar dalam sejarah pengenalan suara.

Sebuah metode pencatatan untuk pengenalan suara, Hidden Markov Model, dirumuskan pada dekade 1980-an. Hidden Markov Model bekerja dengan memperkirakan kemungkinan suara-suara yang tidak dikenal menjadi kosakata. Model ini nantinya digunakan dalam jenis speech-to-text independen, yang nanti akan kita bahas.

Teknologi pengenalan ucapan baru banyak digunakan sejak menjamurnya aplikasi di gawai. Google merupakan salah satu pelopor di bidang ini dengan menghadirkan Voice Search (penelusuran suara) dan Google Translate.

Cara kerja speech-to-text

Bagaimana cara kerja speech-to-text? Saat kita mulai mengucapkan suatu kata atau kalimat, sinyal ucapan kita mula-mula akan masuk pada bagian penganalisis ucapan untuk mendapatkan besaran-besaran atau ciri-ciri yang mudah diolah pada tahap berikutnya. Penganalisis sintaks (struktur kalimat) kemudian akan melakukan transformasi sinyal ucapan dari domain waktu ke domain frekuensi.

Sistem kemudian akan memecah ucapan kita menjadi ‘bagian-bagian kecil’ yang dapat dikenali. Bagian-bagian ini namanya fonem, atau unit bunyi pembentuk ucapan. Sistem akan mengenali fonem yang kita ucapkan, lalu mencoba mencari kemungkinan kombinasi hasil ucapan yang paling dapat diterima.

Dalam mencari kemungkinan ini, tiap ucapan yang berbeda akan menghasilkan pola yang berbeda. Fonem yang diucapkan seringkali juga bervariasi pada masing-masing orang, serta dapat terpengaruh dari banyak faktor. Faktor-faktor tersebut di antaranya fonem-fonem di sekitarnya, kondisi emosi, kebisingan (noise), dan lainnya. Urutan, kombinasi, dan konteks fonem inilah yang memungkinkan penganalisis ucapan memahami apa yang sebenarnya kita katakan.

Natural Language Processing: Speech-to-Text & Text-to-Speech — Tabel daftar fonem dalam Bahasa Inggris. Pengenalan fonem sangat penting dalam sistem *speech-to-text*. (The School Run)

Ternyata ada 2 tipe speech-to-text lho, yaitu independent speech-to-text dan dependent speech-to-text. Independent speech-to-text adalah jenis pengenal ucapan yang tidak terpengaruh dengan masing-masing orang yang berbicara. Model ini mencocokan tiap ucapan dengan kata yang dikenali dan memilih yang ”sepertinya” cocok, dengan mengandalkan Hidden Markov Model (yang tadi sudah disebutkan). Tetapi, kelemahan jenis ini adalah jumlah kosakatanya yang terbatas.

Kalau yang independent tadi tidak terpengaruh sama siapa yang bicara, dependent speech-to-text ini sebaliknya. Bahkan saking ketergantungannya jenis ini, dependent speech-to-text harus dilatih mengenal suara si pembicara, di mana hasil pelatihan ini akan disimpan dalam sebuah profil. Profil inilah yang nantinya diandalkan saat sistem akan digunakan. Meski harus dilatih dulu, sistem ini biasanya lebih mudah dikembangkan (karena contoh suara sudah dibuat dan disimpan) dan jumlah kosakatanya lebih banyak.

Natural Language Processing Text-to-Speech

Kebalikan dari speech-to-text, text-to-speech adalah suatu sistem yang berfungsi untuk mengubah bahasa tulisan menjadi bahasa lisan secara otomatis. Masukan sistem adalah teks yang diketik, lalu sistem akan mengidentifikasi kata atau kalimat yang diketik, dan menghasilkan keluaran berupa ucapan yang sesuai dengan apa yang diketik. Text-to-speech mengandalkan sistem sintesis suara dan fonetisasi (penyusunan fonem-fonem) untuk menghasilkan suara ucapan buatan yang sesuai.

Kontras dengan speech-to-text, text-to-speech dapat mengucapkan kata apapun, sebab kosakatanya tidak terbatas. Hal ini membedakan text-to-speech dengan sistem serupa, seperti Interactive Voice Response (IVR) yang banyak digunakan untuk layanan call center, yang mana hanya dapat mengucapkan kata atau kalimat secara terbatas.

Contoh natural language processing text-to-speech

Berikut contoh natural language processing text-to-speech:

Google Text-to-Speech
Voice Aloud Reader
Narrator’s Voice
Talk Free
T2S: Text to Voice

Sejarah text-to-speech

Text-to-speech juga memiliki sejarah yang cukup panjang. Beberapa orang di abad ke-18 dan 19 sudah mencoba membuat alat yang mampu mengeluarkan suara buatan. Salah satu orang yang terkenal dengan alatnya adalah dua orang Austria, Wolfgang van Kempelen dengan mesin berbicaranya dan Joseph Faber dengan alat bernama Euphonia. Replika dari alat van Kempelen saat ini disimpan di Universitas Saarland, Jerman.

Contoh Natural Language Processing: mesin berbicara dari Wolfgang van Kempelen

Penemuan modern yang menentukan berkembangnya teknologi ini adalah sistem bernama vocoder. Bell Laboratories mengembangkan vocoder pada decade 1930-an untuk menganalisis ucapan. Dari sistem ini, terciptalah penyintesis suara bernama The Voder (voice demonstrator) yang dipamerkan sebagai robot dengan suara buatan pada acara World’s Fair 1939 di New York, AS.

Di tahun 1961, fisikawan John Larry Kelly dan Louis Gerstman menggunakan komputer IBM 7400 untuk menyintesis ucapan. Sementara itu, Noriko Umeda dan rekan-rekannya di laboratorium elektroteknik Jepang mengembangkan sistem text-to-speech berbahasa Inggris pertama pada tahun 1968. Perushaan Texas Instruments meluncurkan perangkat Speak and Spell di tahun 1978, menjadi salah satu perangkat pertama dengan penyintesis suara yang dijual secara komersial.

Perkembangan teknologi text-to-speech juga sejalan dengan teknologi pengenalan suara yang sudah kita bahas sebelumnya, seperti penemuan linear predictive coding. Mulai dekade 1990-an, text-to-speech marak muncul di perangkat lunak komputer, seperti di Microsoft Office. Serupa dengan text-to-speech, fitur speech-to-text memudahkan kita untuk mendengarkan pengucapan dari tulisan yang ditampilkan di gawai.

Cara kerja text-to-speech

Bagaimana cara kerja text-to-speech? Sistem memiliki dua bagian utama, yakni bagian depan (front-end) dan belakang (back-end). Bagian depan akan mengubah dahulu teks mentah yang berisi simbol-simbol seperti angka menjadi setara dengan kata-kata yang dituliskan (misalnya “1” menjadi “satu”). Bagian depan kemudian menetapkan transkripsi fonetik dari setiap kata, lalu membagi serta menandai teks menjadi unit-unit seperti frasa, klausa, dan kalimat. Ini biasa disebut konversi teks ke fonem (text-to-phonem) atau grafem ke fonem (grapheme-to-phonem), dan bersama-sama membentuk representasi linguistik simbolik. Sementara itu, bagian belakang – yang juga sering disebut penyintesis atau phonem-to-speech – kemudian mengubah representasi tersebut menjadi suara.

Bagan alur sistem *text-to-speech*. (Wikimedia Commons/Andy0101)

Ada beberapa jenis teknologi sintesis suara yang bisa digunakan dalam sistem text-to-speech:

Pertama, sintesis perangkaian (concatenation synthesis): menggabungkan segmen-segmen suara yang sudah direkam sebelumnya. Sintesis ini memerlukan sampel suara manusia untuk diolah, dan menjadi salah satu yang banyak digunakan.
Kedua, sintesis forman (formant synthesis): membuat sistem suara buatan melalui sintesis buatan dan model akustik. Sintesis ini juga menjadi salah satu yang banyak digunakan.
Ketiga, sintesis artikulatori: membuat sistem produksi sinyal ucapan dengan pendekatan fisik mekanis manusia. Biasanya berupa hasil ronsen pita suara manusia yang dikonversi ke persamaan matematis yang merepresentasikan gelombang fisika.

Bagus Mana, Natural Language Processing Speech-to-Text atau Text-to-Speech?

Speech-to-text dan text-to-speech memiliki kelebihan dan kekurangannya masing-masing. Sistem speech-to-text memungkinkan kita untuk membuat perintah dengan suara, sedangkan text-to-speech memungkinkan kita mendengarkan ucapan dari suatu teks. Opini mimin sih, text-to-speech cenderung lebih mudah diimplementasikan karena yang diolah adalah susunan kata dan kalimat yang memiliki simbol-simbol lebih pasti (seperti huruf dan angka).

Sedangkan speech-to-text mengolah bahasa lisan, yang sifatnya sangat dinamis. Bahasa lisan cenderung lebih dinamis dari bahasa tulisan, bisa jadi karena bahasa lebih dahulu digunakan secara lisan dan bahasa lisan lebih mudah disampaikan. Speech-to-text juga bergantung pada ketepatan bicara dari orang yang berbicara, dan perlu terus dikembangkan untuk meningkatkan akurasinya.

Terlepas dari semua itu, keduanya merupakan teknologi yang sangat berguna dalam kehidupan kita. Keduanya adalah bagian dari masa depan yang harus kita manfaatkan untuk kebaikan bersama.

Contoh Natural Language Processing Speech-to-Text dan Text-to-Speech