Teknologi Ucapan di Era Kecerdasan Buatan

Kini, mesin dapat mendengar, memahami ucapan, juga berbicara

Devin Hoesen
Prosa Story
5 min readMar 6, 2020

--

Bayangkan ponsel kita berdering dan ternyata teman kita menelepon. Saat mengangkat telepon, kita bisa langsung tahu siapa orang yang menelepon itu dari suaranya. Teman kita itu kemudian curhat mengenai permasalahannya. Secara tidak sadar, kita akan mencoba mengerti perkataannya sebagai sebuah runtunan kata-kata. Dalam proses memahami perkataan itu, kita juga akan memahami emosinya dari nada, kecepatan, dan volume bicaranya. Setelah curhat selesai, kita tentunya akan merencanakan jawaban di kepala kita, yang kemudian akan disampaikan melalui perkataan.

Lebih kurang itulah proses-proses yang ditirukan secara elektronik oleh teknologi ucapan. Menebak siapa yang menelepon termasuk proses pengenalan pembicara; pemahaman perkataan merupakan pengenalan ucapan; pengenalan emosi termasuk paralinguistik; dan proses mengeluarkan kata-kata adalah sintesis ucapan. Keempat topik inilah yang menjadi objek penelitian teknologi ucapan yang dilakukan di Prosa.ai. Mari kita bahas satu per satu.

Pengenalan Ucapan

Pengenalan ucapan atau speech recognition mengubah ucapan menjadi rangkaian teks. Penerapan teknologi pengenalan ucapan di antaranya terdapat pada pembuatan takarir (subtitle) otomatis, pendiktean teks ke dalam suatu sistem komputer, dan dapat juga disisipkan ke dalam program asisten virtual.

Gambaran proses pengenalan ucapan

Secara teknis, sistem pengenalan ucapan menerima sinyal ucapan untuk diolah dahulu (praproses) menjadi bentuk yang lebih dimengerti oleh komputer. Hasil praproses kemudian dicocokkan pada sekelompok model pembelajaran mesin (machine learning) sehingga dapat dihasilkan suatu rangkaian kata yang paling mungkin secara statistik.

Contoh penerapan teknologi ini adalah pada aplikasi pengelolaan rapat dan aplikasi analitika percakapan telepon. Pada aplikasi pengelolaan rapat, pengenal ucapan digunakan untuk mentranskripsi rapat dan membuat risalah secara otomatis. Di sisi lain, aplikasi analitika percakapan telepon juga dapat mentranskripsi percakapan antara agen layanan pengaduan (call center) dengan pelanggan dan juga menganalisis lebih lanjut isi percakapan tersebut.

Pengenalan Pembicara

Pengenalan pembicara atau voice biometrics dapat menentukan identitas pembicara dari suaranya. Ucapan dari seorang pembicara diambil sidik suaranya untuk dibandingkan dengan sidik suara lain yang telah tersimpan. Ada dua skenario untuk pencocokan sidik suara ini:

  1. Skenario verifikasi, yakni ketika sidik suara yang diambil dari sebuah ucapan dicocokkan dengan sidik suara satu orang yang diminta. Tujuannya adalah untuk memverifikasi identitas si pengucap.
  2. Skenario identifikasi, yakni ketika sidik suara yang diambil dari sebuah ucapan dicocokkan dengan sidik suara dari banyak orang. Tujuannya adalah untuk mencari atau menentukan identitas pengucapnya.

Skenario identifikasi juga dapat digabungkan dengan pengenalan ucapan sehingga menghasilkan sistem diarisasi, yakni sistem yang mengubah ucapan menjadi teks sekaligus mengetahui pengucapnya. Di samping penentuan identitas, penentuan gender seorang pembicara dari suaranya juga tergolong pengenalan pembicara.

Gambaran proses pengenalan pembicara

Salah satu contoh penggunaan teknologi ini adalah dalam sistem biometrika suara yang memverifikasi suara seseorang melalui panggilan telepon. Setelah sidik suara orang tersebut didaftarkan, sistem ini akan melakukan pencocokan sidik suara ucapan penelepon baru dengan sidik suara terdaftar untuk menentukan apakah ucapan tersebut benar berasal dari orang tersebut atau tidak. Sistem biometrika suara dapat digunakan di industri perbankan untuk menghindarkan bank dari kasus-kasus penipuan lewat telepon.

Sintesis Ucapan

Berkebalikan dengan pengenalan ucapan, sintesis ucapan dapat menghasilkan ucapan dari teks yang diberikan. Teknologi ini dapat ditemukan di antaranya pada voicebot, aplikasi pemandu arah, dan aplikasi pembaca otomatis. Sintesis ucapan juga bermanfaat untuk meningkatkan keterjangkauan aplikasi bagi para penyandang disabilitas penglihatan.

Gambaran proses sintesis ucapan

Secara umum, teknologi sintesis ucapan terdiri dari dua bagian, yaitu pengolahan teks dan pengolahan sinyal. Pengolahan teks menerima teks masukan dan berusaha “menebak secara statistik” informasi-informasi yang diperlukan untuk menghasilkan ucapan yang alami. Informasi-informasi tersebut diolah lebih lanjut oleh bagian pengolahan sinyal sehingga menghasilkan bunyi-bunyi tertentu untuk dirangkai menjadi ucapan alami.

Teknologi sintesis ucapan telah digunakan pada sistem ujian seleksi CPNS (Calon Pegawai Negeri Sipil). Sistem tersebut dapat membacakan soal dan pilihan jawaban seleksi CPNS untuk membantu peserta penyandang disabilitas penglihatan dalam mengerjakan soal. Pembacaan soal menggunakan sintesis ucapan dapat memberikan keseragaman suara dibandingkan dengan pembacaan soal oleh petugas, selain juga meningkatkan efisiensi proses seleksi CPNS.

Paralinguistik dan Lainnya

Selain ketiga teknologi tersebut, terdapat teknologi-teknologi lain yang tercakup ke dalam teknologi ucapan. Salah satunya adalah teknologi paralinguistik, yang menyangkut aspek-aspek suara selain ucapan yang dapat mengomunikasikan emosi dan pikiran kita [1].

Pengenalan emosi pada ucapan melalui telepon merupakan contoh penerapan teknologi ini. Untuk beberapa industri, mengenali suasana hati dan emosi penelepon merupakan hal yang penting, contohnya dalam penilaian kepuasan pelanggan terhadap suatu layanan pengaduan. Pengenalan emosi mencoba mencari tahu emosi penelepon dari intonasi, nada dan volume bicara, serta kata-kata yang digunakan. Emosi yang dapat dikenali adalah senang, marah, kecewa, sedih, dan biasa-biasa saja.

Gambaran proses deteksi emosi

Aspek-aspek suara selain ucapan pun dapat digunakan untuk penyaringan video yang mengandung unsur pornografi. Kebanyakan video-video tersebut memiliki pola dan komposisi suara yang serupa dan berulang. Penyaringan berdasarkan aspek-aspek suara ini dapat melengkapi penyaringan video berdasarkan aspek visualnya untuk meningkatkan akurasinya. Sistem penyaringan ini telah digunakan pada aplikasi Netklin (Internet Sehat) yang merupakan hasil kerja sama antara Prosa.ai dan ITB dengan didukung Kemenristekdikti.

Hasil pengenalan ucapan yang berupa teks dapat diolah lebih lanjut oleh pengolahan bahasa alami (natural language processing), seperti dalam pendeteksian topik secara otomatis. Contoh penerapan teknologi ini ada dalam aplikasi analitika percakapan telepon untuk menentukan topik perbincangan antara agen layanan pelanggan sebuah bank dengan sang pelanggan. Hasil penentuan topik ini dapat dimanfaatkan lebih jauh, misalkan untuk analisis permasalahan yang banyak dialami oleh para pelanggan.

Rujukan

[1] “Komunikasi Nonverbal”. KajianPustaka.com. Diakses pada 26 Februari 2020.

Tim

  1. Devin Hoesen — Peneliti Penyelia Divisi Teknologi Ucapan Prosa.ai
  2. Rizky Elzandi Barik — Anggota Divisi Teknologi Ucapan Prosa.ai
  3. Marvin Jerremy Budiman — Anggota Divisi Teknologi Ucapan Prosa.ai
  4. Holy Lovenia — Anggota Divisi Teknologi Ucapan Prosa.ai
  5. Iftitakhul Zakiah — Anggota Divisi Teknologi Ucapan Prosa.ai
  6. Dessi Puji Lestari — Ketua Divisi Teknologi Ucapan Prosa.ai

--

--