Speech Recognition

Speech Recognition

Pengenalan ucapan atau pengenalan wicara, dalam istilah bahasa Inggris disebut Automatic Speech Recognition (ASR) adalah suatu pengembangan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Alat pengenal ucapan atau yang sering disebut dengan Speech Recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna.

Speech Recognizer pertama kali muncul di tahun 1952 dan terdiri dari device untuk pengenalan satu digit yang diucapkan. Kemudian pada tahun 1964, muncul IBM ShoeBox.

Salah satu teknologi yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical Transcriptionist (MT) merupakan aplikasi komersial yang menggunakan Speech Recognizer. Dan sampai sekarang banyak aplikasi yang dikembangkan menggunakan Speech recognizer, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-perfomance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user.

Ada dua pemodelan dasar untuk Speech Recognition, yaitu

1. Hidden Markov Model (HMM)-based recognition. Model ini digunakan pada Modern general-purpose speech recognition sistem. Model ini merupakan model yang statistikal dimana output adalah sekuens dari simbol atau kuantitas. Model ini digunakan karena sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal, selain itu model ini sederhana dan secara komputasional bisa digunakan.

2. Dynamic time warping (DTW)-based speech recognition, adalah pendekatan yang pernah sejarahnya digunakan untuk speech recognition yang sekarang sudah digantikan oleh model Hidden Markov. DTW pertama kali dikenalkan pada tahun 60an dan dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer.

Jenis-jenis pengenalan ucapan

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu

1. Kata-kata yang terisolasi. Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.

2. Kata-kata yang berhubungan. Proses pengidentifikasian kata hampir mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat.

3. Kata-kata yang berkelanjutan. Proses pengidentifikasian kata yang sudah lebih maju, karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu.

4. Kata-kata spontan. Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.

5. Verifikasi atau identifikasi suara. Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu:

1. Tahap penerimaan masukan

Masukkan berupa kata-kata yang diucapkan lewat pengeras suara.

2. Tahap ekstrasi

Tahap ini adalah tahap penyimpanan masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses ini dilakukan berdasarkan model Markov tersembunyi atau Hidden Markov Model (HMM). Hal pertama yang dilakukan adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati, parameter yang telah ditentukan tersebut kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses ini menghasilkan keluaran sebagai sinyal, sinyal tersebut dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Model sinyal secara garis besar dapat dikategorikan menjadi dua, yaitu:

a. Model deterministik: menggunakan nilai-nilai properti dari sebuah sinyal, seperti amplitudo, frekuensi dan fase dari gelombang sinus.

b. Model statistikal: menggunakan nilai-nilai statistik dari sebuah sinyal, seperti proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi.

Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:

a. N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.

b. M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.

c. Probabilita Perpindahan Bagian { } = ij A a

d. Probabilita Simbol Observasi pada bagian j, { } () = j Bb k

e. Inisial Distribusi Bagian i p p

Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :

a. Tahap ekstraksi tampilan

Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital

b. Tahap tugas pemodelan

Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital

c. Tahap sistem pengenalan HMM

Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.

3. Tahap pembandingan

Tahap ini merupakan tahap pencocokan data baru dengan data suara pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipisahkan dan diproses satu per satu berdasarkan urutannya. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

a. Transformasi gelombang diskrit menjadi data yang terurut

Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu

b. Menghitung frekuensi pada tiap elemen data yang terurut

Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner.

4. Tahap validasi identitas pengguna

Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.

Aplikasi Alat Pengenal Ucapan

1. Bidang Komunikasi

a. Komando Suara: suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris.

b. Pendiktean: sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation, yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.

c. Telepon, pada telepon teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara

2. Bidang Kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI).

3. Bidang Militer

a. Pelatihan penerbangan. Aplikasinya adalah pada pengatur lalu lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh pilot untuk mendapatkan keterangan mengenai keadaan lalu lintas udara seperti radar, cuaca dan navigasi.

b. Helikopter. Aplikasinya digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi.

Sumber:

http://id.wikipedia.org/wiki/Pengenalan_ucapan

http://www.informatika.org/~rinaldi/Stmik/2009-2010/Makalah2009/MakalahIF3051-2009-050.pdf

By nti0402

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s