Voice recognition dibagi menjadi dua jenis, yaitu speech recognition dan
speaker recognition. Speech recognition adalah proses identifikasi suara
berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat
penekanan suara yang kemudian akan dicocokkan dengan template database yang
tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara
dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai
speech recognition karena kompleksitas algoritma yang diimplementasikan lebih
sederhana daripada speaker recognition.
Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan
untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas
seseorang, dilakukan perbandingan kecocokan antara data biometric seseorang
dalam database berisi record karakter seseorang. Sedangkan verifikasi adalah
menentukan apakah seseorang sesuai dengan apa yang dikatakan terhadap dirinya.
Biometric recognition merupakan sistem pengenalan atau identifikasi seseorang
berdasarkan karakteristik biologis khusus yang dimiliki oleh orang tersebut.
Fungsinya selain untuk sistem keamanan dengan mengenali identitas seseorang,
juga untuk identifikasi penyakit yang diderita seseorang, keperluan militer, dan
lain-lain. Aplikasi biometric recognition antara lain retinal scan (identifikasi
berdasarkan pola pembuluh darah pada retina mata), fingerprint recognition
(identifikasi pola sidik jari unik pada setiap orang), face recognition
(pengenalan seseorang berdasarkan raut dan ekspresi seseorang dengan kunci utama
pada letak mata dan mulut), dan voice recognition.
Sedangkan voice recognition sendiri dibagi menjadi dua jenis, yaitu speech
recognition dan speaker recognition. Berbeda dengan speaker recognition yang
merupakan pengenalan identitas yang diklaim oleh seseorang dari suaranya (siri
khusus dapat berupa intonasi suara, tingkat kedalaman suara, dan sebagainya),
speech recognition adalah proses yang dilakukan komputer untuk mengenali kata
yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait.
Implementasi speech recognition misalnya perintah suara untuk menjalankan
aplikasi komputer.
Algoritma FFT (Fast fourier transform) merupakan salah satu metode untuk
transformasi sinyal suara menjadi sinyal frekuensi. Artinya proses perekaman
suara disimpan dalam bentuk digital berupa gelombang spektrum suara berbasis
frekuensi. Sedangkan algoritma implementasi algoritma divide and conquer
terletak pada pembagian objek permasalahan (data digital) menjadi upa masalah
yang diselesaikan secara rekursif dan kemudian menggabungkan solusi
masing-masing upa masalah sehingga membentuk solusi masalah semula pada tahap
akhir.
Terdapat 4 langkah utama dalam sistem pengenalan suara :
[1] Penerimaan data input
[2] Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
[3] Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
[4] Validasi identitas pengguna..
Secara umum, speech recognizer memproses sinyal suara yang mask dan
menyimpannya dalam bentuk digital. Hasil proses tersebut kemudian dikonversi
dalam bentuk spektrum suara yang kemudian dianalisa dengan membandingkannya
dengan template suara pada database sistem. Sebelumnya, data suara yang masuk
akan dipisah dan diproses satu persatu berdasarkan waktu masuknya. Pemisahan ini
dilakukan agar proses analisis suara dapat dilakukan secara paralel.
Proses yang pertama kali dilakukan adalah memproses gelombang spektrum suara
ke dalam bentuk diskrit. Langkah selanjutnya adalah proses kalkulasi yang
terdiri dari dua bagian, yaitu transformasi gelombang diskrit menjadi array
data, toap elemen array data akan dihitung ketinggian gelombangnya (baik
frekuensi ataupun amplitudonya).
Proses Divide and Conquer :
1. Memilih sebuah angka N, N adalah bilangan bulat kelipatan 2 yang berfungsi untuk menghitung jumlah elemen transformasi FFT.
2. Membagi dua data diskrit menjadi data diskrit yang lebih kecil berukuran N = N1.N2 .
3. Memasukkan objek data kedalam tabel.
4. Untuk setiap elemen data, dicocokkan dengan data pada template.
5. Setiap data array dianalisis secara keseluruhan.
6. Verifikasi datta.
Terdapat beberapa aplikasi yang dapat melakukan Speech Recognition
diantaranya, Microsoft Voice, dan Microsoft Dictation, dan Microsoft Speech to
Text, serta Microsoft Voice Recognition.
Microsoft Speech to Text dan Microsoft Dictation adalah aplikasi yang secara
default ada di windows.
Kesimpulan.
Speech Recognition adalah suatu jenis Biometric Recognition, yaitu Proses
komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang
dikonversi ke dalam digital print.
Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini,
sistem ini memungkinkan manusia berkomunikasi (memberikan instruksi) ke komputer.Hambatan Speech Recognition.
Speech Recognition akan menjadi terhambat apabila :
1. Suara yang disimpan dalam template berubah, misal pada saat kalibrasi
suara kita dalam kondisi fit, dan sekarang dalam kondisi hidung tersumbat, maka
otomatis frekuensi suara yang diterima oleh komputer akan berbeda.
2. Kondisi lingkungan yang berbeda, misalkan saat kalibrasi suara dalam
keadaan hening, dan saat eksekusi dalam kondisi berisik, maka data yang
seharusnya mudah dikonversi menjadi data biner akan menjadi tercampur dengan
suara - suara dari lingkungan.
Keuntungan Speech Recognition.
1. Mengurangi waktu untuk memberikan instruksi - instruksi umum, misal untuk
menjalankan sebuah aplikasi dan sebagainya.
2. Dapat dijadikan sebagai Biometrik untuk keamanan, frekuensi yang berbeda
dari setiap manusia dapat menjadikan voice recognition untuk memberikan
instruksi True dan False dalam security.
Sumber Referensi :
http://agusza.its-sby.edu/kuliah/citra/bab4_detail.html
http://www.dspguru.com/info/faqs/fftfaq.htm
http://mathworld.wolfram.com/FastFourierTransform.html
http://en.wikipedia.org/wiki/Spectrum_analyzer
http://en.wikipedia.org/wiki/Speaker_recognition
http://www.relisoft.com/Science/Physics/fft.html
http://en.wikipedia.org/wiki/Speech_recognition
0 Comments:
Post a Comment