Speech Recognition ~ Kaze Akira

Voice recognition dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai speech recognition karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker recognition.

Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas seseorang, dilakukan perbandingan kecocokan antara data biometric seseorang dalam database berisi record karakter seseorang. Sedangkan verifikasi adalah menentukan apakah seseorang sesuai dengan apa yang dikatakan terhadap dirinya.

Biometric recognition merupakan sistem pengenalan atau identifikasi seseorang berdasarkan karakteristik biologis khusus yang dimiliki oleh orang tersebut. Fungsinya selain untuk sistem keamanan dengan mengenali identitas seseorang, juga untuk identifikasi penyakit yang diderita seseorang, keperluan militer, dan lain-lain. Aplikasi biometric recognition antara lain retinal scan (identifikasi berdasarkan pola pembuluh darah pada retina mata), fingerprint recognition (identifikasi pola sidik jari unik pada setiap orang), face recognition (pengenalan seseorang berdasarkan raut dan ekspresi seseorang dengan kunci utama pada letak mata dan mulut), dan voice recognition.

Sedangkan voice recognition sendiri dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Berbeda dengan speaker recognition yang merupakan pengenalan identitas yang diklaim oleh seseorang dari suaranya (siri khusus dapat berupa intonasi suara, tingkat kedalaman suara, dan sebagainya), speech recognition adalah proses yang dilakukan komputer untuk mengenali kata yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait. Implementasi speech recognition misalnya perintah suara untuk menjalankan aplikasi komputer.

Algoritma FFT (Fast fourier transform) merupakan salah satu metode untuk transformasi sinyal suara menjadi sinyal frekuensi. Artinya proses perekaman suara disimpan dalam bentuk digital berupa gelombang spektrum suara berbasis frekuensi. Sedangkan algoritma implementasi algoritma divide and conquer terletak pada pembagian objek permasalahan (data digital) menjadi upa masalah yang diselesaikan secara rekursif dan kemudian menggabungkan solusi masing-masing upa masalah sehingga membentuk solusi masalah semula pada tahap akhir.

Terdapat 4 langkah utama dalam sistem pengenalan suara :
[1] Penerimaan data input
[2] Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
[3] Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
[4] Validasi identitas pengguna..

Secara umum, speech recognizer memproses sinyal suara yang mask dan menyimpannya dalam bentuk digital. Hasil proses tersebut kemudian dikonversi dalam bentuk spektrum suara yang kemudian dianalisa dengan membandingkannya dengan template suara pada database sistem. Sebelumnya, data suara yang masuk akan dipisah dan diproses satu persatu berdasarkan waktu masuknya. Pemisahan ini dilakukan agar proses analisis suara dapat dilakukan secara paralel.

Proses yang pertama kali dilakukan adalah memproses gelombang spektrum suara ke dalam bentuk diskrit. Langkah selanjutnya adalah proses kalkulasi yang terdiri dari dua bagian, yaitu transformasi gelombang diskrit menjadi array data, toap elemen array data akan dihitung ketinggian gelombangnya (baik frekuensi ataupun amplitudonya).

Proses Divide and Conquer :
1. Memilih sebuah angka N, N adalah bilangan bulat kelipatan 2 yang berfungsi untuk menghitung jumlah elemen transformasi FFT.
2. Membagi dua data diskrit menjadi data diskrit yang lebih kecil berukuran N = N₁.N₂.
3. Memasukkan objek data kedalam tabel.
4. Untuk setiap elemen data, dicocokkan dengan data pada template.
5. Setiap data array dianalisis secara keseluruhan.
6. Verifikasi datta.

Terdapat beberapa aplikasi yang dapat melakukan Speech Recognition diantaranya, Microsoft Voice, dan Microsoft Dictation, dan Microsoft Speech to Text, serta Microsoft Voice Recognition.

Microsoft Speech to Text dan Microsoft Dictation adalah aplikasi yang secara default ada di windows.

Kesimpulan.

Speech Recognition adalah suatu jenis Biometric Recognition, yaitu Proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam digital print.

Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini, sistem ini memungkinkan manusia berkomunikasi (memberikan instruksi) ke komputer.

Hambatan Speech Recognition.
Speech Recognition akan menjadi terhambat apabila :

1. Suara yang disimpan dalam template berubah, misal pada saat kalibrasi suara kita dalam kondisi fit, dan sekarang dalam kondisi hidung tersumbat, maka otomatis frekuensi suara yang diterima oleh komputer akan berbeda.

2. Kondisi lingkungan yang berbeda, misalkan saat kalibrasi suara dalam keadaan hening, dan saat eksekusi dalam kondisi berisik, maka data yang seharusnya mudah dikonversi menjadi data biner akan menjadi tercampur dengan suara - suara dari lingkungan.

Keuntungan Speech Recognition.

1. Mengurangi waktu untuk memberikan instruksi - instruksi umum, misal untuk menjalankan sebuah aplikasi dan sebagainya.

2. Dapat dijadikan sebagai Biometrik untuk keamanan, frekuensi yang berbeda dari setiap manusia dapat menjadikan voice recognition untuk memberikan instruksi True dan False dalam security.

Sumber Referensi :

http://agusza.its-sby.edu/kuliah/citra/bab4_detail.html
http://www.dspguru.com/info/faqs/fftfaq.htm
http://mathworld.wolfram.com/FastFourierTransform.html
http://en.wikipedia.org/wiki/Spectrum_analyzer
http://en.wikipedia.org/wiki/Speaker_recognition
http://www.relisoft.com/Science/Physics/fft.html
http://en.wikipedia.org/wiki/Speech_recognition

Pages

Google Translate

Total Pageviews

Followers

Weather Today

Labels

Blog Archive

Blog List

Friends

Sunday, November 20